Text
                    jiii1ii|iiiiMlini!B|i;iyi'l^H'l''i|b|illHi!<Li'i№i1i|iiWfiiiriil!WilHirri''iiii ' i|i ^ ι iiu'luli i I ι IH I %iil»1'i'"M»iM|i
ί ι
' К-СПЙДИ
Ρ ВРАУЙ
ДЖГУДВИО
ί
i.llllllHllUll.lHIIIflll II, I | ll|ll ll Ι.»Π»|ΐ.»|Μ.ι|ι И | |ll | I I» Hi Hull ,„> |
ТЕОРИЯ
УПРАВЛЕНИЯ


С. В. SPEEDY Professor and Head, Department of Control Engineering, Head of School of Electrical Engineering, University of New South Wales, Australia R. F. BROWN Lecturer, Department of Control Engineering, School of Electrical Engineering, University of New South Wales, Australia G. С GOODWIN Research Student and Part-Time Lecturer, Department of Control Engineering, School'of Electrical Engineering, University""of South Wales, Australia CONTROL THEORY: Identification and Optimal Control •OLIVER AND BOYD EDINBURGH 1970
к. спиди Р. БРАУН Дж. ГУДВИН ТЕОРИЯ УПРАВЛЕНИЯ Идентификация и оптимальное управление Перевод с английского Ю. Ф. КИЧАТОВА Издательство « Мир » Мрсква 1973
1УДК 62.505 Книга австралийских специалистов представляет собой учебное пособие по курсу идентификации, вошедшему в программы технических университетов за рубежом. В ней рассмотрены основные понятия, используемые при построении математических моделей, уделено внимание современным постановкам задач управления. Систематически описаны методы оценивания параметров и состояний линейных и нелинейных систем, модификация метода наименьших квадратов, рекуррентные процедуры оценивания, статистические задачи идентификации; приведены необходимые условия оптимальности, принцип оптимальности Понтрягина, уравнения Гамильтона — Якоби, решение матричного, уравнения Риккати. Рассмотрены также линейная и нелинейная задачи управления, субоптимальные управления и вопросы квазилинеаризации, много внимания уделено иллюстрации задач идентификации и управления. Книга предназначена математикам, экономистам, специали-' стам в области теории управления и АСУ. Редакция литературы по новой технике © Перевод, на русский язык, «Мир», 1973 3314-171 (Ш(01)-73 Спиди и др. ТЕОРИЯ УПРАВЛЕНИЯ Редактор В. Н. ШЕМАНИНА Художник Г. Д. Коняхина. Художественный редактор Ю. С. Урманчеев Технический редактор Л. П. Бирюкова Сдано в набор 30/1 1973 г. Подписано к печати 10/V 1973 г. Бумага кн. жури. 60χ901/ιβ=7,75 бум. л. 15,5 усл. печ. л., Уч.-изд. л. 14,31. Изд. Я» 20/6829 Цена 1 р. 20 к. Зак. 0856 ИЗДАТЕЛЬСТВО «МИР» Москва, 1-й Рижский пер., 2 Ордена Трудового Красного знамени Московская типография Ν» 7 «Искра революции» Союзполнграфпрома при Государственном Комитете Совета Министров СССР по делам издательств, полиграфии и книжной торговли. Москва, К-1, Трехпрудный пер., 9
Предисловие переводчика Каждый месяц во всем мире выходят в свет десятки работ по автоматическому управлению. Все чаще в названиях этих работ — и абстрактных теоретических и прикладных — встречается термин «идентификация». Потребности практики, на первых порах главным образом потребности управления техническими системами, привели к бурному развитию этой области. Методы идентификации и оптимального управления уверенно шагнули в практику, и интерес к ним продолжает расти. С одной стороны, высокая стоимость натурных исследований управляемых технологических процессов, трудности, а порой и невозможность проведения детальных экспериментов, наличие случайных факторов и, с другой стороны, необходимость математического описания для построения систем управления различной степени точности и сложности — вот смысл вызова, который практика бросила теории. Решение возникающих задач потребовало разработки нового математического аппарата и привлечения результатов из смежных областей математики и техники. Потребности развития теории вызвали необходимость проведения абстрактных исследований, результаты которых неожиданно быстро нашли применение. Границы области приложений раздвигаются все шире, захватывая сферы управления природными ресурсами, происходит вторжение точных методов управления в мир, где объекты управления — это системы, включающие человека. Процесс взаимного обогащения теории и практики зависит от'мно- гих организационных мер, в том числе от системы подготовки кадров. В настоящее время во многих высших учебных заведениях у, нас в стране и за рубежом читают курсы идентификации. Пробел в учебной литературе по этому предмету может быть в какой-то мере заполнен книгой проф. Спиди и его сотрудников Брауна и Гудвина из Университета Нового Южного Уэльса (Австралия). Доступная студенту-старшекурснику технического вуза, книга вводит читателя в круг идей и методов, используемых при идентификации и построении оптимальных управляющих устройств. В книге четко проводится ориентация на применение средств вычислительной техники. Многие понятия иллюстрируются хорошо продуманными примерами.
6 Предисловие переводчика Авторам удалось охватить обширный разнообразный материал, на подборе которого, естественно, отразились их личные вкусы и интересы. В некоторых случаях строгости изложения материала предпочитается его доступность. Это относится в первую очередь к разделам, посвященным случайным воздействиям и псевдослучайным пробным сигналам. В списке литературы почти отсутствуют ссылки на работы советских исследователей. И хотя книга не лишена известных недостатков, ее издание несомненно принесет большую пользу. Ю. Кичатов
Предисловие Цель этой книги состоит в изложении современной теории управления применительно к техническим приложениям. Книга в равной степени охватывает такие области, как моделирование систем, идентификация параметров и оптимальное управление. Рассмотрение ограничивается динамическими системами, которые приближенно могут быть описаны нелинейными обыкновенными дифференциальными уравнениями с переменными коэффициентами. Там, где это требуется, сделаны специальные ссылки на результаты, применимые к линейным системам. Упор на технические приложения достигается за счет математической строгости. Особое внимание уделяется рекуррентным методам, которые обязаны своим появлением применению вычислительных машин для оценки параметров моделей, состояний систем и функций оптимального управления. Для получения численных результатов широко используются релаксационные методы и методы сопряженных градиентов. В то же время вполне очевидно, что прежде чем на основе стандартных подходов можно будет удовлетворительно синтезировать оптимальные управляющие устройства для более сложных процессов, потребуется ^большая исследовательская работа. В книге делается попытка представить положение дел в этой области, а также указать направление дальнейшего развития исследований. Поскольку большая часть материала излагается с использованием дифференциальных уравнений и, следовательно, временного представления, для изучения рассматриваемых вопросов нет необходимости предварительно ознакомиться с методами частотного анализа, используемыми в классической теории управления. Однако знание классической теории, несомненно, позволит лучше оценить современную теорию. Аналогично предварительное введение в векторный и матричный анализ, а также рассмотрение векторных дифференциальных уравнений, хотя это и желательно, не имеют особого значения. В книге широко используются и численные и вариационные методы, но приложения основываются на общих понятиях, так что не обязательно, чтобы читатель был хорошо знаком с вычислительными методами и вариационным исчислением. В последних частях гл. 5 и 6, относящихся к анализу ошибок, широко используется статистическая корреляционная теория. Следует отметить,
8 Предисловие что этот материал трудно усвоить при первом чтении без предварительного знакомства со статистическим анализом сигналов. Уровень изложения в этой книге определился на основе опыта чтения лекций в течение нескольких лет для выпускников и аспирантов кафедры электротехники в Университете Нового Южного Уэльса. Материал лекций почти полностью оказался доступным для студентов последнего года обучения. Исключение составляют последние разделы гл. 5 и 6, которые при первом чтении можно опустить. Практические примеры, требующие программирования на вычислительной машине и численных расчетов, вызвали у студентов большой интерес и существенно помогли им в усвоении предмета. За исключением гл. 8, в которой собраны основные результаты предыдущих глав, все главы в значительной мере самостоятельны, и их можно читать в любом порядке. Однако выбранный порядок глав обеспечивает логическую последовательность материала. В конце глав приведены литературные ссылки. Часть из них предназначена Для параллельного чтения и помогает закреплению излагаемого материала, а другая часть рекомендуется для более углубленного чтения. В написании книги помогали многие сотрудники кафедры и студенты Университета Нового Южного Уэльса, которым авторы выражают свою признательность. К. Спиди Р. Браун Дж. Гудвин
Глава 1 ВВЕДЕНИЕ Известно, что точное управление космическими системами оказалось возможным только с появлением надежных быстродействующих вычислительных машин. Как и следовало ожидать, потребность в подобных системах стимулировала развитие новых теоретических представлений. Именно такие идеи и составляют основу излагаемой ниже современной теории управления. В настоящей работе внимание сосредоточено на системах с входами и выходами, допускающими измерение. Входы, которые можно изменять, называются управлениями. Упрощенно цель работы можно сформулировать как непрерывный подбор таких управлений, при которых выходы принимают желаемые значения. Системы, представляющие интерес, имеют такие динамические характеристики, что управляющий вход в один момент времени действует на выход в последующие моменты времени. В связи с этим одной из основных проблем является описание систем, обеспечивающее предсказание последствий от управлений в данный момент времени. Учитывая это требование, в следующей главе авторы рассматривают построение математических моделей, описывающих динамические характеристики типичных систем с помощью дифференциальных уравнений. При использовании подобной математической модели для построения реакции системы на заданный вход потребуется решать дифференциальные уравнения. При интегрировании дифференциальных уравнений в основном используются численные методы. Поэтому тем аспектам численного анализа, которые требуются при дифференцировании и интегрировании функций времени и решении дифференциальных уравнений, посвящена отдельная небольшая глава. Сигналы управления, которые мы ищем,— это сигналы, вынуждающие систему работать в некотором периоде в будущем наилучшим в каком-то смысле образом. Для измерения эффективности выбранного управления мы вводим скалярный критерий ошибки — некоторую простую меру качества управления. Таким образом, задача сводится к отысканию управления, обеспечивающего наименьшее значение этого критерия. Некоторые характеристики такого процесса минимизации описаны в гл. 4. На основании результатов более ранних работ по моделированию· систем излагаются методы оценивания коэффициентов модели по после-
10 Глава 1 довательностям наблюдений над системой. В гл. 5 рассматриваются различные методы, пригодные для оценивания коэффициентов модели по измерениям входов и выходов в случае линейных систем. Особое внимание уделяется использованию специальных пробных сигналов, например псевдослучайного двоичного шума. Далее более подробно исследуется воздействие шума и возмущений на точность полученных оценок. Эту часть книги рекомендуется оставить для повторного чтения. Несколько иные методы используются в гл. 6, где исследуется идентификация коэффициентов моделей, описываемых нелинейными уравнениями; вводятся релаксационные методы, и решения получаются с использованием методов сопряженных градиентов; разрабатываются более тонкие процедуры, использующие кривизну поверхности ошибки, и, наконец, исследуется воздействие шума. Последнюю часть этой главы при первом чтении также можно опустить. . В гл. 7 мы предполагаем, что модель и ее коэффициенты известны полностью, и выводим необходимые условия минимума критерия ошибки. Эти условия получаются в форме системы вспомогательных дифференциальных уравнений, которые должны удовлетворяться вместе с уравнениями модели. Следующие условия определяют граничные условия для этих уравнений. В случае линейных уравнений модели получаются некоторые частные результаты и приводится их вывод. Наконец, в гл. 8 обсуждаются методы синтеза оптимального управления линейными и нелинейными системами. В частности, авторы подчеркивают принцип адаптивного оптимального управляющего устройства, чтобы показать тесную взаимосвязь между оцениванием параметров модели, оцениванием состояний и вычислениями оптимального управления.
Глава 2 МАТЕМАТИЧЕСКОЕ ОПИСАНИЕ ФИЗИЧЕСКИХ СИСТЕМ 2.1. Математические модели Чтобы определить управление, которое требуется подать на систему, необходимо уметь предсказывать реакцию системы на некоторое множество возможных управляющих входов. Такое предсказание может быть получено по реакциям на ранее подававшиеся входы или путем использования математической модели системы. Рассматриваемые системы имеют динамический характер, и по этой причине их математические модели имеют вид систем дифференциальных уравнений. Эти уравнения описывают движения системы с помощью ее состояний и управляющего входа. Из практических соображений выбираются модели возможно более простой формы в зависимости от требуемой точности предсказания. В этой главе рассматривается структура этих моделей, обычно определяемая после тщательного исследования динамики системы. Задача определения наилучшего множества коэффициентов для этих уравнений обсуждается в гл. 5 и 6. Обычно системы характеризуются наличием входов и выходов, причем те переменные, которые находятся под непосредственным управлением, связывают с входными, а остальные — с выходными переменными. Переменные, которые появляются при описании внешних воздействий на систему и которыми мы не можем управлять, называются входными возмущениями. При изучении составных частей системы (что необходимо при построении математических моделей) различие между компонентами — входами и" выходами — бывает нечетким. В таких случаях возникает необходимость принимать произвольные решения (эти вопросы рассматриваются в начале главы). Построение математической модели представляет собой процедуру, которая не следует никакому конкретному неизменному образцу. Существенным требованием является близкое сходство модели с объектом; необходимо также учитывать важность того, что окончательная модель должна иметь простую форму. Вследствие этого в процессе построения модели, помимо научного подхода, приходится проявлять настоящее искусство. При изложении данной части работы приводится много примеров, в которых используются некоторые из наиболее часто встречающихся понятий математического моделирования.
12 Глава 2 Говоря о процессе синтеза преобразователя, необходимо подчеркнуть, что критерий качества, по которому производится оценивание результатов синтеза, особенно важен и что этот критерий непосредственно влияет на структуру процесса синтеза. Далее рассмотрен процесс моделирования потока автомобильного транспорта и показано, каким образом его можно приближенно описать с помощью обыкновенных дифференциальных уравнений, содержащих временные запаздывания, учитывающие время реакции водителя. Затем исследуется нагревательный колодец для стальных слитков. В этом случае приближенно анализируется двумерный тепловой поток, описываемый дифференциальным уравнением в частных производных с двумя пространственными и одной временной независимыми переменными. Наконец, при рассмотрении пароперегревателя, учитывая балансы энергии, сил и массы, мы покажем, что эта система также описывается дифференциальными уравнениями в частных производных. Рассмотренные примеры ни в коей мере не исчерпывают все возможные случаи. Они показывают лишь разнообразие систем, которые могут быть моделированы, и получаемые при этом дифференциальные уравнения. Вследствие большого разнообразия систем в структуру моделей необходимо ввести некоторую меру общности или однородности. Известно, что этого можно достичь, используя переменные состояний и соответствующие уравнения состояний. Последние представляют собой систему обыкновенных дифференциальных уравнений первого порядка, которые в общем случае могут быть нелинейными и нестационарными. Для некоторых целей, например при вычислениях на ЭЦВМ, этим уравнениям можно придать форму разностных уравнений. Типичные методы преобразования уравнений динамики систем к каноническому виду уравнений состояний описываются на примерах физических систем, рассмотренных в этой главе. Очевидно, что для определенных систем на некоторые состояния некоторые управления могут не влиять и некоторые состояния не могут быть определены непосредственно по измерениям выходов системы. Эти ситуации приводят к понятиям управляемости и наблюдаемости. Приводится пример, показывающий, каким образом могут возникать неуправляемость и ненаблюдаемость. Кроме ненаблюдаемых и неуправляемых состояний, при математическом моделировании возникает проблема неизмеряемых входов, имеющих вид нежелательных возмущений или помех. Об этой проблеме в настоящей главе имеется лишь краткое упоминание, причем рассмотрен только случай белого шума. Шумовым сигналам гораздо больше внимания уделено в последующих главах. В конце главы рассмотрен метод, используемый обычно для аппроксимации моделей с распределенными параметрами эквивалентными моделями с сосредоточенными параметрами. В качестве примера выбрана система двумерного теплового потока в стальном слитке.
Математическое описание физических систем 13 Первым шагом при построении оптимального управления является формулирование математических уравнений, связывающих переменные системы. Уравнения служат, моделью физической системы, позволяющей осуществлять численные эксперименты. Все это дает следующие очевидные преимущества. 1. Численные эксперименты, проводимые, например, с помощью ЭЦВМ, точно воспроизводимы. Таким образом, неожиданные результаты можно проверить и установить их причину, повторяя эксперимент в одних и тех же условиях. 2. Масштабы экспериментов, проводимых, например, на промышленном объекте, ограничиваются такими экономическими факторами, как стоимость измерительных приборов, затраты труда, вероятность выпуска продукции неудовлетворительного качества из-за неправильной постановки эксперимента или даже повреждения самого объекта. В то же время гибкость численных экспериментов наряду ■с их полной безопасностью обычно вполне компенсирует затраты на программирование и машинное время. 3. Масштаб времени в численных экспериментах может быть на несколько порядков меньше реального масштаба времени процессов в физической системе. Это существенно ускоряет исследование воздействий на критерий, определяющий различные настраиваемые параметры и стратегии управлений. При этом открываются также бесконечные возможности управления в реальном масштабе времени с помощью аналоговых или цифровых вычислительных машин. 2.2. Соотношение между входом 'и выходом Систему, схематически показанную на фиг. 2.1, можно считать связанной с внешней средой через входы (датчики) и выходы (исполнительные элементы). Мы можем измерять некоторые входы и выходы, описывающие часть внешней среды, и, очевидно, Система Входы Выходы Среда Φ и ζ. 2.1. Связь системы со средой. управлять некоторыми входами. Входы, которыми мы не можем управлять, называются возмущениями. Задача идентификации сводится к установлению математических соотношений между измеряемыми входами и выходами при заданных изменениях во времени входов и выходов. Для такой системы, как промышленный объект, блок, называемый системой, лучше всего рассматривать как набор взаимосвязанных элементарных систем. Основное различие между элементарной системой и системой в целом заключается в том, что соотношения
14 Глава 2 вход — выход для элементарной системы можно описать, основываясь на физических законах или проверенных эмпирических соотношениях. Проиллюстрируем такой подход на примере электрической цепи. Любую электрическую цепь произвольной сложности можно синтезировать из четырех основных типов элементов: L, С, R и источников напряжения. Между элементарными системами 4zdt ■ - Α*'3ίγ Катушка 1 ί2 *>t -, i Катушка 1 ':\ , ι , ι Ч Остальная часть цепи - α δ Фиг. 2.2. Взаимосвязанные катушки. промышленного объекта и элементами электрической цепи существует интересная аналогия: и в том и в другом случае они не обязательно должны означать физические компоненты. На фиг. 2.2, α показаны взаимосвязанные катушки, для которых связь между напряжениями на концах и контурными токами описывается матричным уравнением И- #1 + £ll dt Lzi -тг _d_ dt R2 + L (2.1) Мы видим, что для описания соотношений между напряжениями на катушках требуются три элемента: например, Для катушки необходимы Lt j, Ri и источник напряжения Lt 2 (di2/dt), зависящий от тока. Другое представление двух катушек, которому соответствует фиг. 2.1, показано на фиг. 2.2, б. Заметим, что v^, vz обозначены для катушек как входы, a it и i2 — как выходы. Несложные рассуждения показывают, что такое разбиение совершенно произвольно и что четыре переменные it, i2, ι>ι, νζ точно так же можно разбить на любые другие группы из двух пар. 2.3. Построение математической модели Закончив изложение с использованием абстрактных понятий, рассмотрим некоторые характерные практические задачи и покажем, что важные выводы получаются совершенно естественно. Поскольку
Математическое описание физических систем 15 эти задачи используются в первую очередь для иллюстрации идей, мы подобрали их из разных областей, предпочитая те, ход решения которых может оказаться более знаком читателю. Техническое проектирование Оптимальное управление в математическом отношении имеет много общего с техническим проектированием. Рассмотрим пример расчета силового трансформатора. Первым шагом является выбор критерия — величины, значение которой должно достигать минимума или максимума в результате проектирования. Возможными критериями являются следующие. 1. Максимизация выходной мощности с ограничениями на объем железа, объем меди, магнитные потери в железе и омические потери в меди. 2. Максимизация выходной мощности с ограничениями на общий вес и общие потери мощности. Как мы видим, в этом случае ограничения значительно меньше, чем в случае. 1. 3. Минимизация общего веса (или общей стоимости материалов) с заданными ограничениями на выходную мощность и потери мощности. 4. Минимизация общей стоимости, включающей стоимость материала и стоимость уменьшения прибыли от капиталовложений из-за возможных потерь мощности. Вторым шагом является выбор модели трансформатора, используемой в рассматриваемой задаче. Обычно на практике вначале принимается решение о величине магнитного потока В в железе и плотности электрического тока / в меди. По закону индукции Фарадея расчетное первичное напряжение Vp связано с числом первичных витков Np, площадью поперечного сечения AFe и круговой частотой ω соотношением (oBAFeNp>Vp. (2.2) Заметим, что это соотношение имеет вид неравенства, так как трансформатор может, быть спроектирован консервативно для работы с первичным напряжением, превышающим расчетное значение Vp. Считая, что площадь поперечного сечения меди Aq^ равномерно распределена между первичной и вторичной обмотками, получаем еще одно неравенство для расчетного значения первичного тока 1Р: >1Р. (2.3) ' ρ Умножая левую часть (2.2) на левую часть (2.3), для омической нагрузки получаем ±-(oBJAFeACu>PL, (2.4)
16 Глава 2 где PL — мощность нагрузки. Потеря мощности в двух медных контурах равна Рс» = ~^ (JAaJ* = pJ*VCu, (2.5) где ρ — удельное сопротивление меди; LGu — средняя длина медного контура; Fcu = ^си-^си — объем меди. Потеря мощности за счет рассеяния в железе выражается эмпирическим соотношением Стейнметца PFe = const (DBnV?e, (2.6) где Ffe — объем железа и η = 3,5 при рабочем потоке 1,6 веб/м2. Наконец, площади сечений и объемы железа и меди связаны с линейными размерами трансформатора. Уравнения (2.4)—(2.6) и геометрические ограничения размеров трансформатора — это все, что требуется для решения исходной задачи. Детально этот вопрос изложен в книге Даффина, Питерсона л Зенера [3]. Особый интерес представляет здесь то, что при формулировании математических уравнений одновременно используются физические законы, эмпирические соотношения и технические соображения. Управление транспортом Гейзис [4] рассматривает задачу максимизации потока автомобилей, движущихся в один ряд. Интуитивно напрашивается модель, в которой ускорение каждого автомобиля с задержкой, равной времени реакции водителя Τ секунд, пропорционально относительной скорости следующего впереди автомобиля. Таким образом, если χ (п, t) — мгновенное положение п-то автомобиля и если следующий впереди автомобиль имеет номер (п — 1), то JLx(n,t+T)±a[-±-z(n-i,t)—±-z(n,t)]. (2.7) В этом уравнении α — постоянная, называемая чувствительностью. Поскольку -Lx(p,t) = ±z(n-l,t)--±--^z(nrt + T), легко видеть, что чем больше значение а, тем быстрее каждый водитель реагирует на изменение скорости предыдущего автомобиля. Действительно, в пределе все автомобили во все моменты времени имеют одинаковые скорости. Следует ожидать, что чувствительность обратно пропорциональна расстоянию между автомобилями, а не постоянна. Поэтому более точная модель должна иметь вид -^χ{η, t + T) = a0[ я(д_М)_я(Д|<) J. (2.8)
Математическое описание физических систем 17 где ао — постоянная. Но уравнение (2.7) — существенно более простая линейная модель, тогда как модель (2.8) нелинейная. Постоянные α и Τ или α0 и Τ являются эмпирическими, т. е. их следует выбирать так, чтобы предсказанный выход модели наиболее точно соответствовал реальной ситуации. Для того чтобы модель (2.7) или (2.8) задавала управление, следует выбрать критерий. При этом могут быть предъявлены следующие требования: 1. Скорость автомобиля ν должна быть заданной функцией расстояния у между машинами: ν — F (у). 2. Чтобы поддерживался равномерный поток машин, маневрирование путем ускорения и замедления должно быть минимизировано: минимизировать а, где а — ускорение. 3. Скорость автомобиля должна иметь некоторое желаемое значение vd. Таким образом, в данном случае критерием может быть минимизация интеграла / = j {[v-F {y)Y + %^ + [,{v-VdY}dt, (2.9) to где λ, μ — соответствующие положительные веса. Хотя в этом примере мы вычисляем среднее значение по интервалу времени от t0 до tf, точнее было бы проводить усреднение для одного автомобиля по участку дороги от х0 до Xj. Следует отметить, что при минимизации J необходимо принимать во внимание ограничения, налагаемые физической системой. 1. Автомобиль имеет наибольшее ускорение аи (ν), быстро убывающее с увеличением скорости движения, и предел замедления или торможения а\. Таким образом, верхний и нижний пределы ускорения определяются соотношением ai*Ca?Cau(v). (2.10) 2. Существует ограничение сверху на скорость vu, определяемое правилами движения, и ограничение снизу — требование, чтобы машина не двигалась назад: ОООи. (2.11) Математическая модель нагревательных колодцев Рассмотрим работу по моделированию, описанную Кунгом, Дамом и де Ленси [6] в связи с цифровым управлением одним из участков сталелитейного производства. Рассмотрим операции от разливки стали в изложницы до прокатки слитков (фиг. 2.3). После того как сталь затвердела, слитки выдавливают из изложницы и передают в нагревательные колодцы. Здесь их нагревают до постоянной температуры, чтобы они стали^обФвадчвдг-коттпт^и их можно было
18 Глава 2 прокатать, например, в полосы. Время от выхода стали из печи до поступления на прокатный стан по смыслу разделяется на четыре периода, показанные на фиг. 2.3, и для каждого периода справедлива своя модель. / 2 > го Л Периоды Ш IV. Фиг. 2.3. Часть процесса производства стали. 1 — печь; 2 — изложницы; з — транспортировка слитков в нагревательные колодцы; 4 — нагревательные колодцы; S — транспортировка слитков на прокатку; β —прокатный _стан. Математическая модель желательна по двум причинам. V. Она позволяет изучить распределение температур в слитках между операциями разливки и прокатки и оценить минимальное , ζ (Вертикаль) ' χ (горизонталь) 0X)dydz pXzdydz^Xldydz -(скорость накопления тепла Во5ъеме dxdyaz за счет компоненты х) dx (горизонтали) Фиг. 2.4. Распространение потока тепла. время, необходимое для нагревания слитков в нагревательных колодцах. На некоторых сталелитейных заводах для вычисления времени нагрева используются цифровые вычислительные машины. Имеется сообщение об уменьшении времени нагрева на 20—50%.
Математическое описание физических систем 19 1 SO I 1 40 а 2. При моделировании на вычислительной машине можно точно оценить производительность нагревательного колодца и произвести оценку планов расширения основного оборудования. Рассмотрим модель для периода между операциями разливки стали и выдавливанием слитка из изложницы. Для простоты пренебрежем тепловым потоком (отношение приращения тепла к поперечному сечению) по длине слитка вдоль вертикальной координаты ζ по сравнению с тепловым потоком в горизонтальной плоскости ху. В этом случае распределение температур становится двумерным. Пусть ψχί Фи — компоненты теплового потока по осям χ я у. Обратимся к фиг. 2.4: — (приращение тепла в объеме dx dy dz) = « О 500 WOO 1500 Температура, °/Г гооо = d$xdydz-{- d<j>u dx dz = (2.12) (Ts) где Допустим, ЧТО fCg — Ко и Т. = Т. (х, у, t), ks— теплопроводность стали и Тв — температура стали. Тогда по аналогии с законом Ома фх= —к, дх ду % 0,60 ί ^0,30 I f 1' I 1750 " —ι—э~ (2.13) 500 1000 1500 Температура, °К гооо Фиг. 2.5. Зависимость теплопроводности (α) и теплоемкости (б) от температуры. 1 — слиток малоуглеродистой стали; 2 — чугунная изложница. теплопроводности слитка Здесь предполагается, что теплопроводность стали в направлениях χ и у одинакова. Зависимость температуры от и изложницы показана на фиг. 2.5, а. Подставляя выражения (2.13) в (2.12), получаем -(Ρ8άχάϋάζ)α,ψ = [1(-^)+^(-^)]άχ dy dz,
20 Глава 2 где рэ — плотность стали; сэ — удельная теплоемкость стали. Таким образом, уравнение для теплопроводности в слитке имеет вид дТя д /7. jTg_\ Л__д_ (ь дТе PsCs №)+*№)■ <2·14> dt дх V'"" дх Зависимость удельной теплоемкости стали от температуры показана на фиг. 2.5, б. --. На фиг. 2.6 показан один квадрант поперечного сечения слитка и изложницы. При остывании расплавленной стали на ней образуется окалина и одновременно происходит усадка, поэтому между слитком и изложницей появляется очень узкий воздушный зазор. Поток тепла, возникающий вследствие излучения через воздушный зазор в направлении оси зг, определяется выражением "~К8 дта дх =? FsmP (Tie—Tms) — #n дТгп дх (2.15) Изложница Слиток где Тт — температура внутри изложницы; Tss — температура поверхности стали; Тт„ — температура поверхности изложницы; σ — коэффициент теплопередачи из- *У ] лучением абсолютно черного тела; Fет—безразмерный эмпирический коэффициент, корректирующий отклонение от закона излучения абсолютно черного тела. Выражение, аналогичное (2.15), справедливо для излучения через воздушный зазор в направлении у. В свою очередь, мы можем записать уравнение, аналогичное уравнению (2.14) для распространения тепла в слитке, и уравнения для направлений х, у, описывающие излучение с поверхности изложницы в атмосферу, аналогичные уравнению (2.15) для направления х. Эта задача приводит к системе дифференциальных уравнений в частных производных для слитка, воздушного зазора и изложницы •вместе с краевыми условиями на поверхности слитка и на внутренней и внешней поверхностях изложницы. Кроме того, должны быть заданы начальные условия. Обычно можно считать, что слиток и изложница в начальный момент времени находятся при постоянных температурах. В разд. 2.7 мы покажем, как можно использовать конечно-разностные приближения для сведения уравнений в частных производных этого типа к обыкновенным дифференциальным уравнениям для аналоговых вычислений или к алгебраическим уравнениям для цифровых вычислений. " воздушный зазор (npeneffpeoKUMO малой ширимы) Фиг. 2.6. Квадрант поперечного сечения слитка и изложницы. ^
Математическое описание физических систем 21 Динамические уравнения перегревателя Перегревателем на тепловых электростанциях является теплообменник. Пар, протекающий через батареи труб, перегревается за счет тепла, подводимого к трубам путем излучения от горячей топки и за счет теплопроводности от горячего топочного газа, протекающего между трубами. Рассмотрим простую модель, состоящую из прямой трубы круглого сечения, к которой поступает заданный поток тепла на единицу длины. Мы увидим далее, как три основных закона физики — законы сохранения, энергии, количества движения и массы — применяются в этой задаче для вывода уравнений динамики. Баланс энергии На фиг. 2.7 показан элементарный участок трубы длиной δχ с поперечным сечением А заданного объема (обведен штриховой линией), для которого должно выполняться уравнение баланса. 1 I I Поток Момент ~ΈΞρΊΓ времени t ST ι г ι ι ι ι L mi -. I J me Момент Времени t+W Фиг. 2.7. Элементарный объем в примере с потоком пара в трубе. Между моментами t и t + δί масса пара τη,ι входит в заданный объем, а масса пара те выходит из него. В заданный объем на единицу длины поступает тепловой поток (λ Можно утверждать .следующее: тепловой поток, поступающий в заданный объем, равен скорости увеличения энергии в объеме плюс суммарный поток^энергии, выходящей из этого объема. Ван Вайлен и Зоннтаг [11] приводят следующий результат [уравнение (5.40) указанной работы]: 6х х—бх ж=0 ИЛИ i=4rw+-i^+p)»' (2.16)
22 Глава 2 где Ρ — давление пара; ρ — плотность пара; е — удельная энергия пара, состоящая из удельной внутренней энергии, кинетической энергии и потенциальной энергии. В уравнении (2.16) мы не учитываем влияние трения, предполагая, что скорость пара одинакова по всему поперечному сечению трубы. . Баланс сил Пусть давление пара, внешнее к заданному объему и действующее на этот объем, равно Ρ в левой его части и Ρ + ЬР в правой части. Рассмотрим силы, действующие на массу т = рАЬх, содержащуюся в заданном объеме АЬх. Внешняя сила равна сумме силы трения и силы инерции, т. ё. где / — эмпирически найденный коэффициент трения; d — внутренний диаметр трубы. Это уравнение может быть представлено в виде Баланс масс Скорость уменьшения массы в заданном объеме равна потоку массы, вытекающей из этого объема. Таким образом, --^■(ρΑδχ) = -^(ρΑυ)6χ или Как и в предыдущем разделе, уравнения (2.16)'и (2.18) представляют собой уравнения в частных производных, которые мы должны интегрировать по пространственному распределению батареи труб. Однако нелинейные алгебраические уравнения также получаются естественным образом, например при описании свойств перегретого пара, связанных с давлением и температурой. Величина Q, выражающая действие среды на перегреватель, должна быть связана с другими, более фундаментальными величинами: теплом, подводимым к металлической трубе перегревателя путем излучения от печи и путем теплопроводности и излучения от топочного газа, а также теплом, которое передает пару металлическая труба перегревателя. 2Л. Понятие состояния Чтобы ввести понятие состояния, рассмотрим опять модель движения потока автомобилей (2.7). Водитель и-й машины регулирует свою скорость в соответствии со скоростью идущей впереди машины с номером η — 1. В уравнении (2.7) скорость (п — 1)-й машины
Математическое описание физических систем 23 будем рассматривать как входную переменную и (t). Кроме того, определим новые переменные Χι (t) = х (η, t), x2(t)=-^x(n,t). (2.19) Уравнение (2.7) перепишем в виде системы двух уравнений первого порядка: -±Xl(t) = x2(t), (2.20) £xz(t + T)= — ax2(t)+au(t). (2.21) Мы видим, что интегрирование уравнения (2.21), требуемое для отыскания χι (ί), усложняется из-за наличия задержки Т. Если она равна нулю, то интегрирование будет простым и потребуются только начальные условия Χι (0) и х2 (0) и вход и (t) при t > 0. При наличии задержки Τ необходимы, как и раньше, начальное условие Χι (0) и вход и (t) при t > 0 и, кроме того, значения х2 (t) на интервале 0 < t < Т. Вместо значения функции в одной точке х2 (0) требуется запоминать ряд значений, для чего необходим целый массив чисел. На практике х2 (t) можно аппроксимировать на интервале 0 < t < Τ конечным числом дискретных значений. В частности, определим переменные x2+i(t) = x2(t + iAt), i = 0,i,...,N, (2.22) где NAt = T. Мы можем записать 4*2+*(0~ *»и(' + А0--*»+'('> при d = 0,l,...,N-i, .-^х2+1у)=-^х2+1+1у)—^х2+1у) при г=0, 1, ..., Ν—1. (2.23) Из (2.21) следует -^*2+w(0 = — ax2(t) + au(t). (2.24) Систему уравнений (2.20), (2.23) и (2.24) можно легко интегрировать, если заданы начальные значения χι (0), х2 (0), . . ., x2+N (0) или, что то же, χι (0) и последовательность х2 (0), я2 (Δί), . . . . . ., х2 (NAt). Следует отметить, что в приведенном выше примере дифференциально-разностное уравнение (2.21) было аппроксимировано системой N + 1 дифференциальных уравнений первого порядка (2.23) и (2.24). В пределе при N -*■ оо эти две системы уравнений эквивалентны. Преимуществом этого подхода является рассмотрение системы дифференциальных уравнений первого порядка. Например, в случае N = 3, At = 1 уравнения (2.23) и (2.24) можно представить
24 Глава 2 следующим образом: d dt χι (0Ί xz{t) x3(t) x4(t) Mt)\ = 0 0 0 0 Lo 1- -1 0 0 —a 0 1 -1 0 0 0 0 0 0 1 0 — 1 1 0 0 xi (if x2(t) *a(0 x*(t) U(0. + 0 0 0 0 α u(t). (2.25) (2.26) Уравнение (2.25) имеет вид ±x(t) = Fx(t) + Gu(t). Уравнение (2.26) имеет стандартную математическую форму, называемую канонической, поэтому оно идеально пригодно для численного интегрирования. Преимущество постановки задачи в стандартной математической форме очевидно. Для решения задач, Начальная точна фиг. 2.8. Движение судна с учетом течения. заданных в нестандартной форме (см., например, выше разд. «Математическая модель нагревательных колодцев»), должны быть написаны специальные программы, которые нельзя использовать в других задачах. С другой стороны, можно подготовить стандартные программы для решения задач, имеющих математическую форму (2.26). Переменные Xi (t), . . . , Χζ+ν(ϊ) называются переменными состояний. Они обладают тем свойством, что значения переменных состояний в будущем однозначно задаются своими начальными значениями χι (0), . . . , χ%+Ν (0) и управлением и (ύ) при t>0. Сами переменные не единственны; любое линейное неособенное преобразование переменных также задает множество переменных состояний. Из приведенного выше примера следует, что наличие задержки времени в дифференциальном уравнении для полного описания теоретически требует бесконечного числа переменных состояний. Рассмотрим другой пример. Брайсон [2] исследовал такую задачу. На фиг. 2.8 показано судно, движущееся в плоскости {хи x^j
Математическое описание физических систем 25 с постоянной скоростью V относительно воды. Имеется приливный поток ν с нулевой компонентой х% и компонентой xlt равной — {χ2 (Ο/Μ У· Таким образом, скорость потока изменяется пропорционально расстоянию от оси х{. Задача заключается в вычислении оптимального угла курса и (t) в функции времени, при котором судно затратит минимальное время на переход из некоторой заданной начальной точки в некоторую заданную конечную точку, в качестве которой выбрано начало координат. Уравнения движения имеют вид dt *!(*)=■ x2(t) V + Vcosu(t), dt χ2 (0 = У sin и (t). (2.27) Уравнения (2.27) нелинейны по переменной управления, И их можно записать в векторной дифференциальной форме ±x(t) = i[x{t), «(ί-)]. (2.28) При вычислении оптимального управления мы, возможно, будем линеаризовать уравнения по возмущениям относительно номинальной траектории x°(i), u°(t). Пусть x(t)=x°(t)+x(t), u(t) = u°(t) + u(t). Применим разложение в ряд Тейлора в правой части (2.27) по отклонениям x(i), u(t), ограничиваясь линейными членами Тогда 4 К (0 + £(01 =* —г- К (0 + £ (ί)] + ν cos u° (i) -f Отсюда d dt + U(t) du (t) ^ C0S U № lu0(i)' [a£ (t) + x2 (t)]~V sin u° (t) -— V sin u(t) |u0(i) · ~Иц (t) = \- x2(f)-[Vsin u°(i)] «(f), -ft'xi(t) = [VooBu0(t)]u(t) или в матричной форме r^iW] Г °-х η о о. + и (ί). 'si(i)" Lz2(0-l Более глубоко понятия состояния излагается в книге Зад,» и Дезоера [12]. — 7 sin и0 (ί) V cos «° (ί)
26 Глава 2 2.5. Понятия управляемости и наблюдаемости Запишем линейные уравнения состояний 4-x(0 = F*(0 + Gu(f), (2.29) где x(t) — rax 1-вектор состояний; u (t) — т χ 1-вектор управлений. Запишем также линейные уравнения, измерений y(0 = Hx(f)+Iu(f), (2.30) где у (t) — Ζ Χ 1-вектор измерений. Если мы можем измерить все переменные состояний, то Η — единичная матрица. Если некоторые из переменных состояний недоступны для измерения, то имеются две возможности. 1. Мы измеряем не все состояния, так что Η является прямоугольной матрицей, полученной усечением единичной матрицы. 2. Как и в п. 1, мы измеряем не все состояния; кроме того, измеряем некоторые дополнительные переменные, которые выражаются через неизмеряемые состояния. В общем случае уравнения, описывающие эти связи, нелинейны, но здесь будет рассмотрен случай линейных соотношений. Обычно из практических соображений вытекает необходимость выполнения неравенства I < п, хотя возможен также случай 1~^>п. Читатель, по всей вероятности, знаком с критериями устойчивости, например с критерием Рауса — Гурвица,- позволяющим определять абсолютную устойчивость без вычисления реакций систем л даже без оценивания собственных значений. Полезно было бы иметь аналогичные критерии, позволяющие ответить на следующие вопросы: 1. Можно ли, используя допустимое управление и (ύ), перевести состояния системы от заданного начального значения χ (0) к заданному конечному значению χ (Г) на заданном интервале времени 10, Я? 2. Существует ли такое допустимое управление u (t), чтобы по измерениям у (ί), проведенным на заданном интервале времени 10, Τ], можно было вычислить начальное состояние χ (0)? Вопрос 1 — это формулировка проблемы управляемости, а вопрос 2 — формулировка проблемы наблюдаемости. Простые математические ответы на эти вопросы могут быть получены в том случае, когда на Τ не наложено никаких ограничений, кроме требования конечности [9]. Рассмотрим две очевидные ситуации, в которых ответы на оба вопроса отрицательны. Рассмотрим линейное неособенное преобразование переменных состояний q(0 = Qx(0- (2·31)
Математическое описание физических систем 27 Преобразованные уравнения состояний имеют вид 4-q(0 = QrQi4(0+QGu(i). Если Q равна матрице собственных векторов, то имеет место равенство QFQ-^Λ, (2.32) где Л — диагональная матрица, диагональными элементами которой являются собственные значения F, т. е. 4q(0=Aq(0+Bu(0, (2.33) где обозначено В = QG. Аналогично уравнения преобразованных измерений имеют вид y(0=Cq(0 + Iu(f), (2.34) где С = HQi. Мы сразу же видим следующее: 1. Если i-я строка матрицы В в (2.33) нулевая, то i-я переменная преобразованного состояния (называемая собственным колебанием) удовлетворяет дифференциальному уравнению — qi^Uqi. (2.35) 2. Если у-й столбец матрицы С в (2.34) нулевой, то j-e собственное колебание нельзя измерить на выходе или, иначе говоря, оно ненаблюдаемо. 2.6. Процессы типа белого шума. Случайные эффекты, возникающие от неизмеряемых, например недоступных для измерения, входов, должны учитываться статистически. Таким образом, при построении математической модели для моделирования таких случайных эффектов можно включать источники шумов. Рассмотрим кратко один конкретный математический источник шума, а именно, источник белого шума. Этот источник имеет большое значение отчасти из-за своей математической простоты и отчасти из-за возможности генерировать многие физические шумовые процессы путем пропускания через линейные или нелинейные системы. Рассмотрим скалярный случайный процесс η (t), который мы будем аппроксимировать кусочно-постоянными функциями вида n(t) = nt, ίΔ<ί<(ί + 1)Δ, i = 0, 1, 2, ... . (2.36)
28 Глава 2 Среднее по множеству от этого шума является детерминированной величиной, и обычно его вычитают из процесса. Следовательно, мы предполагаем, что E[n(t)] = 0. (2.37) Рассмотрим дискретный белый шум щ. Он обладает тем свойством, что последовательные значения являются независимыми, т. е. of. E[mnj]=-j-, i = j, Е[п1П]] = 0, ίφ], (2.38) где σ?/Δ — дисперсия шума в ϊ-й дискретный момент. Поэтому будем считать, что т образует стационарный процесс типа дискретного белого шума, причем дисперсия σ2/Δ не'зависит от дискретного времени i. Приравняем автокорреляционные функции, вычисленные усреднением по времени и по множеству: τ Rnn(T)=lim4r[n(t—T)n(t)du= (2.39) = Х(1—Щ-) приО<М<Д, £ηη(τ) = 0 при |τ|>Δ. (2.40) Сравнивая (2.40) и (2.38), мы видим, что автокорреляционная функция Rnn (τ), полученная усреднением по времени, совпадает с автокорреляционной функцией, полученной усреднением по множеству: Rnn(T) = E[n(t-T)n(t)] (2.41) для значений (и τ, соответствующих моментам квантования. Автокорреляция Rnn (τ) линейно изменяется при значениях τ, лежащих между моментами квантования, что сразу же следует из определения (2.39). График автокорреляционной функции (2.40) имеет вид равнобедренного треугольника с основанием 2Δ и высотой σ2/Δ. Следовательно, σ2 есть площадь треугольника. При Δ —>■ 0 автокорреляционная функция стремится к импульсу с площадью σ2. Таким образом, #ηη(τ) = σ2δ(τ). (2.42) В частотной области дискретный белый шум имеет спектральную плотность, представляющую собой преобразование Фурье от
Математическое описание фиаических систем 29 автокорреляционной функции: Sun (/) = Ρ [Βηη (τ)] = σ2 ^L ". (2.43) πΔ/ При Δ —>■ 0 спектральная плотность стремится к постоянному значению σ2, и мы можем измерять σ2 в единицах мощности на единицу ширины полосы частот. Тот факт, что вероятностное распределение белого шума произвольно, не имеет Значения. Например, распределение может иметь бесконечный диапазон амшщтуд, как в случае нормального распределения, или только два уровня, как телеграфный сигнал. В гл. 5 мы увидим, что белый шум можно использовать в качестве пробного сигнала, подобно тому, как импульсное воздействие применяется для анализа линейных систем. Шумы физических генераторов должны иметь конечную полосу частот, что диктуется практическими соображениями. Но при условии, что полоса частот шума значительно шире полосы пропускания системы, можно считать, что она имеет бесконечную ширину. 2.7. Аппроксимация систем с распределенными параметрами системами с сосредоточенными параметрами Рассмотрим дифференциальное уравнение в частных производных (2.14), в котором для простоты теплопроводность считается постоянной, не зависящей от температуры. Тогда (2.14) можно записать в виде В (2.44) предполагается, что Τ = Τ (χ, у, ζ), т. е. температура имеет распределение и в пространстве и во времени. Стандартным методом моделирования такого уравнения на аналоговой или цифровой вычислительной машине является конечно-разностная аппроксимация [7, 8]. Разделим плоскость ху (см. фиг. 2.6) прямоугольной сеткой с соответствующими шагами Ах и Ау по двум измерениям. Пусть (пгАх, пАу) — координаты узловой точки сетки, для которой оцениваются пространственные элементы кривизны, встречающиеся в правой части уравнения (2.44). Приближенно можно записать выражение dT(x,y,t) дх хт, У η Τ {хтп+Ь Уп-ι 0 — Τ (Хщ-и Уп> 0 /о /Кч 2Δχ \ · )
30 Глава 2 или в более простых обозначениях Тт+1, η — *m-l, n 2Δχ дх 1тп (2.46) Аналогично можно записать 02 1 Г β ,, д -Л /^, *пг+1, η — *τη, η 'ι», η — 'τη-1, η ~ (Δχ)2 (Δχ)2 * Подставляя выражение (2.47) и его эквивалент для координаты у в (2.44), получаем (2.47) РсТ5Гг,'и''1 ' т+1, η * τη, η ■ m-i, η — * m,n (2.48) (Δχ)2 " (Δχ)2 ~ В формуле (2.48) Гт,п можно считать функцией только времени и вместо частной производной записать полную производную по г Tm-i.n* -Λ/V том φαρα& "Τ" vyr -ом (ΔΧ)Ζ -ом 'm,n • Tm + l,n rOM T/n,n-t Фиг., 2.9. Аналоговое моделирование процесса теплопроводности. времени. Когда m, n пробегают все значения на сетке, формула (2.48) задает систему уравнений, которую можно моделировать с помощью сетки сопротивлений с заземленными емкостями, присоединенными к узлам, как показано на фиг. 2.9. Напряжения на емкостях образуют полную систему переменных состояний. В пределе, когда шаги решетки Ах, Ау стремятся к нулю, цепочка приближается к распределенной системе и требует для своего описания бесконечного числа переменных состояний.
Математическое описание физических систем 31 При цифровом моделировании, для того чтобы получить систему алгебраических уравнений, мы должны заменить производную по времени в (2.47) конечными разностями. Задачи 1. Бистон [1]. На фиг. 2.10 показан груз с массой т, привязанный веревкой длиной I к вагонетке с массой М, движущейся по рельсам. К вагонетке может быть приложена только ограниченная Вез трения {центр тяжести) Фиг. 2.10. Управление положением раскачивающейся массы. сила | и | ^ кмако. Требуется переместить систему по горизонтальному пути длиной а из состояния покоя в другое заданное состояние покоя за минимальное время. # Л- конечная точка —о тд Фиг. 2.11. Управление ракетой при минимальном расходе топлива. а. Используя х^ и х3 в качестве переменных состояний, выведите линейные уравнения при условии малости угла отклонения. б. Запишите уравнения измерений в случае, когда измеряются 2/1 и 2/2· в. Запишите начальный и конечный векторы состояний. г. Запишите критерий качества. д. Перечислите параметры, входящие в уравнения состояний. Какой параметр определен хуже всех? 2. Брайсон [2]. Фиг. 2.11 иллюстрирует задачу о горизонтальном перемещении ракеты в точку, находящуюся на расстоянии у, с нулевой скоростью. Двигатель жестко связан с корпусом ра-
32 · Глава 2 кеты. Горизонтальное ускорение создается за счет отклонения ракеты- на угол θ от вертикали и одновременного увеличения амплитуды тяги с тем, чтобы вертикальная составляющая тяги была равна mg. Максимальная тяга двигателя, равна Гмак0. Пренебрегая изменением массы ракеты во времени, запишите: а) нелинейные уравнения состояний; б) начальные и конечные векторы состояний; в) ограничения на управления; г) критерий качества, предполагая, что расход топлива / прямо пропорционален тяге; д) нелинейные уравнения состояний, предполагая, что масса ракеты изменяется по закону m(tf) = m(t0)—[f(t)dt. ίο 3. Харрис и Лапидус [5]. Химический реактор-смеситель непрерывного действия описывается уравнениями материального и энергетического баланса, которые приводят к следующим нелинейным уравнениям состояний: £_£(Г._г,+.Ь4а.*, где к = к0 е-Е/дт. Величины А ж Τ являются переменными состояний; все обозначения, включая (—АН), можно рассматривать как произвольные положительные константы. а. Проверьте уравнения материального и энергетического баланса, если задано следующее: А — концентрация реагента (масса на единицу объема) в реакторе и продукте на выходе; Ао — концентрация реагента в продукте на входе; F — поток продукта на входе и выходе (объем в 1 с); Τ — температура содержимого реактора и выходящего потока; Го — температура входящего потока; V — объем реактора; (—АН) — тепло, выделяющееся при реакции в единицах массы реагента А, превращенного в В; к — скорость превращения А в В в единицах массы А; ρ — плотность содержимого реактора; с — теплоемкость (тепло на единицу массы в единицу времени) ; Ε — энергия активации; R — газовая постоянная; к0 — множитель, имеющий размерность частоты.
Математическое описание физических систем 33 б. Проверьте, что в установившемся состоянии ( — Ш)А0 к Т-То-- рс (FfV) + k и покажите, что в зависимости от значении параметров имеются три установившихся значения Г и Л, одно из которых неустойчиво, в. Запишите линеаризованные уравнения состояний. —> Направление потока Pi- hi ■ Щ Состояния op- 2 hj-\-h2 «cp — Ms— масса пара ►'Pi > w2 Фиг. 2.12. Входы, выходы и состояния, используемые в примере. Р — давление; h — удельная энтальпия; w — поток массы; Q — поток тепла. 4. На фиг. 2.12 показан, элементарный участок трубы, по которой протекает перегретый пар. Требуется построить математическую модель участка трубы, допускающую сжимаемость и инерцию пара, трение вблизи стенок трубы, передачу тепла Q от нагретого металла трубы к пару. Входные и выхо/^ные переменные должны быть выбраны так, чтобы элементарные участки можно было соединять последовательно. а. Проверьте, что допустимы следующие группировки переменных: вход переменная выход Xi Xi _*3_ Г»?] и\ Υ<\ = = «Όρ "■ср Vm,\ \РЛ h2 И>2 L& J Vu\~ и\ < L«iJ — \ Pi~\ hi m lQi\ б. Составьте систему уравнений состояний dx/dt = i (x, u*). в. Составьте систему уравнений выхода u° = g (x, и*). г. Величины h и w не измеряются непосредственно. Предложите измеримые переменные, из которых можно алгебраически вывести h и w.
34 Глава 2 5. Огата [9, стр. 192]. Один вход u (t) и один выход χ (t) связаны линейным разностным уравнением χ(ί)-\-αιχ(ί—1)+ .. . -^anx(t — п) = = bQu(t) + blu(t—rl) + . . . +bnu(t—n). Если ζ-1 обозначает единичную задержку, то z-преобразование имеет вид x(t) _ bo-\-biz-i-\-...-\-bnz-n u(t) 1 + ajz"1-] уапе-п а. Проверьте справедливость следующей Пусть χι (t) = χ (t) — cQu (t). Тогда модели состоянии. Xn-i(t+i) Xn(t+l) 0 0 1 0 0 1 0 0 X 0 0 0 -o-n —a-n-i —Яп-2 u(t) 0 —αϊ X ~xt (t) x2(t) xn-ι (ή Xn (t) Τ " Ci c2 Cn-i . Cn или x(i + l)=Ax(i)+Bu(i), где c0 = bo, Cl = &l — <llCo, C2 = &2 — a2Co — aiCi, Cn -bn — anc0 — an-iCi— · · ■ —а&п-г—α&η-ι- б. Покажите, что если ζ-11 заменить на D'1 = \ dt, то модель состояний для дифференциального уравнения п-то порядка будет иметь вид dt ■ x(f)=Ax(0+Bu(0- в. Изобразите реализацию на аналоговой модели для части «б». 6. Пауэлл и Прайс [10]. Рассмотрим бесконечный полый цилиндр из однородного материала с известными теплопроводностью к и теплоемкостью с, зависящими от температуры. К внутренней поверхности цилиндра поступает равномерный поток тепла. а. Покажите, что уравнение для радиального одномерного потока тепла через стенку цилиндра имеет вид дТ д (7 дТ \ к дТ 0 ,0. ΡβΊΪΓ = ΊϊΓΐ^)+ΤΊ*' (2·49)
Литература 35 где ρ — плотность материала; Τ (t, r) — температура в момент времени ί на радиусе г. б. Покажите, что поток тепла к поверхности цилиндра на единицу длины равен <?=_2яг*1гЦ, (2·50> где г3 — внутренний радиус. в. Рассмотрим случай, когда поток тепла поступает к внутренней поверхности в момент времени t0; при t0 цилиндр достигает равновесной температуры. Пусть температуры внутренней и внешней стенок измеряются непрерывно; область между точками измерения температуры разделена на много участков длиной Аг; измерения температуры для краевых условий производятся через интервалы времени At. Покажите, что температура Г<3) Г1 в точке г\ (rn = rs + пАг) в момент tz (tq = t0 -f ?Δί) описывается разностным аналогом формулы (2.49): * «г, π = 2 ίι, η + 2 (Дг)2 (рс) L ^ 2 ~^~ ' ^ '' • (кп + krs) (ГТ1 - Ти) + —IL (Tn- Trs) Jtj. г. Покажите, что градиент температуры в формуле (2.50) приблизительно равен дТ дг \т= ^.^-^(т^+т^-2^)· ЛИТЕРАТУРА Beeston J. W., Solution of the time optimal control problem for systems of similar structure, Electronics Letters, 3, № 8, 378 (1967). Bryson Д.Е., Applications of optimal control theory in aerospace engineering, J. of Spacecraft and Rockets, Ы5 (May 1967). Duffin R. J., Peterson E. L., Ζ e η e r C., Geometric programming, Wiley, N.Y., 1967; русский перевод: Даффин Р. Д., Питер- сон Э. Л., 3 е н е ρ К., Геометрическое программирование, изд-во «Мир», 1972. Gazis D. С, Control problems in automobile traffic, Proc. IBM Scientific Computing Symposium on Control Theory and Applications, N.Y., 1964, p. 171 — 185. Harris G. H., Lapidus L., The identification of non-linear systems, Ind. Eng. Chem., 59, № 6, 66 (1967). К u η g E. Y., D a h m J. R., D e L a n с е у G. В., A mathematical model of soaking pits, ISA Trans., 6, № 2, 162 (1967). McCracken D. D., Dorn W. S., Numerical methods and Fortran programming, Wiley, N.Y., 1964, Chap. И; русский перевод: Мак Кра- к е н Д. Д., Д о ρ н У. С·, Численные методы и программирование на Фортране, изд-во «Мир», 1969.
w Глава 2 8. Mirsepassi Т., An active-passive electric analog for the solution of transient response of heat exchangers, ISA Trans., 4, № 1, 75 (1965). 9. О g a t a K., State Space Analysis of Control Systems, Prentice-Hall, 1967. 10. Powell W. B·, Price T. W., A method for the determination of local heat flux from transient temperature measurements, ISA Trans., 3, 246 (1964). H.VanWylen G. J., Sonntag R. E., Fundamentals of Classical Thermodynamics, Wiley, N.Y., 1965, p. 98—102. 12. Ζ a d e h L. Α., Desoer С A-, Linear System Theory, McGraw-Hill, N.Y.r 1963; русский перевод: Заде Л., Дезоер Ч., Теория линейных систем, изд-во „Наука", 1970. Дополнительная литература Shearer J. L., Murphy А. Т., Richardson Η·Η·, Introduction to System Dynamics, Addison-Wesley, 1967.
Глава 3 Вычислительные методы В предыдущей главе мы видели, что построение математической модели физической системы сводится к определению вида дифференциальных уравнений и к, оценке коэффициентов уравнений. Когда все динамические характеристики системы и ее физические размеры известны, можно непосредственно определить и вид уравнений и их коэффициенты. Когда же эти характеристики и размеры известны неточно, вид уравнений может быть найден приближенно, а коэффициенты следует оценивать так, чтобы модель определенным образом приближалась к системе. Как показано в последующих главах, процедура оценивания часто приводит к громоздким вычислениям. Поскольку назначением математической модели является предсказание реакции системы на выбранные управляющие функции, мы должны уметь и оценивать начальные условия для уравнения модели, и решать дифференциальные уравнения. Если измерения состояний системы искажаются шумом, то для получения наилучших оценок состояний, используемых в качестве начальных условий для модели, требуется большой объем вычислений. Кроме того, при заданных начальных условиях требуется также большой объем вычислений для решения уравнений. Как показал опыт, возможности применения современной теории управления к сложным промышленным объектам ограничиваются главным образом быстродействием существующих вычислительных машин, применяемых при проведении вычислений, необходимых для оценивания параметров модели, состояний системы и оптимального управления. Следовательно, применение эффективных вычислительных процедур дает большую выгоду. Настоящая глава посвящена вычислительным методам, так как они имеют большое значение в современной теории управления. Здесь рассматривается несколько наиболее часто используемых вычислительных методов, которые потребуются в этой книге для решения задач. Мы ограничимся изложением установившихся процедур численного, анализа, позволяющих использовать методы итераций для дифференцирования и интегрирования . временных рядов с помощью конечно-разностных полиномов. Затем опишем методы предсказания и коррекции и Рунге — Кутта для решения дифференци-
38 Глава 3 альных уравнений и покажем, каким образом по методу Рунге — Кутта высшего порядка можно получить высокую точность при большом шаге. Наконец, мы упомянем о гибридных вычислениях, уделяя особое внимание преимуществам цифровых машин для алгебраических вычислений и аналоговых машин для решения дифференциальных уравнений. 3.1. Численное дифференцирование и интегрирование Цифровая вычислительная машина может обрабатывать непрерывный сигнал только как последовательность дискретных значений. Поэтому в данном разделе будет показано, как методы приближений можно применять для дифференцирования и интегрирования дискретных данных. Конечно-разностные полиномы Полиномом в конечных разностях называется полиномиальная функция, которая проходит через заданное число конечных точек. Он аналогичен разложению в ряд Тейлора, которое обеспечивает совпадение с заданным числом производных функций. При рассмотрении конечно-разностных полиномов используются следующие обозначения: хТ — значение χ в момент времени tr, содержащееся в памяти машины, хг+п — значение χ в момент времени tr + nh, содержащееся в памяти машины, II = ίΓ+ι tr, г Xr+1 Xri ν X j· — Χ τ Χ j· j, б#г = #r+i/2 — Яг-1/2) 1 μχτ=-γ(χτ+ι/2+'Χτ-ΐβ)· (3-1) Операторы Δ, V> δ, μ можно применять к выражениям последовательно. Применение операторов иллюстрируется следующим примером: А3хГ = ΔΔΔ (хг) = ΔΔ (χΓ+ι—хт) = = A (xr+2 — 2xr+i + хг) = (хг+3 — 3xr+2 + 3xr+i—Хт)· (3-2) При работе управляющей вычислительной машины часто приходится дифференцировать и интегрировать данные. Чтобы это оказалось возможным, мы должны иметь непрерывное представление Ах
Вычислительные методы 39 данных. Это достигается построением конечно-разностного полинома, проходящего через заданное число точек. Приведем пример конечно-разностного полинома: + u(u-i). „(ц-р+1) д^ (33) где ί—ίΓ u = Соответствующий конечно-разностный полином третьей степени может быть записан в виде P3(t) = xr-\ ~— (χΓ+ι—%т)-\- + Ύ (~1~ТГ-) (^ΊΤ—ΐ) (±ΓΖ1—2) (^sSxr+2 + Sxr+l-xr). (3.4) Проверка показывает, что конечно-разностный полином Р$ совпадает с непрерывным сигналом χ в дискретных точках t = tr, t = = tT + h, t = tT + 2h и t = tT + Sh. Дифференцирование Конечно-разностную формулу дифференцирования можно получить дифференцированием соответствующего конечно-разностного полинома по t. Например, дифференцирование (3.4) дает = Ύ(χΓ+ί—a;r) + T(TJ [tzh—i^ (χΓ+2 — 2xr+l + xr)-]- + T ("Чг") (ύ) (χτ+2 — 2χΓ+ι + Χτ) + + "6" (τ) (~ΪΓ~~ *) (^ΊΓ~~ 2) (^+з—3χΓ+2 + 3χΓ+ι—χΓ) + + Ύ (^ΊΤ) (τ) {Ч1— 2) (^-3*^ + 3^,-*,) + + Τ {Чг-) {^l·-Λ ) (τ) (^sSxr+2 + Sxr+l-xr). (3.5)
40 Глава 3 Полагая в (3.5) t — tT, получаем d , \ _d_ ~dt W tr ~ ~dt (Ps) dt 1 1 = -jr- (Xr+i Xr) TjT (жт+2 ^Ж?+1Т" xr) T" Η—от- (^г+з За;г+2 -h^r+i— хт), (х)|,г«^.(Л—ί-Δ»+ 4 Д8-·■·)*'■· (3·6) Если исходить из других конечно-разностных полиномов, можно получить другие конечно-разностные формулы дифференцирования. Приведем еще один пример, в котором используются центральные разности [2, стр. 7]: -|.(:г)|4г ~± (μβ-Αμββ + ^μβ·-. . · ) *г. (3.7) Интегрирование Конечно-разностные формулы для численного интегрирования можно получить аналогичным путем. Рассмотрим, например, полином P2(t) = xr + ^rVxr + ^^43Xr, (3.8) где h (Убедитесь в том, что Р2 (t) в дискретных точках t = tr, t = tT — h и t = tT — 1h совпадает с х.) Формулу интегрирования можно получить из (3.8) аналитически: tT+h tr+h [ x(t)dt& С P2(t)dt = tr tr -7[* + (-Tt)^+T(-Tt)(-Tt+1)'·*]*- = xrh+~4Xr + ^(^- + ^-)Wxr, (3.9) Если исходить из конечно-разностного полинома Стирлинга [1, стр. 8], то может быть выведена следующая формула интегри-
Вычислительные методы 41 рования-. tr+h j ι(ί)Λ» A(2a;r+4-V2^+i—^ V4zr+2 + .. .) . (3.10) Доказательство (3.10) предлагается в качестве одной из задач, приведенных в конце главы. Следует отметить, что первые два члена описывают известное правило Симпсона для отыскания площади под кривой [2, стр. 8]. Естественно, чем больше членов содержит конечно-разностная схема, тем лучшим оказывается приближение к непрерывным данным и, следовательно, более точной формула интегрирования или дифференцирования. Первые отброшенные члены в этих выражениях обычно хорошо оценивают ошибку усечения. 3.2. Численное решение дифференциальных уравнений В гл. 2 было показано, что физические процессы удобно моделировать с помощью уравнений состояний, имеющих вид Ax = f(x, u, ρ, t), х(0) = ос, (3.11) где χ — η Χ 1-вектор состояний с начальным условием ос; ρ — т X 1-вектор параметров; и — q X 1-вектор управлений; f — η χ 1-вектор-функция; t — переменная текущего времени. Численное решение обыкновенных дифференциальных уравнений вида (3.11) — важный этап работы системы цифрового управления. Разберем методы решения двух типов — методы предсказания и коррекции и методы Рунге — Кутта. Методы предсказания и коррекции используют конечно-разностные формулы интегрирования. Это возможно потому, что решение уравнений (3.11) можно найти, оценивая интегралы вида tr+h . χΓ+ι—хг = \ f(x, u, ρ, t)dt. (3.12) tr В методах предсказания и коррекции последующее состояние предсказывается по формуле, использующей известные значения. При коррекции для улучшения оценки используется предсказанная информация. Примером пары формул предсказания — коррекции служат формулы Адамса и Бешфорта [2, стр. 29]: xr+1 = xr + A (l + i-V +^V2 + -f-V3 + § V4+ · · · ) fr, (3.13) xr+1 = xr+ h (l _lV-^-V2-^-V3-^V4- . .. )fm, (3.14)
42 Глава 3 где fr = f(xr, Ur, ρ, tr). Связь с конечно-разностными формулами интегрирования можно установить, сравнивая уравнения (3.13) и (3.9). Формула коррекции (3.14) подробнее рассматривается в задаче 1. Методы предсказания часто предпочитают другим методам, так как они требуют меньшего числа оценок функций; кроме того, ошибка приближения при этом оценивается более точно [2]. Методы предсказания — коррекции имеют несколько недостатков: они не могут работать до тех пор, пока не произведена оценка некоторого числа состояний, равного порядку разностей; трудно изменять размер шага интегрирования h; они точны только в тех случаях, когда функция f гладкая и непрерывная, тогда как в задачах управления функция f часто бывает разрывной, например при переключении знака управления. Здесь рассматриваются также методы Рунге — Кутта. Эти методы не требуют знания начальных состояний, и, если принять меры предосторожности, их можно применять к функциям с непрерывными производными. Кроме того, в этих случаях легко изменять размер шага интегрирования. Простейшей схемой типа Рунге — Кутта является первый член разложения в ряд Тейлора по х; x(t + h)ttx(t) + h^- = x(t) + hi (t). (3.15) Разложение в ряд Тейлора можно производить с системами любого порядка. Наиболее распространенной является схема Рунге — Кутта четвертого порядка, но ради простоты мы рассмотрим схему второго порядка. При этом будет показано, каким образом на основании тех же соображений можно получить схему четвертого порядка. Запишем (3.11) в виде x = f(x, t), (3.16) где параметр ρ входит в f, а функция и учтена явной зависимостью f от t. Разлагая χ (ί + h) в ряд Тейлора второго порядка относительно χ (ί), находим, что i-ю компоненту χ (ί + h) можно выразить с помощью тензорных обозначений Эйнштейна для немых индексов (см. приложение): χι (t -j h) « χι (ί) + h -|i + -γ -gpi- = = г1(1) + Н1,+Ц-(Щ- + Щи)- (ЗЛ7)
Вычислительные методы 43 Определимтмножество векторов К° = М(х, t), Κ1 = Μ(χ + αθΚ°, ί + β°Α) (3.18) и линейную форму разложения χ(ί + Α)=χ(ί) + γ°Κ° + γ1Κ1, (3.19) где γ° и γ1 — константы. Путем подстановки выражений (3.18) в (3.19) находим x(t + h) = x(t) + yOfii(x, t) + y1hi(x + a°k°, ί + β°Λ). (3.20) Разлагая правую часть уравнения (3.20) в ряд Тейлора относительно f (χ, ί), получаем i-ю компоненту: xt (ί + К) = Xi (t) + yohft + уЩ^-1+Щ- βθΑ + Ж aokj) = = xi(t) + yohft + уЧ (fi+^f-П + Ig-a4U) = = *i(f) + (7° + vW + Aa (yT^f+y^^rfi)- (3-21) Приравнивая соответствующие коэффициенты всех независимых производных f в (3.17) и (3.21), получаем V1oo = ^.. (3.22) В этом случае уравнений меньше, чем неизвестных, и одним из возможных . решений является αο = βο = ΐ) γο = γι = -1. (3.23) Подставляя эти константы в (3.18) и (3.19), получаем алгоритм Рунге — Кутта второго порядка: К° = М(х, ί). К1 = М(х + К°, t + h), x(t + h) = x(t) + ~(K° + K1). (3.24)
44 Глава 3 Путем аналогичных рассуждений можно показать, что алгоритм Рунге — Кутта четвертого порядка имеет вид К°=М(х, t), К1 = Μ (χ + α°Κ°, ί + β°Α), Κ" = Μ(χ + α1Κ1, t + ^h), Κ3 = Μ(χ + α2Κ2, ί + β*Α), χ (ί + h) = χ (ί) + γ°Κ° + γ^1 + γ2Κ2 + γ3Κ3. (3.25) Стандартный процесс Рунге жество параметров: β°=4-, β1 γ0 = -_. γΐ 3 1 ν3=Ύ· Значения параметров процесса второго порядка не единственны, и в некоторых приложениях можно добиться определенных преимуществ, используя множество параметров, отличное от (3.26). Однако в общем случае приведенный набор параметров оказывается удовлетворител ьным. Ошибка для процесса Рунге — Кутта четвертого порядка определяется членом пятой степени в разложении Тейлора, но в общем случае ее трудно оценить. Различные методы оценивания ошибки подробно описаны во многих учебниках (см. литературу в конце главы). Естественно, возникает вопрос о том, какое преимущество имеет (и имеет ли) процесс Рунге — Кутта четвертого порядка по сравнению с простым процессом первого порядка. Из формул (3.15) и (3.25) видно, что для процесса четвертого порядка требуется примерно в 4 раза больше вычислений, чем для процесса первого порядка. Однако приведенный ниже пример показывает, что допустимый размер шага для процесса четвертого порядка при заданной величине ошибки может быть в сотни раз больше, чем для процесса первого порядка. В качестве примера рассмотрим уравнение первого порядка, поскольку это облегчает вычисление различных ошибок усечения: х =—χ при я(0)=1. (3.27) Процесс Рунге — Кутта первого порядка дает x(h)~i— h, ошибка —-?-■ (3.28) — Кутта имеет следующее мно- = Т' Р2 = 1' _·ι . _L . (3·26) _ з ' γ ~ з '
Вычислительные методы 45 Процесс Рунге—Кутта четвертого порядка дает я(А)~1—А + -2 Γ+ΊΑ' ошибка — Ϊ2δ· (3·29) Размер шага при заданной ошибке показан в табл. 3.1. Ошибки возникают в различные моменты времени, но, поскольку в общем случае процесс продолжается на большом интервале времени, например при управлении, значение имеет абсолютная ошибка на_ каждом шаге. Таблица 3.1 Заданная допустимая ошибка Максимальный размер шага в процессе Рунге—Кутта первого порядка Максимальный размер шага в процессе Рунге—Кутта четвертого порядка 10-1 0,445 1,644 10-2 0,141 1,037 ю-з . 0,0445 0,654 ю-* 0,014 0,412 Ю"5 0,0014 0,164 В табл. 3.1 показано, что процесс четвертого порядка более эффективен по сравнению с процессом первого порядка. Обычно используются схемы не выше четвертого порядка, так как схемы высших порядков более сложны. 3.3. Вычислительные машины Численное дифференцирование, интегрирование и решение дифференциальных уравнений зависят от представления функции последовательностью чисел, равных значениям функции в последовательности дискретных значений независимых переменных. Если бы исходная функция была, например, непрерывной функцией времени, то для квантования функции и построения последовательности чисел, соответствующих описанным выше численным схемам, необходимо было бы использовать аналого-цифровой преобразователь. С другой стороны, если бы исходная функция была непрерывной функцией времени, то для выполнения требуемых математических операций можно было использовать аналоговую вычислительную машину. При этом отпадает необходимость в аналого-цифровом преобразовании. Кроме того, аналоговая вычислительная машина по сравнению с цифровой машиной имеет преимущество в скорости выполнения интегрирования. Во многих системах автоматического управления требуется, чтобы в управляющем устройстве происходило запоминание инфор-
46 Глава 3 мации и чтобы выполнялись алгебраические действия и интегрирование. В этих случаях большие преимущества могут иметь гибридные вычислительные машины, включающие цифровые и ана^· логовые устройства, соединенные, через цифро-аналоговые преобразователи. Запоминание данных и алгебраические преобразования должны выполняться цифровой частью, а интегрирование — аналоговой частью. Поскольку эти вычисления проводятся в реальном масштабе времени, при программировании необходимо принимать специальные меры, обеспечивающие правильное согласование событий во времени при работе гибридного вычислительного устройства. В общем случае из-за сравнительной легкости программировав ния работы цифровой части вычисления удобно производить не в реальном масштабе времени, а контрольные эксперименты — на цифровом устройстве. В тех случаях, когда управление производится в реальном масштабе времени, имеют значение скорость интегрирования и экономия на стоимости программирования. Здесь имеют преимущество аналоговые и гибридные вычислительные машины. Задачи 1. Продифференцируйте следующие данные при t = О, исполь- эуя полином (3.6): ί = 0, х = 0, ί=1, х=1, t=2, χ = 8, ί = 3, χ=27. Используйте один, два и, наконец, три члена. Следует отметить, что данные могут быть получены из формулы χ = t3. 2. Ниже приводится интерполяционный многочлен Стерлинга: »(»2_1) <V2Xr+i + VZXr+2 N i £j V Xr+2 "Η . . . + , Ц»(Ц2-1)...[цЗ-(р/2-1)2] - -| ^j VpXr+p/2, где ρ четно и и = (t — tT)lh. а. Покажите, что этот полином совпадает с χ (t) при t = tr, (tr + h и tT — h), (tr + 2h и tT — Щ и т. д.
Вычислительные методы 47 б. Проинтегрируйте первые пять членов полинома от tT — h до tT + h, т. е. получите формулу (3.10).' 3. В тексте было проверено несколько первых членов формулы предсказания (3.13), используемой в методе предсказания — коррекции Адамса и Бешфорта. Рассмотрим конечно-разностный полином (3.8). а. Пусть tT = t„ + h, и'=—~. Покажите, что отсюда следует Ρ (t\-r ι [и'~{) τ?τ ι (»'-!)»' V2r б. Проинтегрируйте P2(t) из п. (а) от is до is + h и_ выведите отсюда формулу интегрирования через конечные разности. в. Используя часть (б), докажите справедливость (3.14) — формулы коррекции в методе предсказания — коррекции Адамса и Бешфорта. 4. Напишите стандартную подпрограмму для численного интегрирования множества векторных дифференциальных уравнений вида x = f(x, u, ρ, t), x (*<>) = α. а. Используйте алгоритм Рунге — Кутта четвертого порядка. б. Включите подпрограмму дифференциальных уравнений так, чтобы их можно было менять по желанию. в. Обеспечьте возможность изменения числа уравнений. г. Отладьте программу, проинтегрировав уравнения xt = —χ, х(0) = 1, х1=(С/А—В/А)х2х3—{Е/А)хи хг=(А/В—С/В) χ3χι- (Ε/В) х2, х3 = (В/С—А/С) хххг—(Е/С) х3. Эти уравнения описывают свободное движение вращающегося твердого тела (например, движение спутника на орбите). Здесь переменные хи х2 и х3 — составляющие угловой скорости относительно главной оси, А, В ж С — соответствующие главные моменты инерции и Ε — показатель затухания. Положите А = 1, В = 2, С = 3, £" = 0,2, χι (t0) = 1; х2 (to) = — 1, х3 (to) = 0. Используйте шаг h = 0,1 с. (Проверьте я, (1,0) = = 0,9382328, х2 (1,0) = 0,7705584, х3 (1,0) = 0,2770832.)
48 * Глава 3 ЛИТЕРАТУРА 1. Collatz L., The numerical treatment of differential equations, 3rd ed., Springer Verlag, Berlin, 1960. 2. F ο χ L., Numerical solution of ordinary and partial differential equations, Pergamon Press, N.Y., 1962. Дополнительная литература Gilbert С. Ρ·, The design and use of electronic analogue computers, Chapman and Hall, London, 1964. Κ ο ρ a 1 Ζ., Numerical analysis, Chapman and Hall, London, 1961. McCracken D. D., Dorn W. S., Numerical methods and Fortran program-, ming, Wiley, N-Y., 1964; русский перевод: Мак КракенД. Д., Дорн У. С, Численные методы и программирование на Фортране, изд-во «Мир», 1969. Milne W. Ε., Numerical solution of ordinary differential equations, Wiley, N.Y., 1953. Ralston Α., A first course in numerical analysis, McGraw-Hill, N. Y., 1965. Ralston Α., W i 1 f H. S., Mathematical methods for digital computers, Vol I and II, Wiley, N.Y-, 1967.
Глава 4 ОСНОВНЫЕ ПОНЯТИЯ МИНИМИЗАЦИИ В гл. 2 отмечалось, что задача оптимального управления сводится к отысканию функции управления, доставляющей минимум (или максимум) критерию качества. В настоящей главе эта задача рассмотрена более подробно. С целью пояснения процедур поиска, используемых при построении функций оптимального управления, приводится конкретный пример, основанный на методе динамического программирования. Кроме того, проводится сравнение минимизации функционала с задачей минимизации функции критерия, возникающей при отыскании точек в пространствах параметров и состояний, соответствующих оптимальным множествам параметров модели и значений переменных состояний. Мы делаем это для того, чтобы выделить понятия минимизации функционалов и вариационного исчисления, которые широко применяются в последующих главах книги. 4.1. Вводные понятия для траекторий оптимального управления Как и прежде, необходимые понятия мы будем вводить на примере х). Обращаясь опять к примеру с судном (фиг. 2.8), заменим (2.26) уравнением первого порядка в конечных разностях: ^-=-^V + VcoSu, (4.1) ^■ = Vsinit. (4.2) Для иллюстрации положим h = l, V = 1/i. Исключив и из (4.1) и (4.2), найдем Запишем (4.3) в виде квадратного уравнения относительно Δί: (-W-^^tr+^XzAx^At + iAxtf + iAtJ^O. (4.4) г) Решение этого примера методом динамического программирования выполнил Б. Кэбриэл в Университете Нового Южного Уэльса (Кенсингтон),
50 Глава 4 Допустим, мы разделили плоскость (xlt х2) прямоугольной сеткой с расстоянием между линиями 1/2 в направлениях Χι и х2. Используя уравнение |4.4), можно вычислить приращение времени Δί, соответствующее движению от одной вершины сетки к соседней вершине, причем для пространственного приращения (Axlt Ax2) допускается восемь возможных значений: (0,+ V2). (iVa. 0), (άζ1/2, Фиг. 4.1. Длительности переходов в примере с судном. ± 1/2). Например, время Δί, необходимое для достижения начала координат из точки (χι = 1/2, Хг = 1/2)> получаем решением квадратного уравнения (4.4) при значениях Δ^ι = — 1/2, Ах2 = = —1/2, Таким образом, Δί = 2,1 или —4,8, причем имеет смысл только положительное решение Δί = 2,1. Продолжая этот процесс, можно построить сетку, показанную на фиг. 4.1. На каждой дуге сетки указано время, необходимое для перехода из одной вершины в другую в направлении стрелки. Легко видеть, что затрачиваемое время зависит от относительного направления движения. В примере с судном минимизируемым критерием является время, затрачиваемое на переход из заданного начального положения
Основные понятия минимизации 51 в начало координат, Оптимальную траекторию из любой вершины (квантованное положение) в начало координат легко можно получить из фиг. 4.1. На фиг. 4.2 показаны оптимальные траектории; минимальное время движения к началу координат указано в кружке для каждой вершины. Несколько выводов, сделанных непосредственно из примера с судном, можно обобщить следующим образом. 1. Отыскание оптимальной траектории по существу является процедурой поиска, процедурой перебора конечного числа возможных путей, появляющихся при квантовании плоскости (xi, х^ прямоугольной сеткой. Очевидным обобщением является то, что процедура поиска всегда устанавливает оптимальную траекторию в пространстве состояний [например, в плоскости (xlf x2)] независимо от характера задачи. Однако против такого подхода имеется практическое возражение, основанное на экспоненциальной зависимости числа различных проверяемых траекторий от размерности пространства состояний. Так, в примере с судном можно добавить еще одну переменную состояний, выбирая критерий, который не только приписывает вес затраченному времени, но и включает член, позволяющий учитывать потребление топлива судном. Поскольку судно при Движении на полной скорости расходует непропорционально больше топлива, чем при движении, скажем, с вдвое меньшей скоростью, дополнительной переменной состояния может быть скорость судна. Тогда при трех переменных состояния пространство состояний представляет собой куб. Например, если разделить куб прямоугольной сеткой на 1003 меньших кубов, то это и будет мерой числа возможных путей, соединяющих заданную исходную точку с началом координат. 2. Если х2 принимает значение 1,5 или больше, то судно никогда не достигнет начала координат. Очевидно , это ограничение связано с квантованием направлений, в которых может двигаться судно. Заметим, что это ограничение нельзя преодолеть, уменьшая расстояния между линиями сетки, если только не доцустить в то же время дополнительные направления. 3. Оптимальные пути из различных исходных точек не пересекаются, хотя они могут совпадать, когда пути сходятся к началу JQ-*—0-^—0 Фиг. 4.2. Оптимальные траектории в примере с судном.
52 Глава 4 координат. Как легко видеть, сходящиеся пути имеют сходную форму, например они являются параллельными. Обобщая описанную выше процедуру, можно видеть, что число сравниваемых путей значительно сократится при уменьшении указанного в п. 1 порядка величины, если учесть, что сходящиеся пути имеют сходную форму, как линии тока в потоке жидкости. Подобие сходящихся путей следует из аналитической непрерывности первоначальной, неквантованной задачи. Только небольшой шаг отделяет понятие аналитической непрерывности от принципа стационарности в вариационном исчислении. Основываясь на дискретной постановке задачи о судне, при не>- котором воображении можно сделать более понятными эффекты, возникающие в более сложных задачах. 1. Определенные области могут быть исключены из пространства состояний или переменные состояний и управлений должны удовлетворять некоторым соотношениям (ограничениям). Например, в рассмотренной выше задаче судно должно идти вдоль берега островов или допустимый диапазон углов курса может быть функцией скорости течения. 2. Оптимальный путь может быть не единственным. Например, в задаче о судне могут быть два совершенно разных пути, для которых время достижения начала координат одинаково. Один путь может оказаться предпочтительнее другого по причинам, которые не отражаются на критерии качества. Более вероятной является ситуация, когда имеются два совершенно разных пути, каждый из которых доставляет локальный минимум, т. е. любой соседний путь дает большее значение критерию качества. При этом значение критерия для одного пути, соответствующего локальному минимуму, может значительно отличаться от критерия для другого пути. Таким образом, условия локального минимума являются необходимыми, но не достаточными для того, чтобы минимум достигал самой нижней границы критерия качества (глобальный минимум). 4.2. Вводные понятия. Оптимальные оценки состояний и параметров Задача оценивания начального состояния системы и параметров, не определенных полностью в уравнениях состояний, существенно отличается от задачи оптимального управления, так как в первой задаче требуется оценивать положение точки в пространстве параметров, а во второй — траекторию в пространстве состояний. Например, в задаче о судне может потребоваться точная оценка положения судна в данный момент времени по последовательности измерений на некотором отрезке времени. Таким образом, если (х1: х2) — оценка положения судна в данный момент и / (хи χ2) — значение критерия для конкретной оценки, то требуется найти значения х\, х2, минимизирующие /.
Основные понятия минимизации 53 Фиг. 4.3. Примеры двумерных линий уровня. Приведем несколько простых примеров для пространства двух измерений, иллюстрирующих эффекты, которые могут возникнуть в практических многомерных задачах. Фиг. 4.3, а: у = ехр (— х\ + х\). Контуры имеют седловую точку при (0,0). Если — 1 :ζ а^ <! 1 и — I ^.х2^1, то имеются одинаковые минимумы с ограничениями в точках (1,0), (—1,0).
54 Глава 4 Фиг. 4.3, б: у = х\х\. Контуры не имеют точек минимума, но имеются две горизонтальные долины, вытянутые вдоль осей χι и х2. Фиг. 4.3, в: у — х\ + х\. Контуры представляют собой окружности с общим центром в начале координат. Начало координат есть единственная точка минимума, в которой по этой причине находится точка глобального минимума. Фиг. ,4.3, г: у = 100 (х2 — а*)2 + (1 — xtf. Контуры образуют искривленные долины с небольшим уклоном, причем минимум находится в точке (1,1). Эта функция называется тестовой функцией Розенброка [1]. Фиг. 4.3, д: у = х\ (χι — I)2 + х\ (х2 -^ I)2. Контуры показы* вают два идентичных локальных минимума в точках (0,0) и (1,1) и седловую точку (V2, 1U). Примеры на фиг. 4.3 показывают, что определение минимума необходимо проводить в два этапа. 1. Начальный грубый поиск для определения общей зависимости критерия качества от значений параметров. Такую информацию едва ли можно получить по исследованиям вне режима нормальной работы, так как форма поверхности критерия может радикально меняться, скажем, с изменением начальных условий. Пусть, например, в задаче о судне положение судна определяется только по показаниям эхолота, снятым при движении судна, сравнением наблюдаемого профиля дна океана с ранее полученными картами. Следует ожидать, что ошибка в приближении кривых будет существенно изменяться, если приближение производится в разных точках карты. 2. Подробный поиск в областях, где следует ожидать наличия локальных минимумов. Если поверхность "критерия непрерывная· и гладкая, то весьма эффективным средством поиска являются вычисление градиента и, возможно, кривизны в некоторой точке и выбор направления поиска. Способы определения направлений поиска рассмотрены в гл. 6. 4.3. Линейный поиск Допустим, что поверхность критерия имеет вид у = у (хи . . . . . ., хп) и что установлено направление поиска х\ + λΔ^, . . ., а& + + λΔα&), где (χ°ν . . ., ^—начальная точка в пространстве состояний, Δ^, . . . , Δχαη — заданные константы и λ — переменная. Таким образом, в направлении поиска многомерное пространство эффективно сводится к одномерному. Поставим задачу отыскания минимума функции у — у (х). Эта задача существенно облегчается, если функция у (х) строго унимодальна [2, стр. 219]. Строго унимодальной называется функция, которая монотонно убывает к минимуму и затем монотонно возрастает. Некоторые примеры приведены на фиг. 4.4.
Основные понятия минимизации 55 Дихотомный поиск Предположим, что минимум достигается на интервале L, как показано на фиг. 4.4. Если вычислить градиент в средней точке интервала (при χ = -Уг), то можно будет воспользоваться унимодальностью кривой и решить, в какой части интервала достигается минимум — в левой или в правой. Таким образом, если градиент положительный, то минимум достигается в левой части интервала, L t о L χ -\ , ι L X Φ и г. 4.4. Строго унимодальные функции: выпуклые книзу (в), непрерывные (б) и произвольные (в). а если он равен нулю, то достигнут минимум. Приняв решение о том, в каком полуинтервале искать минимум, вычисляем градиент в средней точке полуинтервала и продолжаем делить пополам интервал, в котором находится минимум. Например, для уменьшения интервала в 100 раз необходимо вычислить градиент в семи точках. Если функция гладкая, то можно вычислить меньшее число значений, используя аппроксимацию 'функции, о которой речь будет идти в гл. 6.
56 Глава 4 Поиск с использованием чисел Фибоначчи Поиск с использованием чисел Фибоначчи применим в тех слу-' чаях, когда можно вычислять только значения критерия качества, а производную вычислить нельзя. При заданном числе η вычисляемых значений критерия и заданном начальном интервале L поиск с числами Фибоначчи минимизирует подынтервал, в котором достигается минимум. Полное описание метода можно найти в работе Вильде и Бейтлера [2, стр. 236]. Покажем лишь, как работает метод в случаях η = 2, η = 3. , η =2 (фиг. 4.5, а). Два вычи- J 2 сления производятся вблизи друг -х- L ι l ι l ι от друга и симметрично распо- з в з с 3 d лагаются относительно середины / О) 2з интервала. По существу произво- * Х^* AD дится оценка градиента в середине (Л) и >и интервала. Если у ι > у2, то минимум достигается в правой части хм * , интервала, а если у2 > у ι, то в с Ώ в левой. (Ш)уг>у1 п = 3 (фиг. 4.5,6). Вначале 5 производятся два измерения в точ- _, . , „ ках 1 и 2. Если г/j > г/2, то из Фиг. 4.5, Поиск по методу чисел Фибоначчи. свойства унимодальности легко α _ „ = 2; в — η = з. сделать вывод, что точка минимума лежит в интервале ВС или CD. Если же г/2 > Ui, то точка минимума лежит в интервале АС. При У\ > Уг третья точка располагается вблизи точки 2, что позволяет, как и в случае η — 2, сделать вывод о том, в каком интервале лежит точка минимума — А В или ВС. Таким образом, три измерения критерия качества уменьшают длину интервала в 3 раза. При использовании метода с числами Фибоначчи требуется произвести 11 вычислений для сокращения интервала менее чем до 1 % его первоначальной длины. 4.4. Выводы Имеющиеся методы отыскания минимума критерия качества кратко классифицированы в табл. 4.1. В этой главе было неявно Таблица 4.1 Минимизация ι 1 Глобальный минимум Локальный минимум Последовательный поиск Локальный поиск Случайный поиск Принцип максимума Динамическое программирование Вариационное исчисление
Литература 57 использовано динамическое программирование в примере с судном (разд, 4.1) и приведены примеры локальных методов поиска (разд. 4.3). Однако из перечисленных в табл. 4.1 методов в настоящей книге наиболее широко используется вариационное исчисление (и принцип минимума). Многие методы широко освещаются в работах, которые приводятся в дополнительном списке литературы. ЛИТЕРАТУРА 1. Rosenbrock Η. Η., An automatic method for finding the greatest or least value of a function, Computer J., 3, № 3, 175 (1960). 2. Wilde D. J., В e i g h 11 e г С. S., Foundations of optimization, Prentice- Hall, 1967. Дополнительная литература Fan L. Т., Wang C. S., The discrete maximum principle, Wiley, N. Y., 1964. Larson R. E., Dynamic programming with reduced computational requirements, IEEE Trans. Automatic Control, Vol. AC-10, 135 (1965). Lasdon L. S., Waren A. C, Mathematical programming for optimal design, Electro-Technology, 53 (November 1967). Wilde D. J., Optimum seeking methods, Prentice-Hall, 1964; русский перевод: Уайлд Д. Дж., Методы поиска экстремума, изд-во «Наука», 1967.
Глава 5 ОЦЕНИВАНИЕ ПАРАМЕТРОВ И СОСТОЯНИЙ ЛИНЕЙНЫХ СИСТЕМ В гл. 2 было показано, каким образом можно использовать физические законы и эмпирические соотношения для вывода уравнений состояний системы и каким образом в этих уравнениях могут появитьея неизвестные параметры. Мы видели также, что перед началом интегрирования уравнений состояний и вычисления последствия применения возможных управлений необходимо, чтобы было известйо начальное состояние системы. В настоящей главе рассматривается задача оценивания неизвестных параметров и состояний. Изложение ограничивается линейными дискретными системами; нелинейные системы рассмотрены в следующей главе. Мы покажем, что задача оценивания параметров и состояний имеет особенно простое решение в случае использования метода наименьших квадратов в предположении, что система является линейной и дискретной во времени. В методе наименьших квадратов невязка определяется как разность между выходом, измеренным на системе, и реакцией, вычисленной по математической или физической модели системы. Невязка складывается из неточностей в структуре модели и неучтенных взаимодействий среды и системы. Независимо от происхождения невязки метод наименьших квадратов минимизирует сумму квадратов дискретных значений невязки, причем в рассматриваемом случае измерения производятся в равноотстоящие моменты на заданном интервале времени. В разд. 5.1—5.3 рассматривается оценивание по методу наименьших квадратов. В разд. 5.1 исследуется метод взаимных корреляций, причем этот метод выбран отчасти из-за'простоты используемых понятий, а отчасти из-за легкости построения некоторых тестовых сигналов. В методе взаимных корреляций вычисляется оценка дискретных значений импульсной переходной функции. Вычисление выполняется путем обработки за одну операцию временной последовательности измерений, производимых на заданном интервале времени. В разд. 5.2 будет выведена рекуррентная оценка для дискретных значений импульсной переходной функции, т. е. оценка, которая корректируется после каждого измерения на основании измерений, производимых в дискретные моменты времени, и по ранее полученной оценке. В разд. 5.3 мы обобщим этот рекуррентный метод, вводя уравнения переходов для состояний, что позволяет оценивать и состояния и параметры.
Оценивание параметров и Состояний линейных систем 59 В разд. 5.4—5.6 излагается материал, сходный с материалом разд. 5.1—5.3 соответственно, но на более высоком уровне, и при. первом чтении его можно опустить. В разд". 5.4—5.6 авторы намеревались показать, как статистическую информацию можно использовать в схеме оценивания. Следовательно, может быть повышена точность для заданного интервала измерений или, наоборот, при заданной точности может быть уменьшен интервал измерений. 3.1. Оценивание параметров по методу наименьших квадратов Постановка задачи Рассмотрим систему с одним входом и одним выходом, показанную на блок-схеме фиг. 5.1. Функция времени x(t) описывает изменения входной величины относительно среднего значения, а ζ (ί) — изменение выхода относительно среднего. Для линейной стационарной системы выход Г X(t) Линейная система h(T) z(t) Φ и г. 5.1. Обозначения, используемые для описания системы с одним входом и одним выходом. можно записать в интегральной форме rs ζ(ί) = f /г (τ) я (ί — τ)άτ + η(ί), о (5.1) где h (τ) — весовая функция зна чений входов в прошлом на ин- ^ ν тервале, ограниченном временем установления "системы Ts (обычно называемая импульсной переходной функцией); n(t) —невязка (иногда называемая шумом). Невязка состоит из реакций на другие входы системы и ошибок в линейной модели, возникающих из-за предположения (5,1), что объект линейный и стационарный. С математической- точки зрения интегрирование в (5.1) должно производиться по бесконечному интервалу значений входа в прошлом. На практике значениям входа вне конечного интервала в прошлом, ограниченного моментом времени Ts, придается нулевой вес; этот момент называется временем установления. Обычно Ts определяется как минимальный интервал времени, измеренный от момента подачи импульсного сигнала, вне которого реакция составляет, например, 5% пикового значения. При численных расчетах время должно квантоваться. Для равномерного интервала квантования Δ уравнение (5.1) можно записать в виде Ns-i ζ(ίΔ) = Σ Μ/Δ)ζ[(ϊ — /)А]А + гсг, i = 0, 1, Nm — l. (5.2)
60 Глава 5 Здесь Ts = Ν$Δ — время установления; Тт = NmA — время измерения выхода; иг содержит не только' невязку в дискретный момент времени n(iA), но также и ошибку в аппроксимации непрерывной функции χ (t — τ) кусочно-постоянной функцией χ [(i — -J) Δ], где /Δ > τ >(/-!) Δ, / = 0,1,..., Ν,-ί. kx(0 (i-Ts)a 0 FmU ТтА Фиг. 5.2. Куеочно-постоянная аппроксимация. Метод кусочно-постоянной аппроксимации иллюстрируется на фиг. 5.2. Запишем уравнение (5.2) более кратко: Ns-l zt= Σ hjXi.^ + m, 1 = 0, 1, ..., iVm—1. (5.3) ?=o *t Линейная система 1ч "ι *ι При использовании этих обозначений можно показать, что схеме фиг. 5.1 в дискретные моменты времени t = ίΔ эквивалентна схема, показанная на фиг. 5.3. В случае дискретизации во времени задача параметризуется, и оценивание непрерывной функции h (τ) заменяется оцениванием конечного множества параметров h0, . . ., Ajvs-i» называемого дискретной импульсной переходной функцией. Для упрощения последующего представления запишем уравнение (5.3) в матричном, развернутом виде Фиг. 5.3. Эквивалент фиг. 5.1 в дискретном времени. -Ns+l Α0Δ или в символическом виде ζ = Αβ + η. + .ηΝπ (5.4) (5.5) С помощью символов (5.5) исследуемая задача сводится к оцениванию вектора параметров β при заданной матрице А и векторе измерений ζ. Критерием при оценивании β является выбор вектора β, минимизирующего сумму квадратов невязок на интервале измере-
Оценивание параметров и состояний линейных систем 61 ния. Таким образом, положим J= Σ η\. (5.6) i=0 В матричном виде / = п'п. (5.7) Подставляя (5.5) в (5.7), получаем /=(ζ—Αβ)Γ(ζ—Αβ). (5.8) Оценка по методу наименьших квадратов β* удовлетворяет уравнению ; /* = min/ = /|p=p*. (5.9) β Как мы увидим, важным свойством оценок наименьших квадратов является то, что существует один и только один локальный минимум, совпадающий с глобальным минимумом, т. е. оценка наименьших квадратов β* единственна. Уравнение Винера — Хопфа Необходимым условием вычисления / является выполнение условия экстремума ■2ΑΓ(ζ—Αβ*). (5.10) Проделаем вывод (5.10), пользуясь формулой (5.8), записанной с использованием сумм: Nm-l Ns-l JV»-1 /= Σ (ζι- Σ ^β;)(ζ;-*Σ "Μ- (5-И) г—0 j=0 ft=0 Как и прежде, / должна удовлетворять условиям экстремума О- д3 I υ — "до— L * — орт |Рт=Рт Nm-l Ns-l Ns-l i=0 ft=0 j=0 Nm-l Ns-l = -2 2 aim(Zi- 2 а-Ж) при m = 0, 1, ...,#, — !. (5.12) i=0 fe=0 Мы видим, что формула (5.12) — это записанная через суммы формула (5.10). Достаточным условием при расчете минимума / является положительная определенность квадратной матрицы
62 Глава 5 Из формулы (5.10) д {dJ_\T\ _OaTa ар I ар ) |β=β* - ΔΆ Α· (5.14) и матрица АТА будет положительно определенной, если она неособенная. Формула (5.14) записывается через суммы следующим образом: Nm-l 9βη dfim βη=β* , 3m=P* = 2 2 aim.ain- (5.15) {=0 ' Правую часть (5.15) получаем непосредственно из формулы (5.12) дифференцированием ее правой части по β£. Поскольку правая часть (5.14) не зависит от β, условие экстремума (5.10) является необходимым и достаточным условием минимума, если матрица АТА неособенная. Из-за отсутствия других минимумов полученный минимум является глобальным. Перепишем (5.10) в виде ΑτΑβ* = Ατζ. Из уравнения (5.4) следует .XNm-l -Ns+l £Nm-Ns_ ϊ*Τ β 1=[йЦЛ, ...,h*Ns-iA], zT= [ζο> · · ·· zNm-i]· (5.16) (5.17) (5.18) (5.19) Подставляя (5.17) — (5.19) в (5.16) и записывая через суммы, получаем уравнение Ns-l Nm-l Nm-l Σ ( Σ Xh-lXh-))h*tS.= Σ Xh-lZh. ■ j=0 fe=0 ■ - fe=0 (5.20) В непрерывной форме это уравнение запишется следующим образом: Ts Tm Тт f [ f x(t — τ) a; (i — Q)dt] Α*(θ)ώθ = j χ (ί—τ) ζ (ί) Λ. (5.21) ο ο Уравнение (5.21), называемое уравнением Винера—Хопфа, может быть переписано в виде Ts j Я** (τ—θ)Α*(θ)ώθ = /?*ζ(τ), (5.22)
Оценивание параметров и состояний линейных систем 63 где Rxx (τ)—автокорреляционная функция1) Тт Rxx(r) = 4^ \ *#—,τ)*(0* (5-23) о и /?*ζ(τ) — взаимная корреляционная функция rxz(x) = JL. j X(t—X)z(t)dt. (5.24) В дискретном случае решение уравнения Винера — Хопфа эквивалентно решению (5.16), а именно β* = (ΑΓΑ)-1ΑΓζ. (5.25) Периодический входной сигнал Решение уравнения (5.22) упрощается, если вход периодический и, "следовательно, детерминированный. Таким образом, при условии, что время измерения Тт в g раз больше периода Τ входного сигнала, из (5.23) следует выражение г Rxx(x) = -jr]x(t — r)x(r)dt, (5.26) θ : а из (5.24) — выражение ^ζ(τ) = 4Η^τ){Ζ(ί) + Ζ(ί+Γ)+·^^[ί + (9~1)Γ]}^ = г = -^г\ x(t—T)z(t)dt. (5.27) о Исследование (5.26) и (5.27) показывает, что время взаимной корреляции в действительности равно периоду Т. При соответствующем выборе q время измерения может быть сделано сколь угодно большим, и дисперсия ошибки оценивания становится меньше любого заданного значения. Операция вычисления среднего значения выхода I(t)~j-{z(t)+z(t + T) + ...+z[t + (q-l)T]} (5.28) легко может быть выполнена. *) Формулы (5.23) и (5.24) определяют оценки автокорреляционной и взаимной корреляционной функций. — Прим. перев.
64 Глава 5 Периодические тестовые сигналы синусоидальной и прямоугольной формы Синусоидальные колебания получили распространение в качестве тестовых сигналов из-за большой простоты анализа, что связано со свойством инвариантности , колебаний при прохождении через линейную стационарную систему. Необходимо оценивать только два параметра выходного сигнала — амплитуду А колебаний в фазе и амплитуду В колебаний со сдвигом в четверть, периода. Рассмотрим синусоидальный входной сигнал χ (t) = a cos ^ψ-. (5.29) Тогда #«c(t) = 4-cos-^- (5.30) τ г d / \ Г а Г -л.\ 2πί ,.Ί !2πτ , г α ΐ- ... . 2πί ,.Ί . 2πτ ■Κχζ(τ) = \ γ- \ ζ (t) cos-ψ-dt I cos "-у--Η у \ z(t) sin-γ-dtjsm-γ-. .ο η . (5.31) Как известно, линейная операция, описываемая интегралом в (5.22), над синусоидальными колебаниями Rxx (τ) дает синусоидальные колебания той же частоты! . ]^cos^^lh*(Q)dQ = ^(A*oos^Yl-B*sm^.) . (5.32) о Здесь А* и В* можно интерпретировать как компоненты оцениваемой частотной передаточной функции Н* [j (2п/Т)]; Η* (/ω) — преобразование Фурье оцениваемой импульсной переходной функции h* (τ). Подстановка (5.31) и (5.32) в (5.22) дает уравнения г а4* = у f ζ (t) cos ~dt, (5.33) 0 Τ αΒ* = Ύ^ ζ (t) sin ϊψ-dt. (5.34) о Правые части этих уравнений представляют собой коэффициенты ряда Фурье, соответствующие основной гармонике периодических колебаний ζ (t). Взаимная корреляция имеет особенно простой вид в случае синусоидального входного сигнала, поскольку на каждой частоте
Оценивание параметров и состояний линейных систем 65 должны быть определены только два параметра — А ж В. Синусоидальная взаимная корреляция по существу соответствует приближению по методу наименьших квадратов синусоидальных колебаний основной частоты с произвольными амплитудой и фазой к выходным колебаниям. Выделение из шума, характеризующее метод наименьших квадратов, аналогично узкополосной фильтрации, применяемой при обычном обнаружении синусоидальных колебаний. В частности, все гармоники (кратные основной), присутствующие в выходном сигнале, например, из-за нелинейностей или нестационарности, дают нуль при интегрировании в (5.33) и (5.34) и не влияют на оценку частотной характеристики. Если взаимная корреляционная функция периодична, то легко получить текущие записи выборочного среднего и выборочной дисперсии оценок Л* и В*. Например, в случае параметра А выборочное среднее определяется как η λη = ν Σ ^ (5·35) i=i и выборочная дисперсия равна η ±-Σ(Αΐ-Αη)\ (5.36) где At — оценка А, полученная из взаимной корреляционной функции на i-м периоде входных синусоидальных колебаний. Эксперимент может закончиться, когда наибольшая из выборочных дисперсий Л* и В* окажется ниже некоторого заданного уровня. Для входных величин, совместно воздействующих на промышленный объект, например для состава материала, потоков, давлений и температур, часто оказывается не просто подать синусоидальное возмущение достаточно правильной формы. С точки зрения приборной реализации может оказаться проще генерировать прямоугольные колебания, так как это можно осуществить с помощью прерывателей. Но поскольку коэффициенты Фурье прямоугольных колебаний не допускают непосредственной реализации, необходимо перейти к более удобному частотному спектру. .Преобразование сводится к разложению прямоугольных колебаний в ряд Фурье, а эта операция легко выполняется даже на небольшой цифровой вычислительной машине. Метод определения характеристик, основанный на взаимных корреляциях с помощью прямоугольных колебаний, следует отличать от более распространенного метода прямоугольных колебаний, который по существу сводится к многократному применению ступенчатых возмущений, причем полупериод' прямоугольных колебаний превышает время установления системы.
66 Глава 5 Псевдослучайный пробный сигнал Если помимо периодичности входа известно, что автокорреляция входа периодична, то решение уравнения (5.22) еще более упрощается. Так, если Д«(т) = 6(т), (5.37) где δ (τ) — единичная импульсная функция, то (5.22) сводится к выражению h*(T) = Rxz(T), (5.38) где Яхг (τ) определяется экспериментально согласно (5.24). Другими словами, взаимная корреляционная функция дает непосредственно импульсную переходную функцию. Очевидно, что периодическая последовательность импульсов имеет автокорреляционную функцию, приближающуюся к (5.37), при условии, что длительность каждого импульса мала по сравнению с наименьшей значимой постоянной времени системы. Пиковая амплитуда каждого импульса ограничена следующими практическими соображениями: 1) чем больше амплитуда, тем менее реалистично предположение о линейности системы в диапазоне изменений входа; 2) пробные импульсы с амплитудами, не допускающими выделения импульсов на фоне помех, по-видимому, слишком велики, чтобы, например, обеспечить нормальную работу промышленного объекта и в то же время не привести к повреждению готовой продукции. Следовательно, было бы лучше, если бы энергия сигнала распределялась равномерно и по интервалу времени и по частотному спектру. Такой сигнал имеет характеристики, близкие к белому шуму, но вследствие периодичности и детерминистской природы его называют псевдослучайным. Двоичный псевдослучайный пробный сигнал При заданной пиковой амплитуде а входного сигнала входная энергия на период максимальна, если входной сигнал двоичный и принимает два возможных значения: а и —а. Таким образом,, при заданной пиковой амплитуде двоичный сигнал имеет наибольшее отношение сигнала к шуму. Двоичный псевдослучайный сигнал, который обычно называют псевдослучайным двоичным шумом, приводит еще к одному упрощенному решению уравнения (5.22). Умножение χ (t — τ) на ζ (ί), которое требуется при вычислении взаимной корреляционной функции Гер. (5.27)], просто заменяется операцией переключения. Двоичный псевдослучайный сигнал генерируется в виде дйоичной последовательности, причем переключение с одного уровня на другой пр оисходит псевдослучайным образ ом дискретно вовремени, поскольку
Оценивание параметров и состояний линейных систем 67 переключения могут происходить в равноотстоящие моменты времени (фиг. 5.4). Вследствие кусочно-постоянного характера сигнала автокорреляционная функция сигнала меняется линейно между моментами квантования. Таким образом, наилучшей аппроксимацией Фиг. 5.4. Участок реализации двоичного псевдослучайного колебания. импульсной автокорреляционной функции является треугольная автокорреляционная функция, показанная на фиг. 5.5, а. Оказалось, что эта автокорреляционная функция нереализуема с помощью дво- 'XX -Δ Ο Δ ΝΔ Т=Ш -а' 1 ΝΔ Τ*ΝΔ δ Фиг. 5.5. Желаемая автокорреляционная функция. ичной последовательности. Ближайшая реализуемая автокорреляционная функция (фиг. 5.5, 6) отличается от нее наличием ненулевого смещения. Имеется несколько классов двухуровневых последовательностей, имеющих автокорреляцию, показанную на фиг. 5.5, б [4], но один из них (так называемые ^-последовательности) значительно
68 Глава 5 превосходит все остальные по применимости для идентификации систем. Число N элементов в одном периоде йг-последовательности имеет вид N= 2п — 1, и т-последовательность представляет собой последовательность максимальной длины, которая может быть генерирована с помощью регистра .сдвига на η разрядов. Способы введения обратных связей табулированы при 2 ^ η ^ 34 в работе Питер- сона ИЗ]. Для примера на фиг. 5.6 показан случай η = 4. В интервале времени ίΔ < t < (i + 1)Δ выход равен χι = £j_i φ xt-i,, (5.39) Где 0 обозначает двоичное (т. е. по модулю 2) сложение. В момент времени (i + 1) содержимое регистра сдвига смещается вправо на г 2 з 4 Ч-г Ч-г Ч-З Ч-ί Сложение по модулю 2 Фиг. 5.6. Регистр сдвига с обратной связью. один разряд, причем £;_4 выбывает из разряда 4 и теряется, а содержимое ячейки 1 заменяется на χι. Таким образом, если начальным состоянием регистра сдвига является, скажем, 1000, то последовательными состояниями будут ^ 1000, 1100, 1110, 1111, 0111, 1011, 0101, 1010, 1101, ОНО, ООН, 1001, 0100, 0010, 0001, 1 Сдвиги ^-последовательностей, необходимые для вычисления взаимных корреляционных функций (5.27) при различных значениях задержки τ, легко генерируются. Они имеют вид линейных комбинаций по модулю 2 состояний регистра сдвига. Интересующийся читатель найдет обстоятельное изложение способов генерирования и свойств ^-последовательностей в работе Дэвиса [3]. Выбор периодического пробного сигнала Когда метод взаимной корреляции применяется для получения информации, необходимой для построения математической модели промышленного объекта вне контура управления, могут потребоваться многочисленные эксперименты, каждый длительностью в несколько часов. При этом может происходить нарушение нормальных режимов работы, а эксперименты окажутся трудоемкими
Оценивание параметров и состояний линейных систем 69 и потребуют весьма квалифицированного подхода. При использовании метода взаимной корреляции в контуре управления подготовка считается уже проделанной. В этом случае задача сводится к полной автоматизации получения и обработки данных, обеспечению процедуры испытаний без нарушения нормального режима работы объекта и построению процедуры испытаний, обеспечивающей достижение требуемой точности в течение возможно более короткого времени. Чем меньше время эксперимента, тем легче обнаружить временные изменения поведения объекта и применить корректирующие воздействия. Таким образом, имеются веские экономические и технические причины минимизации времени эксперимента. Установление требуемого времени эксперимента зависит от уже имеющихся сведений о динамике объекта, выбранной формы пробного воздействия, выбранных параметров эксперимента и мер, принимаемых для коррекции источников ошибок. Рассмотрим последовательно все эти факторы. Наиболее употребительными периодическими сигналами для определения характеристик являются синусоидальные, прямоугольные и псевдослучайные сигналы. С точки зрения извлечения максимума информации о динамике системы за минимальное время измерения все эти сигналы имеют одинаковые качества. Например, псевдослучайный сигнал можно рассматривать как суперпозицию синусоидальных колебаний, подаваемых одновременно на "вход системы. Если бы те же синусоидальные компоненты подавались последовательно, то получилось бы определение характеристик с гармоническими входами. Оказывается, что любой способ подачи возмущения — последовательный или одновременный — дает одинаковую точность определения частотной характеристики системы при условии, что интервалы измерения и энергии, поданные на систему за время измерения, одинаковы. Выбор входного сигнала зависит от практических соображений, касающихся, например, простоты обработки данных и легкости приборной реализации. Простота обработки данных зависит от периодичности входного и выходного сигналов. Для того чтобы выходной сигнал также был периодическим, переходный процесс, связанный с началом подачи входного сигнала, должен существенно затухать. Только после этого можно начинать вычисление взаимных корреляций. Таким образом, при изменении любого параметра периодического входного сигнала перед началом измерений необходимо отбрасывать интервал времени, равный времени затухания переходного процесса в системе. Это требование особенно существенно при использовании в исследованиях метода синусоидальных колебаний, когда необходимо многократно изменять частоту входного воздействия, чтобы охватить весь частотный спектр реакций системы. Из-за потерь времени на установление переходных процессов между изменениями частот метод гармонических входных воздействий менее эффективен по затратам времени, чем метод псевдослу
70 Глава 5 чайных сигналов, для которого требуется только один период затухания. Прямоугольные колебания и двоичные псевдослучайные сигналы имеют преимущества сигналов переключательного типа. Принимая решение о выборе одного из них, мы должны определить, в какой области лучше задавать динамическое поведение системы — частотной или временной. В общем случае псевдослучайные сигналы позволяют получить импульсную переходную функцию, тогда как синусоидальные и прямоугольные колебания пригодны для получения частотной передаточной функции. Хотя временное и чаб- тотное представления взаимосвязаны однозначно посредством преобразования Фурье, общеизвестно, что некоторые типы информации например чистые времена запаздывания, лучше определять по временным представлениям, тогда как другую информацию, например о резонансах, легче определять по представлениям в частотной области. Выбор параметров пробного сигнала Если бы мы остановились на методе гармонических воздействий, то для определения характеристик потребовалось бы провести последовательно N экспериментов. В эксперименте с номером η синусоидальные колебания с амплитудой ап и периодом Тп подаются на исследуемую систему в течение времени Те, равного времени установления системы, и затем в течение времени измерения взаимной корреляции qn периодов. Параметры N, ап, Тп, qn (где η изменяется от 1 до iV) следует выбирать таким образом, чтобы минимизировать общее время эксперимента? Te = NTt+j] ЯпТп (5.40) n—i при заданной точности идентификации. Если частотная характеристика известна неточно, то измерения логично производить в тех участках частотного спектра, в которых сосредоточена большая часть мощности. Простой метод выбора шага изменения частоты заключается в установлении постоянных приращений площади под кривой, как показано на фиг. 5.7. Однако при изучении устойчивости замкнутой системы управления по результатам измерения разомкнутой системы требуется также производить более частые измерения в окрестности частот, для которых сдвиг фаз составляет-180°. При отсутствии очень подробных данных о частотной характеристике более надежно изменять частоту входа, придавая ей равные приращения, а затем в случае необходимости интерполировать, чтобы получить более тонкие детали. Приращения частоты (в герцах) удобно выбирать по формуле Δ/ = 4-. (5-41) 1 я
Оценивание параметров и состояний линейных систем 71 Если рассматривать Δ/ как основную частоту, то iVA/ есть наивысшая частота, для которой вычисляется переходная функция. Грубое приближение к N можно задать заранее, пользуясь приближенной информацией о частотной полосе системы. Действительное значение N лучше всего определять экспериментально, уменьшая изменение частоты, когда значение частотной характеристики упадет ниже заданного уровня. Когда заданы равные приращения частоты, общее время эксперимента, согласно (5.40), равно N Τε = ΝΤ, + Σ ЧпТ8 (5.42) Из уравнения (5.42) видно, что при невысоком уровне шума и qn, равном 1 при всех п, большую часть времени эксперимента составит бесполезное время установления. В промышленных Амплитуда гармонического колебания 0 Частота Фиг. 5.7. Дискретизация частотного спектра по критерию равных приращений площади. Амплитуда гармонического колебания и частота выражена в произвольных единицах; — частотная характеристика, известная приближенно. объектах значения qn, требуемые для получения приемлемой дисперсии оценок [ср. с (5.36)], таковы, что более половины времени эксперимента составляет полезное время вычисления взаимной корреляции. Чтобы минимизировать число периодов, по которым вычисляются взаимные корреляции, подаваемые на систему синусоидальные колебания должны иметь возможно большие амплитуды, определяемые практическими соображениями. Допустимая амплитуда синусоидальных колебаний зависит от мешающего воздействия, которое синусоидальные колебания оказывают на нормальный режим работы ^.объекта, а не от линейных искажений, которые, как будет показано в следующем разделе, в случае необходимости можно скорректировать путем обработки данных. В случае двоичных псевдослучайных сигналов представляют интерес такие параметры, как интервал квантования во времени Δ, число интервалов квантования N за один период последовательности, число периодов q, содержащихся в интервале взаимной кор-
72 Глава 5 реляции, и амплитуда последовательности а. Сделав подстановку А/| = Ж' (5·43) можно провести прямую аналогию с методом гармонических воздействий. Таким образом, обращаясь к фиг. 5.8, находим, что спектральная плотность ^-последовательности является линейчатой функцией с интервалом частот Δ/ и первым нулем при. NAf. В действительности ^-последовательность представляет собой суперпозицию синусоидальных колебаний в диапазоне от постоянной составляющей до NAf, так как 92% мощности сигнала содержится в этом частотном диапазоне. Детерминированный и статистический источники ошибок Некоторые источники ошибок оценивания детерминированы в том смысле, что они могут в принципе быть точно скорректированы. К этому классу ошибок относятся гладкие нелинейности, детерминированные возмущения, аддитивный низкочастотный дрейф на выходе, зависимость одного выхода от нескольких входов и отклонение пробных колебаний от математически идеальной формы. Статистические соображения могут возникнуть из-за наличия стохастических параметров. Например, если фон переменного тока вызывает синусоидальные колебания известной частоты, но с переменными амплитудой и фазой в выходном сигнале, то амплитуду и фазу синусоидальных колебаний можно рассматривать как стохастические параметры. Статистические источники ошибок лучше всего описываются с помощью статистических функций, например распределениями вероятностей и спектральными плотностями, или такими производными от них величинами, как средние и дисперсии. Все эти ошибки можно объединить и рассматривать как аддитивную компоненту шума на выходе. В этот класс попадают случайные возмущения, возникающие либо в самой системе, либо за счет внешних случайных входов и остаточных ошибок измерений после устранения, систематических ошибок. Ниже рассматриваются различные источники ошибок. Отклонение формы колебаний от идеальной Состав гармоник в пробном синусоидальном сигнале сам по себе не так уж важен,' поскольку метод взаимных корреляций эффективно выделяет гармоники. По-видимому, важнее то, в какой степени искажения изменяют амплитуду и фазу основной компоненты выходных колебаний, а также зависимость искажений от частоты входного сигнала. В случае прямоугольных колебаний или двоичных псевдослучайных последовательностей, очевидно,
Оценивание параметров и состояний линейных систем 73 следует учитывать невозможность мгновенного перехода входного преобразователя из одного состояния в другое. В случае двоичного псевдослучайного сигнала эффекты ошибок входного преобразователя глубоко проанализированы в работах Годфри и др. [7]. Конечная ширина полосы ^-последовательности (фиг. 5.8) или, что то же, треугольная, а не импульсная автокорреляция т-после- довательности (фиг. 5.5, б) приводит к закруглению фронта вычисляемой импульсной переходной функции. Этот эффект представлен 1 1 I* 0ги5ашЩая\Щ$ Составляющая постоянного тока. N" N-15 ь, --•.■"ГТТП'Т-гт-,- О J_ 2_ Δ Δ Частота, гц Фиг. 5.8. Спектральная плотность т-последовательности. на фиг. 5.9, а для взаимной корреляции, вычисленной в отсутствие шума на аналоговой машине для системы с импульсной переходной функцией вида e~at, показанной штриховой линией. Следует отметить, что весовая функция, показанная сплошной линией, антиси- пативна, но тем не менее физически реализуема, так как переходная характеристика периодична. При цифровом вычислении взаимной корреляционной функции выход можно аппроксимировать кусочно-постоянной функцией, т. е. значения в начале каждого интервала квантования Δ фиксируются на всем интервале Δ. Взаимная корреляционная функция, определенная в отсутствие помех по дискретным значениям выхода, искажает фронт вычислений переходной характеристики, как показано на фиг. 5,9,6. Можно показать, что сплошная линия на фиг. 5.9,а представляет собой график свертки идеальной импульсной переходной функции с автокорреляционной функцией на фиг. 5.5,а, а сплошная линия на фиг. 5.5,6 есть результат свертки идеальной импульсной переход-
74 Глава 5 Импульсная характеристика1 Идеальная ~ДналоеоВая Взаимная корреляция -Л Импульсная характеристика 2Δ Зй 4Δ Время 8 тактовых, периода* 3Δ 4Л - Время 8 тактовых периодах Фиг. 5.9. Детерминированное искажение формы импульсной переходной функции. а — эффект треугольной формы автокорреляции m-последовательности; б — эффект квантования по уровню. ной функции с функцией, график которой представляет собой прямоугольник с основанием от 0 до Δ, описывающий операцию квантования во времени. В принципе коррекция этих типов ошибок, показанных на фиг. 5.9, осуществляется путем операции, обратной свертке, но на практике гораздо проще уменьшать Δ до тех пор, пока ошибка не станет пренебрежимо малой. Использование дискретных значений выхода нежелательно при наличии значительного высокочастотного шума, поскольку при этом заметно увеличивается дисперсия оценок импульсной переходное функции. В таких случаях лучше квантовать выход с частотой, превышающей частоту квантования последовательности 1/Δ приблизительно в 4 раза, а затем использовать среднее по каждой группе из четырех отсчетов в качестве приближения к интегралу от выхода по всем интервалам Δ. Для примера на фиг. 5.10 показаны равноотстоящие выборочные значения белого шума (каждая выборка
Оценивание параметров и состояний линейных систем 75 взята случайно из диапазона целых чисел от —99 до +99), результат фиксации каждой четвертой выборки и для сравнения результат замены каждой последовательной группы из четырех выборочных значений их средним значением. Поскольку идеальный (физи- 100 Вепый шум о -100 Фиг. 5.10. Эффект простой цифровой фильтрации белого шума. О выборочные значения; кусочно-постоянная аппроксимация, использующая каждое четвертое выборочное значение шума; — кусочно-постоянное среднее, вычисленное для групп по четыре выборочных значения. чески нереализуемый) фильтр должен давать нулевую реакцию на белый шум, очевидно, что штриховая кривая дает лучшее приближение к идеальной, чем сплошная. Случайный дрейф Характеристики вход—выход системы можно измерять либо для замкнутой, либо для разомкнутой системы, как показано на Дополнительный пробный входной сигнал "~~ Пробный Входной Π сигнал *■ ' D Пробный Входной сигнал x(t)—■> ореана δ Фиг. 5.11. Измерение зависимостей вход —выход на промышленном объекте, о — замкнутый контур; б —разомкнутый контур, фиг. 5.11, α и б для промышленного объекта. При использовании синусоидальных пробных сигналов допустима любая конфигурация при условии, что вход системы измерим. Однако в случае псев- °"^о 0 ° о ° 5—1 О О О О 3 1 с 1 — с О 0 Время О о о ПнеВматичес- кое репе ссумматором Управляющее /стройство Q Кпапан исполнительного органа Объект Выход объекта Пневматическое реле с сумматором 1 d(t) Кпапан испопни- трль нпрп -*. Объект ζ(ί)
76 Глава 5 дослучайных пробных сигналов и замкнутой конфигурации обрат- ч ная связь от выхода системы к управляющему устройству на входе изменяет форму колебаний входного сигнала, так что на входе системы колебания уже не являются псевдослучайными. Независим мо от типа пробного сигнала уменьшение усиления в замкнутой конфигурации из-за отрицательной обратной связи приводит к тому, что характеристики системы желательно измерять при разомкнутом контуре, т. е. отключать автоматическое управление и, как показано на фиг. 5.11,6, подавать пробный сигнал на управляющий орган объекта. При разомкнутом контуре выход системы имеет случайный дрейф относительно рабочего положения. При анализе дрейф можно рассматривать как аддитивную компоненту на выходе системы. Таким образом, если обратиться к фиг. 5 И, б, выход можно представить в виде z(t) = y(t) + n(t) + d(t), (5.44) где Та у (ί) = J x (t—τ) h (τ) άτ (5.45) о есть компонента сигнала на выходе систем, соответствующая компоненте пробного сигнала χ (t) на входе системы. Поскольку дрейф представляет собой медленно изменяющуюся случайную компоненту, его можно аппроксимировать полиномом d (t) = a0 + a%t + α2ί2+ · · · + artr. (5,46) В формуле (5.46) степень аппроксимации г задана и является конструктивным параметром в эксперименте, а коэффициенты а0, . . ., ат неизвестны. Влияние полиномиального дрейфа χ (t) на взаимную корреляцию с у (t) можно устранить, если χ (t) является периодической нечетной функцией: x{t + Ti) = —x(t), (5.47) где Τι — полупериод. Примерами колебаний с такого рода симметрией являются синусоидальные колебания и_ модифицированная ^-последовательность [15]. Модифицированную т-последователь- ность (—lYXi (i = 0,1, . . ., 2N — 1) получают из т-последова- тельности Xt (i = 0, 1, . .'. , iV) при изменении знака у каждого второго элемента. Автокорреляционная функция модифицированной ^-последовательности (фиг. 5.12) получается из автокорреляционной функции ^-последовательности (фиг. 5.5,6) при изменении знаков у четных сдвигов. Оказывается, что выходной дрейф полиномиального типа степени не выше г можно точно скомпенсировать независимо от значений коэффициентов а0, . . ., ат путем вычисления взаимной корреляционной функции по г + 2 полупериодам, причем каждому
Оценивание параметров и состояний линейных систем 77 Таблица 5.1 г ко fti кг к3 к4 V Η ft? к» ft» r+1 Σ *4 О 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 .9 1 3 6 10 15 21 28 36 1 4 10 20 35 56 84 1 5 15 35 70 126 1 6 21 56 126 1 7 28 84 1 8 36 1 9 1 2 4 8 16 32 64 128 256 512 лолупериоду соответствуют постоянные веса [1]. Таким образом, этот метод представляет собой простое обобщение формулы (5.28), а именно: , _ г (t) + kjz (t + Γι)+ . ■ ■ +kr+2z It-Иг-Η) Γι] a + ki-\ \-kr+i ' Z(t)- (5.48) где вследствие нечетности величина Т\ равна полупериоду. Веса к; (i = 0, 1, . . ., г + 1) распределены биномиально, как показано в табл. 5.1. ηχχ(τ) ¥-*-V Фиг. 5.12. Автокорреляционная функция модифицированной т-последова- тельности (построена в масштабе для случая JV = 7). Практическое исследование коррекции дрейфа для парогенератора Ламонта [2] привело к следующим общим выводам: 1. Влияние дрейфа уменьшается при увеличении числа полупериодов в заданном интервале измерения. Этот результат имеет теоретическое обоснование, поскольку полиномиальную аппроксимацию дрейфа можно рассматривать как разложение в ряд Тейлора в окрестности точки t = 0, содержащее производные от r-го порядка. Таким образом, чем больше членов в разложении, тем лучше приближение на заданном интервале.
78 Глава 5 2. Биномиальное взвешенное усреднение обеспечивает меньшую изменчивость характеристики, чем невзвешенное усреднение. 3. Процедура усреднения скользящего невзвешенного среднего эффективна в смысле компенсации дрейфа почти в такой же мере, как и процедура усреднения скользящего биномиально взвешенного среднего. Смысл этого утверждения кратко поясняется ниже. 4. Влияние колебаний автокорреляционной функции модифицированной ^-последовательности (фиг. 5.12) уменьшается -и почти исчезает при использовании процедуры взвешенного усреднения и поэтому не имеет большого значения. Вывод 3 заслуживает более подробного рассмотрения. Используя введенные термины, обратимся к примеру на фиг. 5.13,а. В момент 37Ί будем усреднять реакции системы за полупериоды от О до Τι, от Τι до 2 Γι и от 27Ί до 37Ί с весами, относящимися как 1:2:1 (биномиальные веса из табл. 5.1 при г = 1); этим весовым множителям соответствует блок1. Согласно (5.48), среднее значение равно z(t) = ±[z(t)-2z(t + Ti) + z(t + 2Ti)]. Скользящее среднее означает, что эта процедура повторяется в последовательные моменты 4Г, ЪТ и т. д., как показывают блоки 2, 3 и т. д. Невзвешенное среднее от взвешенных средних по восьми полупериодам 7 соответствует результирующим весам, которые изображены на блоке S. Окончательные веса постоянны в средней части интервала измерения и симметрично убывают по краям. На фиг. 5.13,6 показаны соответствующие результаты для скользящего невзвешенного среднего. Сравнивая фиг. 5.13,6 с фиг. 5.13,а, мы видим, что взвешенное среднее отличается только подробностями на краях. Более реалистическим является сравнение на фиг. 5.13,в, где показано результирующее распределение весов при использовании скользящего среднего по восьми полупериодам, когда общий интервал измерения состоит из двадцати полупериодов, Скользящие средние предпочитают равномерному усреднению по двум основным причинам: 1. Биномиальное взвешивание становится неэффективным при использовании данных с большими значениями г. Так, из табл. 5.1 видно, что при г = 8 первый и последний полупериоды имеют веса, составляющие только 1/126 весов средних полупериодов. 2. Вычисление числителя в формуле (5.48) путем накопления в ячейке памяти, например, после каждого измерения можно выполнять только в том случае, если известен каждый весовой коэффициент в начале соответствующего полупериода. В случае биноми-
Оценивание параметров и состояний линейных систем 79 BflOKS бдемя Блок S Время JJL· *Ъ с- вТ( блок f Ζ 3 4 L,' Ι В ~^L ь-Ч Время О 20 τ 6 Фиг. 5.13. Сравнение скользящего биномиального и скользящего невзвешенного средних, используемых для коррекции дрейфа. о — скользящее биномиальное взвешенное среднее по трем полупериодам; б — скользящее невзвешенное среднее по трем полупериодам; β — скользящее среднее по восьми полупериодам; скользящее биномиальное взвешенное среднее; скользящее невзвешенное среднее. ального взвешивания по всему интервалу измерения длительность эксперимента (которая связана со степенью полинома, описывающего дрейф) должна быть выбрана заранее, до начала эксперимента. Это нежелательно в том случае, если эксперимент по какой-либо причине приходится заканчивать раньше, так как схема коррекции дрейфа оказывается бесполезной. В то же время при усреднении методом скользящего среднего f Σ (**)/[-7#S (-i)lbt*V+Wi + JTi)] (5·49> j=o i=0
80 Глава 5 эксперимент может быть закончен в любой момент времени по истечении первых q + 1 полупериодов, т. е. после оценивания при /=0 члена в квадратных скобках в выражении (5.49). При коррекции дрейфа в ходе эксперимента необходимо вводить корректирующий множитель, чтобы измерениям выходов в прошлом можно было приписывать уменьшающийся вес. С этой целью вводится неравномерное взвешивание (кк); в. выражении (5.49). Обычнр множитель (kk)j выбирается экспоненциально затухающим. Нелинейности До сих пор детерминированная компонента у (t) выхода учитывалась так, как если бы она линейно зависела от компоненты χ (t) сигнала на входе. Таким образом, переписывая (5.45), получаем тв v(t)=\x(t—T)h(T)dT. (5.50) о Аналитические нелинейности (к которым не относится, например, гистерезис) можно представить с любой заданной степенью точности функциональным разложением, в котором (5.50) описывает первый член: Те y(i) = j x(t—■τ1)Α(τ1)ώτ1 + о TsTe + J 1 x(t—-Ti)x(t—-τ2)Η(τι, τ^άτχάτζ-\- 0 0 Ts Ts Τβ + \ \ \ x(t—-Ti)x(t—-τ2)χ (t—x3)h(Tu τ2, τ3) άτ1άτζ(1τ3 + ooo -f- Функционалы высших порядков. (5.51) Строго говоря, верхние пределы интегрирования в формуле (5.51) не всегда совпадают с временем установления для линейной операции, но для того чтобы иметь конечные пределы, мы выбрали их одинаковыми. Формула (5.51) описывает разложение выхода на члены, представляющие собой соответственно линейные, квадра- тические, кубические и т. д. функционалы от входного сигнала χ (t). Если χ (t) — периодическая нечетная функция, то каждый нечетный функционал от χ (t) при интегрировании по одному периоду дает нуль. Таким образом, четные члены в (5.51), т. е. квадратиче- ский, четвертой степени и т. д., не влияют на взаимную корреляционную функцию Rxz (τ) [формула (5.24)]. Это интересный результат. Отсюда можно сделать конкретный вывод, имеющий большое практическое значение.
Оценивание параметров и состояний линейных систем 81 Использование пробного сигнала в форме периодической нечетной функции для оценивания линейной импульсной переходной функции h (τ) делает оценку нечувствительной к квадратическим нелиней- н остям. Гардинер, [5,6], используя менее общий вид уравнения (5.51), показал, каким образом можно исключить кубическую нелинейность. Его метод требует проведения двух экспериментов, параметры которых отличаются только изменением амплитуды пробных сигналов. Допустим, что амплитуда пробного сигнала во втором эксперименте составляет а единиц, а нормированная амплитуда в первом эксперименте равна одной единице. Тогда, учитывая нелинейности до кубической включительно и пренебрегая эффектами шумов,' получаем следующие соотношения: эксперимент 1 R^(t) = R1(t) + Rz(%), (5.52) эксперимент 2 R™ (τ) = aR, (τ) + a*R3 (τ), (5.53) где Ri (τ), /?3'(τ) — соответствующие взаимные корреляционные функции χ (t) с линейным и кубическим членами в (5.51). Функцию R3 (τ) можно исключить из (5.52) и (5.53). Тогда Ri (τ) = ху ^ Х»К ' . х ч ' а3 — а Если в этих двух экспериментах полупериодам приписывать веса из табл. 5.1, то можно легко показать, что влияние дрейфа также компенсируется. Это также интересный результат. Отсюда можно сделать еще один конкретный вывод, имеющий большое практическое значение. Биномиальное взвешивание полупериодов при использовании пробного сигнала в форме периодической нечетной функции для оценивания линейной импульсной переходной функции h (τ) делает оценку нечувствительной и к квадратическим нелинейностям, и к полиномиальному дрейфу. Системы с многими выходами Анализ систем с многими выходами сводится в основном к вычислениям взаимных корреляций одного входа с одним выходом. Единственное отличие от системы с одним выходом состоит в том, что выходов несколько, а поэтому требуется независимо вычислять, можно параллельно, взаимные корреляции одного входа с несколькими выходами. Для иллюстрации излагаемых идей рассмотрим идентификацию зависимости давления пара от расхода топлива для парового котла. Схема котельной установки представлена на фиг. 5.14. Многочисленные экспериментальные исследования такого объекта показали, (5.54)
82 Глава 5 что импульсную переходную функцию можно приближенно синтезировать из компонент, описываемых Временными запаздываниями и постоянными времени. Однако синтез не сводится к аппроксима-" ции экспериментальной импульсной переходной функции заданным числом затухающих экспонент (возможно, с временными запаздываниями) по методу наименьших квадратов. Требуется дать техническое обоснование, чтобы временные запаздывания, постоянные времени и амплитуды экспонент имели физический смысл. С этой целью одновременно с давлением пара можно регистрировать многие промежуточные переменные, например уровень воды Топочный газ В аымодую трубу S ПврегреВате/ь Подача питательной Воды Трубчатый теплообменник Топлидо Фиг. 5.14. Схема парогенератора. в барабане, дополнительный расход питательной воды и температуру металлических стенок в нижней и верхней частях трубчатого теплообменника водяного цикла. Вычисляя независимо взаимную корреляционную функцию возмущений потока топлива с такими промежуточными выходами, можно дать физическое обоснование представлению импульсной переходной функции по каналу поток топлива — давление пара в виде суммы компонент с различными постоянными времени и временными запаздываниями. Качественная картина такова, что если к установившемуся потоку топлива добавить короткий импульс, то можно ожидать, что возникнет переходный процесс в давлении пара за счет дополнительного количества тепла в соответствующем коротком импульсе топочного газа. Передача тепла от топочного газа к пару может происходить тремя путями. 1. За пренебрежимо малое время топочный газ достигнет верхней части трубчатого теплообменника; через металлическую стенку тепло передается воде, затем от воды в барабане поступает к поверхности раздела вода — пар. 2. То же, что в п. 2, но от топочного газа тепло поступает к нижней части трубчатого теплообменника, так что учитывается время перехода циркулирующей воды от нижней части в верхнюю часть.
Оценивание параметров и состояний линейных систем 83 3. Передача тепла от более горячего топочного газа к кирпичной кладке, что приводит к повышению температуры кладки и уменьшению последующего поглощения тепла от топочного газа кладкой. Этот эффект приводит к большой постоянной времени затухания давления пара порядка минут. Имеются и другие основания для сопоставления относительных амплитуд компонент и их абсолютных амплитуд. В последнем случае необходима калибровка приборов. Такая информация существенна при принятии решений о целесообразности различных приближений при построении математической модели. Системы с многими входами При анализе систем с многими входами следует найти способы разделения эффектов, оказываемых на выход пробными сигналами, подаваемыми одновременно на несколько управляющих входов системы. Возникает вопрос, не лучше ли подавать пробные сигналы поочередно, чтобы иметь возможность анализировать один вход и один выход. Ведь в конечном счете последовательная подача сигналов дает то же количество информации, что и параллельная. Если даже оставить в стороне вопрос о необходимости времени установления между последовательными изменениями входа, имеются и другие причины, по которым следует предпочесть параллельное исследование. В частности, такое исследование гарантирует вычисление всех взаимных корреляций в одинаковых условиях работы, что существенно при идентификации в контуре управления. Воздействия различных входов на выход-можно легко разделить, если входы взаимно некоррелированы или некоррелированы по крайней мере для всех временных сдвигов, меньших времени установления объекта. Синусоидальные колебания, частоты которых находятся в рациональном отношении, некоррелированы, если взаимная корреляция осуществляется на соответствующем интервале измерения, т. е. на любом интервале, кратном соответствующим периодам синусоид. Например, для двух синусоидальных входов с рационально связанными периодами 7/5 и 4/3 с наименьшее время измерений равно 28 с — целому, кратному обоим периодам. Модифицированная ^-последовательность приближенно некор- релирована со своими сдвигами на интервалы, меньшие полупериода. Таким образом, если модифицированную ^-последовательность и ее сдвиг на четверть периода использовать в качестве входных пробных сигналов, то сигналы эти будут некоррелированы при сдвигах, меньших четверти периода. Следовательно, метод сдвига фаз, очевидно, может быть распространен на любое число входов.
84 Глава 5 Выводы Метод взаимной корреляции прост в своей основе и при правильном применении позволяет надежно осуществлять идентификацию. Его можно обобщить на многомерный случай. Легко осуществить компенсацию дрейфа и квадратической нелинейности в ходе эксперимента, и в принципе при обработке результатов возможна коррекция нелинейностей высших порядков. Эти выводы в равной мере справедливы также для синусоидальных, прямоугольных и периодических нечетных псевдослучайных пробных сигналов. 5.2. Рекуррентное оценивание параметров по методу наименьших квадратов Пусть проведено некоторое количество измерений, так что система (5.5) содержит i скалярных уравнений. Запишем (5.5) в виде ζΜ = Αέ_1βί· + ni_i. (5.55) Проведя измерения в i-й момент времени, получим Ζί = Αφί+ι + ηι (5.56) или в блочном виде т., Л ГА, .1 Γη. Л (5.57) где индексы i и i + Ι, соответствующие β, показывают число урав^ нений в системе, которую для оценки β надо решить в смысле минимума среднеквадратической ошибки. Из уравнения (5.25) следует β^Ρ,ΑΓ-!*,.,, (5.58) β£+1 = Ρί+1Α[ζί, (5.59) где [яг-,] L zi J = [Аг-ιΊ οΓ L ai J βί+1 + Γη;,-, Ί L m J и Ρ,^Α^Α,-Ο-1 (5.60) Ρ,+ί^ΑΪΆ,)-^ чттаг- = (АГ_1Аг_1 + ага[)-1 = = (Pr1 + aiaf)-». (5.61) Производя преобразования над матрицами (см. задачу 5) можно показать, что Рг+1 допускает представление в виде (5.62) J+i — Рг -Pia^arP/ai + l^aiPi.
Оценивание параметров и состояний линейных систем 85 Уравнения (5.61) и (5.62) оба рекуррентные, что позволяет вычислять Р;+1, имея Рг. Тем не менее для вычисления Pj лучше использовать (5.62), а не (5.61), так как множитель (af Ρ; аг + 1) скалярный и поэтому допускает тривиальное обращение. Переписывая (5.59), получаем βί+1 = Ρί+1ΑίΖ,= = Рг+1 [Ai-i, а;] = Pi+1(Af_1zi_1 + aiZi) = = Рг+1(Ргг1р» + аг2г)= [из (5.58)] = β; + Рг+1 [аггг + (РГ1 —Pi+i) β»] = = fc + Pi+i(aizf —aiafyi)= [из (5.61)] = βι + Ρι+1βι(ζι —аГрО. (5.63) Формулы (5.62) и (5.63) позволяют вычислить новую оценку параметра β;+ι, если заданы предыдущая оценка β,·, оценка Рг и информация об зц , Ζ; по измерениям в момент времени i. Для того чтобы можно было начать оценивание по рекуррентной схеме, необходимо знать начальные значения β0, Ρ0. Матрицу Р0 можно вычислить, воспользовавшись определением (5.60), а βο — из (5.58). Можно выбрать β0 иначе (как чаще и делают) в соответствии с имеющейся априорной информацией, а в отсутствие такой информации βο полагают равным нулю: βο = 0. (5.64) Матрицу Р0 в отсутствие априорной информации полагают пропорциональной единичной матрице: Р0 = с21, с2-^оо, (5.65) где с2 выбирается достаточно большим, так что влияние предположения, сделанного в (5.65), по мере учета в оценке новых измерений быстро становится пренебрежимо малым. Пример 1 Подставив в (5.5) числовые значения, получим систему восьми уравнений: Г 2~ 0 3 0 4 8 — 7 5 = 4 4 4 4 4 4 —4 4 Xl + Г—21 — 4 — 1 —4 0 4 — 3 1 М-
86 Глава 5 В (5.66) оцениваемый вектор β представляет собой скаляр со значением 1. Конечно, в реальной задаче оценивания это значение неизвестно. Значения, принимаемые шумом, выбираются случайным образом из множества целых чисел —4, —3, . . ., 3, 4 и используются для построения измеренных значений выхода. Используя рекуррентную схему, положим произвольно Ρ о = оо, βο = 0. Последовательные оценки Ри β; для этого случая приведены в табл. 5.2. Таблица 5.2 г Pi βί 0 0 1 1 16 1 2 2 1 32 1 4 3 1 48 5 12 4 1 64 5 16 5 1 80 9 20 6 1 96 17 ' 24 7 1 112 6 7 8 1 128 29 32 Заметим, что значения β; в табл. 5.2 можно построить также, непасредственно подставляя их в (5.25), где после i-й подстановки А и ζ имеют размерности ι Χ 1. Проверьте, будут ли эти утверждения справедливы, если выбираются различные начальные условия Ро и βο· 5.3. Рекуррентное оценивание состояний по методу наименьших квадратов До сих пор в этой главе единственный выход представлялся в виде линейной стационарной свертки единственного входа. Обобщим эти результаты и рассмотрим многомерные линейные системы с переменными параметрами, описываемые уравнениями состояний ' с дискретным временем. Постановка задачи Пусть в i-й момент времени состояние системы xt = (хц, ... • · м Xni)T и управление и, = (иц, . . ., иг{)Т удовлетворяют вектор- · ному разностному уравнению xi+i = FiX; + GiUi, (5.67) где Fi,G{ — заданные матрицы с переменными коэффициентами. Пусть векторное измерение щ = (z^, . . ., гц) в -й момент времени линейно связано с состоянием и управлением в i-й момент времени векторным алгебраическим уравнением Zi = H{Xi + Jiiii + Ti, (5.68)
Оценивание параметров и состояний линейных систем 87 где Нг, J; — заданные матрицы с элементами, зависящими от времени; ν£ = (νи, . . ., ν и) — вектор ошибки. Чтобы упростить представление, определим детерминированные векторы, удовлетворяющие рекуррентным соотношениям xj+1 = Ftxt + Giui, гг = Нгхг + 1гиг с начальными условиями хо = 0, z0 = 0. О Определим йовые переменные состояний ,х; НИИ Zt\ О _·. хг = х,— хг, (5.69) (5.70) (5.71) (5.72) и переменные измере- (5.73) Ζ; — Ζ; Соответственно хг+1 = Ггхг, О О Zi= HiXj + Vj. (5.74) (5.75) (5.76) Рекуррентное оценивание состояний Задачу легко можно переформулироватьугак, чтобы были приг менимы результаты разд. 5.2. Подставим (5.75) в (5.76) и запишем (5.76) в виде векторного уравнения: z<, Но H.Fo .H,(Fi_,-..F0)J Хо + v0 Vl Уравнение (5.77) по виду совпадает с (5.56): или в блочном виде bj-l Hi (Ft-, Го). βί+1 + vi , (5.77) (5.78) (5.79) Уравнения (5.58) и (5.65), как и прежде, применимы при условии, что %t заменяется на щ и а?—на Нг (Ft-i ··· Г0).
88 Глава 5 3.4. Оценивание параметров по методу наименьших квадратов Статистический подход к оцениванию параметров До сих пор в этой главе вектор параметров β рассматривался как неизвестная векторная постоянная. Теперь мы рассмотрим статистический подход, когда β считается векторной случайной величиной, полностью описываемой совместной функцией распределения. Это различие является фундаментальным для статистического метода, и его следует хорошо понять с самого начала. Для иллюстрации статистического представления параметров рассмотрим следующий пример. Пример 2 Проводится серия экспериментов, в которых стальной шарик с заданной высоты падает яа стальную плиту. Определим время установления Ts как момент времени, по истечении которого высота шарика над плитой не превышает 5% максимального значения. Пусть, например, в каждом эксперименте измерение β производится случайно во времени на интервале (О, TS). Ё серии экспериментов имеется разброс значений β, по которым можно построить гистограмму. Предположим, например, что гистограмму можно аппроксимировать функцией плотности вероятностей ρ(β)=0, β<0, , Х-<*. Р>о. (5·80) Какое значение следует принять для β? Категорического ответа на этот вопрос нет. Тем не менее используются некоторые стандартные характеристики. «Наиболее вероятное значение», называемое модой, равно βίηοΑβ^ΗΙβΧρφ) Ρ (5.81) = 0. Центр тяжести ρ (β), называемый средним или математическим ожиданием, определяется следующим образом: +°° *{»=J β*(β)«Φ (5.82) — оо = 1. Чтобы из бежать в дальнейшем недоразумений, заметим, что Ε обозначает с реднее по множеству, но для обозначения оператора Ε используют ся также синонимы «среднее», «математическое ожидание». Центр области, называемый медианой, представляет собой peine-
Оценивание параметров и состояний линейных систем 89 ние. уравнения {ρ(β)<*β=[ρ(β)ίβ; — σο βίπ (5.83) значение βηι = In 2 ~ 0,69. График функции плотности вероятностей (5.80) вместе с расположением точек, соответствующих перечисленным характеристикам, приведен на фиг. 5.15. Ниже будет проведено оценивание по обобщенному методу наименьших квадратов. Этот метод оценивания учитывает статисти- 0 . 1п2 / Фиг. 5.15. Функция плотности вероятностей (пример 2). ческую информацию о системе и сигналах. Предварительно проиллюстрируем на примере некоторые используемые статистические понятия. Пример 3 Чтобы упростить статистические понятия, сформулируем задачу как конечную задачу малой размерности, ч. Таблица 5.3 г Xi Hi К ζ; . 1 0 —1 1 -1 2 1 -1 1 0 3 0 1 1 -1 4 1 1 1 2 5 0 —1 2 —1 6 1 —1 2 1 7 0 1 2 —1 8 1 1 2 3 9 0 —1 3 —1 10 1 -1 3 2 11 0 1 3 —1 12 1 1 3 4 На фиг. 5.16 показана нединамическая линейная системат в которой оценивается коэффициент усиления К. Рассмотрим входной сигнал χι, шум на выходе щ и коэффициент усиления К, считая их независимыми случайными величинами, причем я, и щ принимают два, а К — три возможных значения. Процесс (xt, щ, К) может принять любые из 12 векторных значений с равными вероятностя-
90 Глава 5 ми; эти значения приведены в табл. 5.3. Из фиг. 5.16 видно, что выход равен zt = XiK + ni. (5.84) Значения выхода приведены в табл. 5.3 в функции от значений процесса. Если оценивать К оптимально, то мы должны выбрать критерий качества. Обычно используется квадратический критерий, Фиг. 5.16. Процесс с дискретным временем (пример 3). поскольку при этом возникают наименьшие аналитические и вычислительные трудности. Итак, рассмотрим квадратический критерий Ji = E[{K-Kl)% (5.85) где Ε — среднее по множеству, вычисленное в момент времени iA; Кг — оценка К в момент времени ίΔ. Из табл. 5.3 следует ?! = Ε[4(1-£,)· + 4(2-£ι)· + 4(3-£,)·]. (5.86) Оптимальная оценка К* удовлетворяет необходимому условию экстремума 0=dJi dKt = -4- И (1 -Kt) + 4 (2-Kf) + 4 (3-tff)]. (5.87) Отсюда следует, что К* = 2, т. е. среднему значению К. Обозначим его как Kf = E[K], (5.88) где, как и прежде, Ε обозначает среднее по множеству. Оценка, приводимая в (5.88), получается в отсутствие всякой .информации о значениях входных и выходных величин. Предположим теперь, что нам известны, например, значения χι = 1, zt =2. Из табл. 5.3 следует, что значениям процесса соответствует колонка 4 или 10. В этом случае критерий (5.85) равен Jt = Ε [{K-Kif \x.=lt ϊ|=2] =4- [{i-ktf + (3-kt)*], (5.89) где среднее по множеству вычисляется по отношению к колонкам 4 и 10 табл. 5.3. Таким образом, Kf U -ι, г.=2 = Ε [К |х !, -, 2] = 2. (5.90)
Оценивание параметров и состояний линейных систем 91 *; *i< ζί 1Q- -ό о ό- Φιι г. 5.17. Нелинейная зависимость оценки от измерения. Условное математическое ожидание в формуле (5.90) является нелинейной функцией измерений я,·, ζι, в чем можно убедиться, если воспользоваться табл. 5.3. Для примера зависимость Kf\x.=ii Zi от it показана на фиг. 5.17. Наилучшая нелинейная несмещенная оценка наименьших квадратов Обобщим результаты примера 3, записав следующий квадрати- ческий критерий качества: / = £[(β-β)τ\ν(β-β)]. (5.91) В этой формуле β определяется из (5.5), β есть оценка β и W — положительно определенная весовая матрица. Для наших целей достаточно рассматривать W как диагональную матрицу с положительными диагональными элементами. Выбор диагональных элементов соответствует весам, которые мы хотели бы приписать компонентам вектора ошибок β — β. Например, если . Г1 0] [0 2J' (β-β)Τ=(*ι> е2) и W: то / = Ε \е\ + 2ej]. Это среднее по множеству в (5.91) представляет собой среднее по всем возможным парам измерений ζ, А, которые входят в определяющее соотношение (5.59). Оптимальной оценкой параметра β* называется оценка, минимизирующая / и удовлетворяющая условию экстремума 0 = -^-| . (5.92) 9Р 1β=β*
92 Глава 5 Чтобы оценить (5.92), запишем (5.91) и (5.92) в виде суммы: Ns-l Ns-l J = E[% (βι-β,) Σ Β>ιΗβ;-Μ (5-93) i=0 j=0 и Ns-l JVs-1 8J dfa . = -^ [ Σ «Μβ;-β?)]-£[ Σ (βι-βί)^] = Pfe-Pft j=0 i=o Ns-l = -£[ 2 (^ + ^)(β;—β*)] = Ns-l = - Σ (ι%; + ι^)£[(β;-β*)1 (5.94) j=0 при fc = 0, 1,..., Ns — i. Записывая (5.94) в матричной форме, получим матричное решение уравнения (5.93): 0=— (\ν + \νΓ)£[(β — β*)]. (5.95) Поскольку W + Wr — неособенная матрица (так как предполагается, что W—положительно определенная), обе части (5.95) можно умножить слева на (W + Wr)-1. Тогда будем иметь 0 = £[(β-β*)] или β* = Ε [β]. (5.96) Таким образом, мы получили замечательный результат — оптимальная оценка не зависит от весовой матрицы. Если А и ζ будут заданы, то, непосредственно обобщая (5.89) и (5.90), найдем / = £[(β-β)Γ\ν(β-|ί)|Λ,ζ] (5.97) и β*ΐΑ,ζ = £[β|Α,ζ]. (5.98) В общем случае условная оценка при заданном (5.98) является нелинейной функцией измерений А и ζ, как было показано в примере 3. Оценка является несмещенной, т. е. Ε [β* |α, ,\ = Ε[Ε [β |α, ζ]] = Ε [β], (5.99) где среднее в (5.99) берется по всем возможным измерениям. Учитывая приведенные выше результаты и среднеквадратиче- ский характер критерия качества, оценку (5.98) называют наилучшей нелинейной среднеквадратической оценкой.
Оценивание параметров и состояний линейных систем 93 Наилучшая линейная несмещенная среднеквадратическая оценка Линейную оценку построить горлздо легче, чем нелинейную. Линейная оценка имеет вид β = £[β] + 0(ζ-Α£[β]), (5.100) где в отсутствие измерений β полагается равным Ε [β] и ζ полагается равным Ε [ζ], т. е. Α2?[β]. В более общем случае вектор β должен быть выбран линейно независимым также от входных измерений. Но для простоты вход рассматривается как детерминированный входной сигнал, т. е. как сигнал, известный до начала измерений. Для удобства положим | = β-£[β], ζ°=ζ—Α£[β], (5.101) т. е. центрируем β и ζ так, чтобы они имели нулевые средние. Тогда β = Οζ. (5.102) Подстановка (5.102) в (5.91) дает J=E[(b — Cz)rW.(|5—Cz°)], (5.103) где записано β = β-£[β]. (5.104) Оптимальная матрица С* минимизирует / и, таким образом, удовлетворяет условию экстремума dJ 0 = ас (5.105) ;с=с* Чтобы оценить (5.105), запишем (5.103) и (5.105) в виде суммы: Ns-l 0 Nm-l Ns-l Q Nm-l Q J = E[ 2 (β,- Σ ct,z,) Σ u>th(fa- Σ ikiz,)] , (5.106) i=0 j=0 h—0 1=0 Ns-l Nm-l 0 = 4=4 =-E\ln S WmhCh- 2 C^)l- Ns-l Nm-l —E[ 2 (βι— 2 c*jz/)«wn]= i=0 j=0 Ns-l Nm-l = —#[2 (Wmk + Whm){bh— 2 cfeiZ;]znl = fe=0 1=0 Ns-l Nm-l = -2 (">»*+u;km) Я [(jik — 2 cui)°zn] (5.107) fe=0 I--0 при 771 = 0, 1, . .., Ns—i, /г = 0, 1, .. ., Nm—1.
94 Глава 5 Записывая (5.107) в матричной форме, получим матричное решение (5.105): 0=— (\ν + \νΓ)£[(β—C*z)z°r]· (5.108) Умножая обе части (5.108) слева на (W + Wr)-1, находим 0=Е\ф — C*z)r]. (5.109) Система уравнений (5.109) задает условия ортогональности. В общем случае две векторные случайные величины χ и у называются ортогональными, если £[хут] = 0 (5.110) или, что то же, Е[ухТ] = 0. (5.111) Условие (5.110) или (5.111) означает просто, что Е[хгУ}] = 0 для всех i и /, (5.112) где х-г, у} — компоненты х, у соответственно. Оптимальная линейная оценка равна β* = Οζ°, (5.113) где, согласно (5.109), С* = Ε [βζΓ] (Ε [ζζη)-1. (5.114) Подставляя (5.113) в (5.109), получаем другое выражение для условий ортогональности: 0 = Е[ф — β*)ζ°τ]. (5.115) Условие (5.115) означает, что ошибка оптимального линейного оце- о о о нивания β — β* ортогональна измерениям ζ. Оценка для нормально распределенных величин о о В случае когда элементы вектора-строки (βΓ, ζ1) совместно нормальны, оказывается, что условная оценка (5.98) является линейной функцией С* измерений. Это важный результат, поскольку, согласно центральной предельной теореме статистики, макроскопические явления описываются распределениями, которые стремятся к нормальному распределению. Матрица линейных преобразований С* удовлетворяет условиям ортогональности, выведенным в предыдущем разделе. Основу методов доказательства можно найти в задаче 4. Напомним определение нормальной плотности вероятности случайной величины х: p(z) = cexp[-yi ат^-}· (5Л16>
Оценивание параметров и состояний линейных систем 95 Здесь с — нормирующая константа, выбранная так, что вероятность расположения в диапазоне —оо < χ < оо для χ равна единице, а σ2 — дисперсия х: σ* = Ε[(χ—E[x]f]. (5.117) Обобщением (5.116) и (5.117) на векторный случай χ = (χι, . . . х%) являются p(x) = cexp{-^(x-E[x]fq^(x-E[x])} (5.118) и Q = E[{x—E[x]){x—E [х])г]. (5.119) В уравнении (5.118) р(х) есть совместная плотность вероятности. Таким образом, р(х) ах^ах2 . . . dxn обозначает совместную вероятность того, что векторная величина лежит в пределах от χ до χ + dx. Матрица Q называется ковариационной. Диагональные элементы Q — это дисперсии соответствующих элементов х, а вне- диагональные элементы — ковариации qi] = E[(xi — E[xi])(x} — E[x}])], i = i,...,n, /=1, ...,тг. (5.120) Как и в скалярном случае, с в (5.118) является нормирующей константой. Уравнение (5.118) показывает, что функция плотности вероятности для нормального уравнения полностью описывается первым моментом Ε [χ] и вторым центральным моментом Q. Первый и второй статистические моменты аналогичны соответственно центру тяжести и моменту инерции в механике. В практических ситуациях едва ли можно иметь сведения о статистических моментах порядка выше второго из-за необходимости проведения большого числа экспериментов. При отсутствии сведений о моментах высших порядков распределение можно полагать нормальным, но это может привести к ошибкам. 5.5. Рекуррентное оценивание параметров по критерию минимума среднеквадратической ошибки Рекуррертное оценивание в среднеквадратической смысле Предположим, что в течение некоторого времени мы производили измерения над системой и получили оценки βο = £[β], (5.121) Ρο = £[(β-β0)(β-βο)Γ]. (5.122) Исследуем вопрос о том, как можно исправить эти оценки, используя новые измерения системы. Пусть новые оценки равны β! и Pi.
96 Глава 5 Начальные оценки βο и Ро принято называть априорными, а оценки после измерений βι и Pj — апостериорными. Подставляя (5.121) в (5.100), получаем βι = βο + 0*(ζ-Αβ0). (5.123) Матрицу С* можно исключить из {ЬА23), используя условия ортогональности. Таким образом, из (5.114) имеем 0 = Е[^]{Е[г1Т]}-1. (5.124) Подставляя β = β-βο (5.125) и ζ = ζ— Αβ0=Α(β — β0) + η (5.126) в (5.124), находим 0 = £{(β-βο)[Α(β-β0) + η]Γ}χ χ(£{[Α(β-βο) + η][Α(β-β0) + η]Γ})-1 = = {^[(β-βο)(β-βο)ΓΑΓ] + £[(β-βο)ηη}χ χ {ΑΕ [(β-β0) (β-β0)ΤΑΓ] + Ε [ηηη + + Α^[(β-βο)ηη+^[η(β-β0)ΓΑΓ]}-ι = = Ρ0ΑΓ(ΑΡ0ΑΓ + ς>Γ1, (5.127) где Р0 уже было определено в (5.122) и Q = £:[nnr], (5.128) 0 = £[(β-β0)ηη. (5.129) Хотя об этом ранее и не говорилось, условие (5.123) содержит предположение о том, что Е[п] = 0. (5.130) Поэтому оценка βι является несмещенной, т. е. Е№ = Е№. (5.131) Можно показать (см. задачу 5), что матрица С* может быть преобразована к виду C* = (P0_1 + ArQ-1A)-1ArQ-1. (5.132) Подстановка (5.132) в (5.123) приводит к выражению β1=βο + Ρ1Α^-ΐ(ζ-Αβ0)> (5.133) где p1 = (P^i + A!rQ-1A)-1. (5.134)
Оценивание параметров и состояний линейных систем 97 Ниже будет показано, что Pj—апостериорная оценка, т. е. Ρι = £[(β-βι)(β-βι)Γ1· (5.135) Уравнения (5.133) и (5.134) образуют рекуррентную схему оце-' нивания, тогда как по измерениям А и ζ априорная оценка β0 с ковариационной функцией Ро преобразуется в апостериорную оценку β! с ковариацией Ρι· Эта схема особенно привлекательна тем, что ковариация последовательных оценок стремится в общем случае к нулю. Поясним это на примере. Из (5.134) вытекает, что квадра- о о тическая форма βΓΡ]"ιβ в экспоненте апостериорного нормального распределения удовлетворяет условиям От О От О От т О βΓΡ71β = βΓΡ71β + βΓΑ^-1Αβ. Поскольку ArQ-1A—положительно полуопределенная, βΡ^β^β. (5,136) В общем случае это означает, что плотность вероятности апостериорной оценки βι имеет меньший разброс относительно среднего значения, чем плотность вероятности априорной оценки β0. Можно показать (см. задачу 5), что матрицу Pi можно записать в виде Pi = Р0-РоАт (АР0АГ + Q)"i AP0. (5.137) Вопрос о том, какое из уравнений (5.134) и (5.137) лучше использовать для вычисления Pi, зависит от относительного объема вычислений при обращении матриц и определяется главным образом размерами матриц Pi и (АР0АТ + Q). v Естественно, что цри нереалистических априорных оценках получаются нереалистические ' апостериорные оценки, как будет показано на следующем примере. Пример 4 Пусть Ζι = а + пи i=0, 1, 2, где а — неизвестный параметр, оцениваемый по измерениям Zo = 2, Ζι = 2, z2 = 2. Задана следующая априорная информация: α имеет нормальное распределение с нулевым средним и единичной дисперсией, щ — независимые нормальные величины с нулевым средним и дисперсией, равной 3. Подставляя значения Р0 = 1, А = (1, 1, 1)г, Q = 31 в (5.134), получаем Р1 = [1 + (1, 1, 1)3-4(1, 1, 1)ГГ = 4-. Сравните с объемом вычислений, необходимых для отыскания Pi из (5.137). Подстановка приведенных выше значений вместе с βο = 0 в (5.133) дает βι = 0 + 4-(1, 1, 1)3-4(2, 2, 2)г = 1.
98 Глава 5 Таким образом, априорная оценка α равна 0 с дисперсией 1 и апостериорная оценка а равна 1 с дисперсией V2. После некоторого размышления можно заключить, что не следует слишком полагаться на апостериорную оценку а, хотя она имеет меньшую дисперсию, и следует проверить либо априорную информацию, либо процедуру измерений (возможно, стрелка измерительного прибора застряла в точке 2). Важный частный случай рекуррентных соотношений (5.133) и (5.134) получается, когда ъ есть скаляр zi} А — вектор-строка 8ц и Q— скаляр q. В этом случае апостериорная оценка β*+ι должна вычисляться в дискретные моменты времени ίΔ по измерениям выхода ζ,- в те же 'моменты времени. Заметим, что βί+1 является априорной оценкой в следующий момент времени (i + 1) Δ. Из выражений (5.133) и (5.134) получаем β1« = βι + Ρι«α,5Γ1(2ί-β|Γβι) (5.138) Pl+1 = P,-P,a, (arp,a, + g)-iaiP,. (5.139) В этом случае для вычисления Рг+1 вместо (5.134) лучше использовать (5.137), поскольку множитель (af Р,аг + q)'1 в (5.139) есть скаляр. Интересно сравнить (5.138) и (5.139) с соответствующими рекуррентными уравнениями метода наименьших квадратов (5.63) и (5.62). В некоторый момент времени следует начинать процесс рекуррентного оценивания. Это означает, что параметры β0, Ρο следует выбирать на основании имеющейся в этот момент информации. При отсутствии априорной информации в качестве начальных условий удобно выбрать нулевое среднее и бесконечную ковариацию β„=0, Р0 = с21, с2-^оо. (5.140) В тех случаях, когда в (5.136) имеет место строгое неравенство, ковариация при большом числе итераций стремится к нулю независимо от начальных условий. Очевидно, начальные условия все же влияют на скорость сходимости.' Подставляя начальные условия (5.140) в (5.133) и (5.134), в отсутствие априорной информации получаем следующие уравнения правила оценивания: ^ = (А^А)"1 ArQ-iz, (5.141) P1=(ArQ-1A)-1. (5.142) Оценка минимальной ковариации Оказалось, что (5.134) имеет наименьшую ковариацию в том смысле, что любая другая ковариация Pi дает меньшее значение о о положительной квадратической форме βΓΡ1"1β. Покажем это,
Оценивание параметров и состояний линейных систем 99* используя для сравнения какую-либо другую несмещенную оценку βι = βο+(ΡιΑ,Γ(Τ + Δ) (Ζ-Αβ0). (5.143) и определяя влияние изменений Δ на ковариацию. Пусть Ρι = £[(β-0ι)(β-0ι)Γ]. (5.144) В качестве первого шага при оценивании Pi используем (5.143) и (5.5), записывая β—βι = (Ι—ΡιΑΓςΤΑ - ΔΑ) (β - β0) - (PiArQ-* + Δ) η. Исключая ArQ-1A с помощью (5.144), находим β - fc = (Р^-1 - ΔΑ) (β - β0) - (PiA^"1 + Δ) η. . (5.145) Наконец, подстановка (5.145) в (5.144) дает Pi = (ItfV-ΔΑ) Ро (Ρ1Ρί1-ΔΑ)Γ+ (PiAV1 + Δ) Q (P^Q"1 + A)T = = Pl + b(AP0AT + Q)Ar = — Pt -f- Положительно определенная матрица. (5.146) Таким образом, матрица с минимальной ковариацией имеет вид Ρι = Ρι· (5.147) Этот результат позволяет заодно проверить утверждение о том, что- Pi — апостериорная оценка ковариации. Бейесова оценка Уравнения (5.133) и (5.134) имеют очень большое значение в теории оценивания, так как они лежат в основе многих схем оценивания. Исследуем кратко бейесову теорию оценивания, которая приводит к тем же результатам. Оценка бейесова типа основана на тождестве относительно функций плотности вероятности ρ(β, ζ) = ρ(β|ζ)ρ(ζ) = ρ(ζ|β)ρ(β). (5.148) Формула (5.148) известна как теорема об условных вероятностях» Отсюда р(Р|я)-вР*5Ш1Ё>. (5.149) Соотношение (5.149), известное как теорема Вейеса, выполняется тождественно. Как легко видеть, теорема Бейеса представляет собой тождество· в случае дискретных вероятностей. Покажем это на следующем примере.
m Глава 5 Пример 5 На схеме фиг. 5.18 показана переключательная цепочка, к входам которой подключена батарея напряжением 2 в через переключатель Si, а выход нагружен на сопротивление 1 ом. Переключательная цепочка содержит последовательно соединенное сопротивление 1 ом и переключатель S2, соединенный с выходными клеммами. Состояниями обоих переключателей управляет внешняя цепь. Назовем состояние с разомкнутым переключателем состоянием 0, а состояние с замкнутым переключателем состоянием 1. Пусть β4 ZC ~L -Wv- 1 ом Г Jk 1 ом ζ кльт Фиг. 5.18. Схема для иллюстрации теоремы Бейеса. и β 2 — переменные состояний для переключателей 5Ί и S2 соответственно. Например, при проведении 100 последовательных измерений двух переменных β! и ζ были получены следующие результаты: βι β2 ζ Ν. 0 10 1 0 0 1 1 0 10 0 21 7 53 19 Нижняя строка (число Ν) показывает, сколько раз появляется конкретное измерение. Таким образом, сумма элементов в нижней строке равна 100. Если определить вероятность как относительную частоту появления, на основании приведенных выше значений можно сразу же получить P(fc = 0)-21+53- 74 100 100 ' pfe-Q)- 21 + 53 + 19 93 Ρ\ζ~υ> юо - юо' Ρ(βι = 0|ζ = 0): 21+53 74 21 + 53 + 19 93 p(z = 0fPl = 0) = |i±§=l, p(z = 0, Pl = 0) = ii^- 74 100 ' Легко видеть, что эти вероятности удовлетворяют (5.149).
Оценивайие параметров и состояний линейных систем 101 Допустим, что плотность вероятности в правой части (5,149) нормальна: ρ (β) =в1 exp [ -\ (β-β0)ΓΡ0-ΐ(β-β0)] (5.150) и ρ (ζJ β) =c2exp [ -~ (ζ-Αβ)Γς>-ι (ζ-Αβ)] , (5.151) где с ι и с2 — нормирующие константы, выбранные таким образом, что соответствующие площади над плотностями вероятности равны нулю. Член в знаменателе в правой части (5.149) можно вычислить из (5.150) и (5.151), так как +°° ρ(ζ) = { ρ(ζ|β)ρ(β)ώβ. (5.152) — оо Поскольку ζ в левой части (5.149) задано, ρ (ζ) есть нормирующая константа, необходимая для того, чтобы интеграл от левой части (5.149) по всему диапазону β был равен единице. Подстановкой (5.150) и (5.151) в (5.149) после некоторых преобразований получаем ρ (β | ζ) = с3 ехр [ - -|- (β —βι)ΓΡΓ1 (β —βι)] . (5-153) где βι и Pi совпадают с оценками (5.133) и (5.134). Заметим, что теорема Бейеса перестает быть теоремой и становится просто правилом, если априорные плотности вероятностей ρ (ζ|β), ρ (β) являются оценками. Уменьшение априорной информации Сопоставим некоторые известные схемы оценивания с методом наименьших кйадратов, располагая их ■ в порядке уменьшения априорной информации. Оценка максимального правдоподобия Оценка максимального правдоподобия широко используется в практических приложениях под названием «наиболее вероятное значение». Она отличается от среднеквадратической оценки тем, что используется мода ρ (βίζ), т. е. значение β, максимизирующее ρ (β|ζ), а не среднее значение ρ (β|ζ). Обращаясь к теореме Бейеса (5.149), можно видеть, что распределение шума' η часто известно. Следовательно, известна также и плотность-вероятности ρ (ζ|β), но априорная плотность вероятности ρ (β) часто неизвестна и поэтому предполагается равномерной. При этих условиях оценка βπιοίει максимизирующая ρ(β|ζ), мак-
102 Глава 5 ■еимизирует также ρ(ζ|β). Таким образом, мы будем рассматривать оценку βπιοίβ так, как если бы она доставляла максимум ρ(ζ|β) при условии, что °=|r(zIP)Nw (5·154) Поскольку логарифмическая функция является монотонной, имеет место эквивалентное соотношение 0^1np(z|P)|p=w (5.155) Но из (5.151), предполагая, что распределение имеет нормальный характер, получаем In ρ (ζ | β),= const — -|- (ζ — Αβ)Γ Q1 (ζ — Αβ), так что (5.155) приводит к выражению Отсюда мода ρ (β| ζ) в предположении равномерной априорной плотности вероятности ρ (β) равна Коае = (ArQ"1A)-i ArQ"1z. (5 156) Уравнение (5.156) совпадает с (5.141) — оценкой минимальной ковариации в отсутствие априорной информации. Оценки максимума правдоподобия и минимума ковариации совпадают не только для нормальных плотностей вероятностей, но и для любых функций плотности, моды и средние значения которых совпадают, в частности, для всех симметричных плотностей вероятностей. [Марковская^ 'оценка Допустим, что в отсутствие априорной информации β0, Ρο производится приближение по методу взвешенных средних квадратов измеряемого выхода ζ к выходу Αβ системы без шумов: / = (ζ—Αβ)τ\ν(ζ—Αβ). (5.157) Приравнивая нулю частные производные / по элементам β, получаем марковскую оценку β*!=(ΑΓ\νΑ)-1ΑΓ\νζ. (5.158) Убедитесь, что β* — несмещенная оценка. При сравнении (5.158) и (5.141) оценка минимальной ковариации требует, чтобы соблюдалось равенство W = Q~1. (5.159)
Оценивание параметров и состояний линейных систем 103 Оценка наименьших квадратов В отсутствие априорной информации о распределении η и β можно использовать марковскую оценку, если Q = a2I. (5.160) Это — оценка наименьших квадратов, которая использует критерий качества / = (ζ—Αβ)Γ(ζ — Αβ) , (5.161) и дает β* = (ΑΓΑ)-1Ατζ. (5.162) Оценка (5.162) совпадает с (5.25), подробно рассмотренной в разд. 5.1. Оценка наименьших квадратов совпадает с оценкой минимальной ковариации, когда шум белый и стационарный. Выводы До сих пор в этой главе (кроме разд. 5.3, касающегося оценки состояний) рассматривалась линейная стационарная система с одним входом и одним выходом, которая характеризовалась реакцией h(t — ί0) на единичный импульс, приложенный в произвольный момент времени to- Путем дискретизации во времени импульсная переходная функция h (τ) аппроксимировалась дискретной импульсной переходной функцией ht, i = 0, 1, . . ., Ns — 1, где iVsA — время установления переходного процесса в системе. Отсчеты этой функции обозначались вектором βΤ = (^ο, К 4-ι)Γ'·1 В предыдущих разделах использовался в основном статистический подход, когда β рассматривается как векторная случайная величина, заданная совместной плотностью вероятностей. Выло показано, что можно использовать многие характеристики оцениваемой величины β, в том числе среднее, медиану и моду. Однако, за исключением некоторых аспектов оценок максимального правдоподобия, мы ограничивались средними значениями. В задаче 3 будет показано, что среднее значение является наилучшей оценкой, когда в качестве критерия используется минимизация среднеквад- ратического отклонения. Исследовались различные формы, которые могут принимать оценки максимального правдоподобия, начиная с общей нелинейной оценки и кончая оценкой наименьших квадратов. Некоторые из этих оценок, например оценки бейесова типа, совпадают просто потому, что соответствующие критерии имеют одинаковое происхождение. Можно привести и другие причины совпадения этих оценок.·] Оценки максимального правдоподобия, марковские оценки
104 Глава 5 и оценки наименьших квадратов, как было показано, получаются при последовательном уменьшении априорной информации. Хотя было показано, что априорная информация до второго центрального момента может быть включена в схему оценивания, мы не дали убедительных примеров того, что увеличение сложности по сравнению с методом наименьших квадратов оправдано. Заметим лишь, что в приложениях, связанных, например, с ракетами, практически очевидно (см. список литературы в конце главы), что для реализации удовлетворительных схем управления важен статистический подход. Однако применительно к промышленным объектам статистический подход используется в меньшей степени. Это объясняется отчасти тем, что модели состояний в этих случаях более сложны и гораздо менее точно определены. 5%6. Рекуррентное оценивание по методу наименьших квадратов Постановка задачи Рассматриваемая здесь задача, представляющая собой обобщение задачи, приведенной в разд. 5.3, была сформулирована и решена Калманом [9]. Вначале перепишем уравнения для состояний и измерений (5.75) и (5.76) в более общем виде: xl+1 = F,i, + wl> (5.163) ζ* = Η*χ* + ν*, (5.164) где νίι — белый шум, описывающий случайные возмущения в системе; \ι — белый шум, описывающий случайные ошибки измерений. По определению белый шум имеет нулевое среднее и нулевую автокорреляцию при ненулевых сдвигах, т. е. Е[уп] = 0, (5.165) £[WiW;-] = Q£ при j = i, (5.166) E[vfiVf]] = 0 в остальных случаях Я[т(]=0,- (5.167) Ε[\ιΥ]]=Κι при / = i, (5.168) Ε [\i\j] = 0 в остальных случаях. Qi и Rj — заданные диагональные матрицы с диагональными элементами, равными дисперсиям соответствующих компонент Wj и ν*. Предполагается, что шумы состояний и измерений ортогональны: E[vfjXh] = 0 для всех / и к. (5.169)
Оценивание параметров и состояний линейных систем 105 "'"■- ' ' ■ ■" ψ ■""■ г Использование белого шума не является существенным ограничением. Ознакомившись с рекомендуемой литературой (список которой приводится в конце главы), можно убедиться, что фильтрованный белый шум допустим, если переменные состояний, определяющие фильтр, входят в уравнения состояний. Требования (5.169) можно также ослабить ценой дополнительного усложнения уравнений оператора оценивания. Из условий ортогональности (5.115) следует Я[(хг+1-х?+1)^] = 0, /-=0, 1, .... I. (5.170) о о о о Найдем линейную оценку состояния xf+1 = х*+1 (z0, . . ., гг) по методу наименьших квадратов, минимизирующую критерий Ji+l = E [(хг+1-хг+1)т Wi+1 (хг+1-хг+1)] (5.171) по сравнению с любой другой линейной оценкой Xj+i при заданных о о о измерениях z0, ъи . . ., zt. Эта задача известна как задача предсказания, так как требуется оценить последующее состояние, в данном случае состояние в момент (г + 1), по измерениям до настоящего момента, в данном случае до момента г. Следует отметить, что имеются также задача сглаживания (оценивание состояния в прошлом) и задача фильтрации (оценивание состояния в данный момент). В приложениях оптимального управления наибольший интерес представляют задачи фильтрации и предсказания. Рекуррентное оценивание состояний о Можно выбрать линейную оценку xf+i по методу наименьших квадратов (см. задачу 8), удовлетворяющую уравнению вида ■ |хГ+^ = Вгх? + Кг2°г, (5.172) где Вг = Г--КгНгГг,« (5.173) Кг = ГгРгнГ (НгРгН? + Rj)1. (5.174) В уравнении (5.174) Pj — ковариационная матрица ошибки ег = хг —xf, (5.175) т. е. Рг = Я[еге[]. (5.176) 5.172), находим рекуррентную оценку хГ+1 = РгхГ + Кг(2-Нгх°Г), (5.177) Подставляя (5.173) в (5.172), находим рекуррентную оценку состояния;
106 Глава 5 где Кг вычисляется из (5.174). Матрицу Кг можно рассматривать как зависящий от времени коэффициент усиления для оцениваемой ошибки измерения о о Zj — BUx?. Начальные условия должны быть подставлены в (5.177). Несмещенная оценка будет получена, если положить х§ = ,Е[х0]=0. (5.178) Рекуррентная оценка ковариации ошибки о Для того чтобы можно было вычислить оценку состояния х*н-ь необходимо уметь вычислять ковариационную матрицу ошибки Рг (которая входит в выражение для Кг). Матрица Рг вычисляется предварительно через Ρ г_!, матрица Ρ,_ι — через Р*-г и т. д. до начальной матрицы Р0. Выразив Рг+1 через Р,, получим рекуррентное соотношение для Рг. По определению Рг+1=^.Е [(хг+1—x?+i) (хг+1—χί+ι)Τ]. о о Подстановка хг+1 из (5.163) и xf+i из (5.177) приводит к выражению Pi+i = E{[(Fi-KiRi)ei-yri-Kixi][(Fi-Kini)ei + wi-Kixif}. Перемножая матрицы и используя определения Рг, Q$, R$ и свойства ортогональности источников шума w* и уг, получаем следующий результат: Pl+1 = (F, -ΚιΗ,) ΡιΓ[- [(F, -КгНг) РгН[-Кг11г]Г Кг + Q*. Из формулы (5.174) следует, что второй член в правой части этого выражения равен нулю. Таким образом, Pi+1 = (F, - КгНг) РгГг + Q*. . (5.179) Начальные условия для (5.179) имеют вид Р0 = Я[Хох£] (5.180) В отсутствие априорной информации элементы ковариационной матрицы Р0 стремятся к бесконечности. При программировании вполне обоснованно можно считать Р0 = с2/, с2-+оо. (5.181) Рекуррентные уравнения (5.177) и (5.179), где Кг определяется формулой (5.174), известны как уравнения оценивания Калмана.
Оценивание параметров и состояний линейных систем 107 Пример 6 Рассмотрим задачу оценивания компонент^синусоидального сигнала в фазе и квадратуре по измерениям мгновенных значений в смеси с шумом. Пусть частота сигнала равна 1 рад/с, а помеха измерения — стационарный белый шум с нулевым средним и ^автокорреляционной функцией δ (τ) вольт2. Вплоть до начального момента времени t = 0 сигнал не был обнаружен. Априори считается, что сигнал в фазе и квадратуре имеют нулевые компоненты с ковариационной матрицей ошибки р/, o-i L о v,J ' Допустим, что начальное измерение равно 2 в/ Вычислите апостериорное состояние и апостериорную ковариационную матрицу ошибки. Решение. Уравнения состояний имеют вид "жГ(</)1 _ pi (<ί-ι)Ί Xi{ti)\ \.xz{ti-i)\' Уравнение измерений имеет вид \Xi{ti-i)~\ Z {tUi) = [COS f M, Sin ti.i] \ \ + V (f,_j). Из формулы (5.174) следует Из (5.177), учитывая, что х*(г0) = [0, 0]Г, имеем *·.№) = [2/з, 0]г. Из (5.179) получаем '«-{[ίΜ·]4[ϊ.ΰ-Κ·ΰ· Как мы видим, апостериорная ковариационная ошибка уменьшилась. Связь с оцениванием параметров Рассмотрим нелинейные уравнения состояний с дискретным временем xl+1 = fj+1(Xi, β), χ0 = α, (5.182) о где оцениваются начальное состояние α и неизвестный вектор параметров β. Оценивание параметров можно производить так же, как и оценивание состояний, определив дополнительные перемен-
108 Глава 5 ные состояний β;, удовлетворяющие уравнениям βί+1 = βί· (5.183) Расширенные уравнения состояний имеют следующий вид: "о Хг-И о _βί+1 / [ = gi+i ν ~о "" Χί о ι>_ \ \ . J "о "' хо о LpoJ = _ Таким образом, задача сводится к оцениванию начального состояния системы. Теория Калмана линейная, поэтому требуется, чтобы для получения уравнений вида (5.163) расширенные уравнения состояний были линеаризованы относительно номинальной траектории. Выводы - Метод Калмана оценивания состояний предполагает известными матрицы коэффициентов Ft и Нг, которые получаются в уравнениях для состояний и измерений. Кроме того, должны быть полностью известны матрицы коэффициентов шумов Q; и Rj. Метод является рекуррентным и с теоретической точки зрения дает оценки, точность которых повышается при выполнении новых измерений. Тем не менее ошибки в определении Гг, Нг, Q; и В.* могут привести к различиям в оценках, т. е. при учете новых измерений определитель ковариационной матрицы оцениваемой ошибки может возрастать [10, 14]. Калмановская теория рекуррентного линейного оценивания позволяет непосредственно осуществлять синтез оптимальных операторов оценки. Она не всегда используется, так как число требуемых вычислений во многих практических случаях становится чрезмерно большим. Однако теорию Калмана можно использовать как основу для построения субоптимальных оценок, более эффективных в вычислительном отношении и более подходящих к использованию в системах в контуре управления [12]. 5.7. Выводы Простейшей статистической схемой оценивания, разработанной Гауссом, является аппроксимация по методу наименьших квадратов. Эта схема обеспечивает минимизацию суммы квадратов невязок независимо от статистических предположений. Одно только это обстоятельство делает метод привлекательным, поскольку при применении метода наименьших квадратов не требуется знать статистические методы. С другой стороны, то обстоятельство, что метод всегда дает ответ, может быть опасным, потому что ответ может оказаться лишенным смысла. Статистический анализ оказывается необходимым даже в тех случаях, когда задача, как в этой главе, (5.184)
Оценивание параметров и состояний линейных систем 109 сводится к . вычислению оценки самого параметра. Аргументом в пользу метода наименьших квадратов является легкость, с которой можно обеспечить измерения импульсной переходной функции, как показано в разд. 5.1. По мере приближения времени эксперимента к бесконечности оценка наименьших квадратов стремится к тому же пределу, что и оценка по минимуму среднеквадратической ошибки, использующая статистическую информацию. Почему же необходимо вводить статистические понятия? Заметим, что бесконечное время измерений нереально, и имеются веские причины для минимизации времени эксперимента. Например, чем короче время эксперимента, тем легче можно обнаружить изменение характеристик системы и применить корректирующие воздействия. Существует очевидная связь между точностью оценки и временем, эксперимента. В некоторых случаях время эксперимента может оказаться слишком коротким, чтобы можно было построить достаточно точные оценки по методу наименьших квадратов. С другой стороны, прежние эксперименты могут содержать обширную информацию. Во второй половине этой главы было показано, как априорная информация может быть использована в схемах оценивания для увеличения точности. Из-за ограниченности места внимание было сосредоточено на основных понятиях, а не на отдельных деталях. После того как эти понятия усвоены, легко проследить подробности, используя рекомендуемую литературу. Задачи К разд. 5.1 1. Путем вычисления взаимных корреляций выхода с периодическими прямоугольными входными колебаниями, частоты кото-, рых связаны гармонически, были вычислены коэффициенты Фурье для конкретной системы. Обозначим коэффициенты разложения при «синусах» и «косинусах» Λι, $ ι (ί =1,,. · ·, 6). Покажите, что соответствующие коэффициенты Фурье ai, b, равны - я 1 Л~1 + ЧяЛ~з — 1/ьЛь 2 Л2 + 1/яЛ~в %ъ — х1ъ$?ъ 3 Ль %ъ 4 &Ь ± ^4 5 Ль %ь 6 Л % 2. Обратные связи пятиразрядного регистра сдвига-сложения заводятся с первого и четвертого разрядов. а. Постройте периодическую двоичную последовательность, используя только плюс и минус единицы. Полученная последовательность должна иметь минимальную длину, т. е. 31. б. Покажите, что автокорреляционная функция этой последовательности такая же, как и у ^-последовательности.
«о Глава 5 К разд. 5.4 Следует отметить, что в некоторых задачах используются известные статистические результаты. Если они вам незнакомы, советуем обратиться к какому-либо стандартному пособию, например к книге Папулиса [111. 3. Использование в качестве оценок среднего, медианы и моды. а. Среднеквадратическое отклонение относительно значения χ = = μ равно оо ( (χ— μ)*ρ{χ)άχ. (5.185) -оо / Покажите, что это отклонение минимально, когда μ есть среднее: оо μ= \ xp{x)dx. (5.186) — оо б. Пусть среднее относительное отклонение для значения х = щ равно оо [ \x—m\p(x)dx. (5.187) — оо Покажите, что это отклонение минимально, когда т есть медиана, т. е. т оо j p(x)dx= \p(x)dx. (5.188) — оо т в. Для' экспоненциального распределения р(х) = 0 при х<0, р(х) = — е-*/" при х>0. (5.189) Проверьте, что мода = 0, среднее = а, медиана = а 1п2. Из этой задачи можно сделать вывод, что среднее является «наилучшей» оценкой х, когда в качестве меры разброса используется среднеквадратическое отклонение, а медиана является «наилучшей» оценкой х, когда в качестве меры разброса используется среднее относительное отклонение. 4. Пусть ζ = Αβ + η, (5.190) о о где ζ, β — в совокупности нормальные векторные случайные величины с нулевыми средними. Покажите, что Ε [β Ι ζ] = C*z, (5.191)
Оценивание параметров и состояний линейных систем 111 гДе С* удовлетворяет^условиям ортогональности 0 = £[(β—C*z) ζτ]. (5.192) а. Покажите, что векторные случайные величины β—Cz, z совместно нормальны, где С—произвольная постоянная матрица. + * о— ДКУ x(t) h)J) дку y(t) Фиг. 5.19. Схема для иллюстрации теоремы Бейеса. ДКУ — двухуровневое квантующее устройство. б. Покажите, что β — Cz и ζ взаимно независимы, если их кова- риации удовлетворяют соотношению cov β —Cz о Ζ Lo Q2J' (5.193) где Q^covtf-Cz), о Q2 = cov ζ. Покажите, что отсюда следует С = С*. в. Обоснуйте соотношение (5.194) (5.195) £[(β-ϋ*ζ)|ζ] = £[(β-0*ζ)] и используйте его для доказательства (5.191). К разд. 5.2 и 5.5 5. В качестве примера преобразования матриц докажите следующие соотношения (предполагая, что все обратные матрицы существуют): (Р-1 + ArQ-iA) Р0АГ = ArCfi (АР0АГ + Q), (5.196) PoAr(AP0Ar + Q)-i = (Pj1 + ArQ-iA)-iArQ-i> (5.197) (P-i + ArQ-iA)-i (I +ArQ-iAP0) = Р0, (5.198) (P^ + AV'A)-1 = P0-P0Ar(APoAr + Q)-i APo. (5.199) 6. Пусть на схеме, изображенной на фиг. 5.19, x(t) и у (t) — двухуровневые сигналы с возможными состояниями xt и г/г, ί = 1, 2. В случайно выбранные моменты времени произведено 1000 измере-
112 Глава 5 ний x(t) и y(t). Числа появления пар {xt, yj) равны N (хи у ι) = 407, N(xt, г/2) = 213, N {х2, г/л) = 154, N (х2, г/2) = 226. Постройте таблицы следующих дискретных вероятностей: а) Р (хи yt), б) P{xi\yj), в) р(г/г|^), г) ρ{χή, д) р(г/г)« Проиллюстрируйте теорему об условных вероятностях и теорему Бейеса. 7. Оценка наименьших квадратов имеет вид β*=(ΑΓΑ)-1Ατζ. (5.200) Требуется определить, можно ли использовать более короткий а* ГРП отрезок импульсной переходной функции, заменив ρ й= R* Усе" ченным вектором β*. Перепишем (5.200) в виде ΑΓζ = ΑΓΑβ* (5.201) и запишем (5.201) с помощью обозначений в виде ^ = Οβ* (5.202) или в блочном виде - КМ£Ж]· Покажите, что: а) усеченная оценка равна βϊ = (d i-Q 2С^С2 О"1 (bi-d 2С^Ь2), (5.204) где Сц — Cj 2 С^2 С2 ι — положительно определенная, если С — положительно определенная; б) ковариационная матрица £[(β!-βί) (βι-βηΓ] = σ2(ει1-01202-1Λ1)-1, (5.205) где ^[(β-β*)(β —β*)Γ] = σ2(ΑΓΑ)"1. (5.206) К разд. 5.6 8. Выведите (5.172) следующим путем. а. Используя (5.166), (5.168), (5.169) и (5.170), выведите уело-
Оценивание параметров и состояний линейных систем 113 вия ортогональности: . Е[ешх*Т] = 0, / = 1, ...,Ι + l, , (5.207) Ε [w*ej] = 0, / = 0, 1, ..., Ι, (5.208) .E[Ytej] = 0, / = 0, 1 ί-1, (5.209) Ε [βι+1 (H7-e,+ ν/] = 0, / = 0, 1, ..., ί. (5.210) б. Покажите, что уравнение (5.210) удовлетворяется в случае подстановки ei+l = ¥ixi + yfi — Вгх* — KiZi (5.211) для значений / = 0, 1, ..., i — 1 при условии, что Вг задается формулой (5.173). в. Покажите, что (5.210) удовлетворяется для значений /' = ί при условии, что Кг задается формулой (5.174). 9. Рассмотрим задачу оценивания неизвестного постоянного вектора χ при измерениях Zi = Hx + Vi, i=l, 2, ...,· (5.212) где zi = (zli, ...,zni)T—вектор измерений; Η — постоянная и χ «-матрица; v, = (vu, ...,упг)Г—стационарный вектор шума. Выборочное среднее, полученное по £ + 1 отсчетам, равно ΐ H-izo + H-izt+.-.+H-izj -_.„ Хг+1— щ-j . (Ο.Δ10) Это уравнение можно переписать в виде H-l(gp+...+ «!■!) H-l(gQ+..>.+«!.!) , H-lZi Λ.+1 _ ИЛИ Xt+1 i i(i + i) ^ i + 1 ii+i = ii + -5^-(ii-Hi,), (5.214) где _ H-1(«Q+...+«!_!) ί Xi а. Замечая, что постоянный вектор х удовлетворяет уравнениям состояния хг+1 = xi = х> покажите, что преобразование уравнений Калмана дает χι+1 = χι + Κ,(ϊ,— Hi,), (5.215) K^PjEfR1, (5.216) РГ+1! = Ρ"1 +HrR"1H, (5.217) где Р; и R—соответственно ковариационные матрицы х;—Xj и ν;.
114 Глава 5 б. Покажите повторной подстановкой (5.217) в (5.216), что Кг = [Ρ;1 + (ί +1) Н^П-ШГ HrR ^. (5.218) в. Проверьте, что в отсутствие априорной информации IV = 0. (5.219) г. Покажите, что подстановка (5.219) в (5.218) и (5.218) в (5.215) дает (5.214). Решение см. в работе Ирвина и Ханга [8]. ЛИТЕРАТУРА 1. Brown R. F., Drift correction in periodic crosscorrelation schemes, Electronics Letters, 4, № 22, 478 (1968). .. 2. Brown R. F., Practical study of drift correction in PRBN crosscorrelation, , Electronics Letters, 4, № 26, 588 (1968). 3. D a v i e s W.D.T., Generation and properties of maximum length sequences, Control, 302 (June 1966); 364 (July 1966); 431 (August 1966). 4. Everett D., Periodic digital sequences with pseudonoise properties, GEC Journal of Science and Technology, 33, № 3, 115 (1966). 5. Gardiner А. В., Elimination of effect of nonlinearities on process cross- correlation, Electronics Letters, 2, № 5, 164 (1966). 6. Gardiner А. В., Determination of the linear output signal of a process containing single-valued nonlinearities, Electronics Letters, 42 № 11, 224 (1968). 7. G о d f г е у К. R. et al., Input-transducer errors in binary crosscorrelation experiments — Parts 1, 2, 3, Proc IEE, 112, № 3, 565 (1965); 113, № 1, 183 (1966); 113, № 6, 1095 (1966). 8. Irwin J. D., Hung J. C, Kalman estimator and sample mean, IEEE Trans. Automatic Control, AC-12, № 4, 472 (15J67). 9. Kalman R. E., A new approach to linear filtering and prediction problems, Trans. ASME, 82D, 35 (1960). 10. N i s h i m u г а Т., Error bounds of continuous Kalman filters and the application to orbit determination problems, IEEE Trans. Automatic Control, AC-12, № 3, 268 (1967). 11. Papoulis Α., Probability, random variables, and stochastic processes, McGraw-Hill, 1965. 12. Pentecost Ε. Ε., Stubberud A. R., Synthesis of computationally efficient sequential linear estimators, IEEE Trans. Aerospace and Electronic Systems, AES-3, № 2, 242 (1967). 13. Ρ e t e r s ο η W. W., Error correcting codes, Wiley, N.Y., 1961; русский перевод: Питерсон У. У., Коды, исправляющие ошибки, изд-во «Мир», 1964. 14. S с h 1 е е F. H., S t a n d i s h С. J., Τ ο d a N. F., Divergence in the Kalman filter, AIAA/JACC Guidance and Control Conference, Seattle, 1966, p. 510. 15. Simpson H. R., Statistical properties of a class of pseudorandom sequences, Proc. IEE, 113, 2075 (1966). Дополнительная литература Bryson Α. Ε., Johansen D. E., Linear filtering for time-varying systems using measurements containing colored noise, IEEE Trans. Automatic Control, AC-10, № 1, 4 (1965). Clarke D. W., Briggs P.A.N., Errors in weighting sequence estimation, International Journal of Control, 11, № 1, 49 (1970).
Литература 115 Ε у к h о f f P., Process parameter and state estimation, Paper 2, p. 1—15, in «Identification in automatic control systems», Proceedings of the IFAC Symposium, Prague, 1967. Ho Y. C, L e e R.C.K., A Bayesian approach to problems in stochastic estimation and control, IEEE Trans. Automatic Control,. AC-9, № 4, 333 (1964). Ho Y. C, Lee R. С. К., Identification of linear dynamic systems, Information and Control, 8, 93 (1965). К a 1 m a n R. Ε., Β u с у R. S., New results in linear filtering and prediction theory, Trans. ASME, 83D, 95 (1961). Lee R. С. .К., Optimal estimation, identification, and control, Research Monograph № 28, MIT Press, Cambridge, Mass., 1964; русский перевод: Л и Р., Оптимальные оценки, определение характеристик и управление, изд-во «Наука», 1966. R a u с h Η. Ε., S t r i e b e 1 СТ., Maximum likelihood estimates of linear dynamic systems, AIAA Journal, 3, № 8, 1445 (1965). Sage A. P., Optimum systems control, Prentice-Hall, 1968, Chap. 10. Sage A. P., Masters G. W., Least-squares curve fitting and discrete optimum fitting, IEEE Trans. Education, E-10, № 1, 29 (1967). Sorensbn H. W., Kalman filtering techniques, in «Advances in Control Systems,» ed. by С. Т. Leondes, Academic Press, 1966, Vol. 3, p. 219.
Глава 6 ОЦЕНИВАНИЕ ПАРАМЕТРОВ И СОСТОЯНИЙ НЕЛИНЕЙНЫХ СИСТЕМ В предыдущей главе мы ограничивались рассмотрением линейных систем, теперь же рассмотрим задачу оценивания параметров нелинейных моделей объектов. Для этого вначале используем модель в форме уравнений состояний, описывающую реакцию объекта с помощью переменных состояний и управлений и множества не полностью известных параметров. Затем введем критерий ошибки, представляющий собой скалярную меру разности между выходом модели и выходом объекта на заданном интервале управления. Очевидно, что при оценивании критерия необходимо знать состояние модели в начале интервала управления. По этой причине удобнее рассматривать множество начальных состояний_как множество оцениваемых параметров, если модель должна быть эффективной. На заданном периоде управления можно наблюдать реакцию объекта и записывать его входы и выходы для последующего , использования. Те же самые входные воздействия можно затем подавать на модель на том же интервале управления и таким образом оценивать значение критерия. Ниже выводятся выражения, позволяющие оценивать градиент критерия по параметрам и начальным состояниям. Как будет показано, вычисление градиента требует решения системы дифференциальных уравнений чувствительности. Знание градиента позволяет изменять параметры и начальные состояния, чтобы уменьшить значение критерия. Описывается метод наискорейшего спуска, основанный на движении в направлении, обратном градиенту, до тех пор, пока не будет достигнуто минимальное значение критерия. Затем вновь вычисляется градиент, и вся процедура повторяется. Рассмотрим также метод сопряженных градиентов, дающий более быструю сходимость при незначительном увеличении объема вычислений. В разд. 6.5 приводится вывод процедуры Гаусса — Ньютона. Эта процедура основана на локальной линеаризации задачи оценивания параметров и состояний. Рассмотрены требования к вычислениям свойства сходимости этого метода. Далее выводятся выражения, по которым кривизна поверхности критерия вычисляется через параметрические коэффициенты чувствительности. Приводятся итерационные алгоритмы, использующие эту кривизну и обеспечивающие для квадратических поверхностей
Оценивание параметров и состояний нелинейных систем 117 сходимость за один шаг. Описаны потенциальные трудности, возникающие из-за отсутствия положительной определенности матрицы кривизны. Показано, каким образом введение вспомогательных переменных может дать преимущество, уменьшая число дифференциальных уравнений, которые необходимо решить для вычисления градиента или кривизны. В конце главы сравниваются различные методы оценивания параметров и состояний и приводится анализ~|воздействий шума на точность процесса оценивания. 6.1. Априорная информация В общем имеются два возможных подхода к описанию нелинейных систем по данным о входе и выходе. Существенно различаются эти подходы тем, что в них либо используется, либо не используется априорная информация о форме модели. Если не сделано априорных предположений относительно системы управления, то мы имеем задачу идентификации «черного ящика». Термин «черный ящик» показывает, что мы располагаем только внешними характеристиками системы. Для описания нелинейных объектов по данным о входе и выходе можно использовать винеров- скую теорию нелинейных систем [11]. В теории Винера [16] вход Коэффициенты Лагерра Белый гауссов шум U(i) Цепочка Лагерра > С, Неизвестная Генератор полиномов Эриита Коэффиц Эрм > Кросскоррелятор I Коэффициенты, характеризующие систему Фиг. 6.1. Идентификация нелинейных систем по методу Винера. системы описывается разложением по коэффициентам Лагерра, а затем соответствующий выход — соответствующими функциями Эрмита от коэффициентов Лагерра. Описание системы сводится к задаче определения соответствующих коэффициентов в этом разложении. Идентификация «черного ящика» в случае нелинейной системы по теории Винера показана на фиг. 6.1. Имеются следующие два основных результата теории Винера для нелинейных систем:
118 Глава 6 1. Стационарный белый гауссов шум является наиболее общим пробным сигналом для стационарной нелинейной системы. 2. Любая нелинейная система эквивалентна некоторой линейной системе (цепочке Лагерра в теории Винера) с многими выходами, за которой следует нелинейная безынерционная система (функции Эрмита в теории Винера). Подход Винера на, практике трудно применять. Во-первых, требуется, чтобы вход представлял собой белый гауссов шум, а это бывает редко. Гораздо удобнее иметь метод, способный обрабатывать реализации сигналов в процессе нормальной работы. Во-вторых, теория Винера приводит к описаниям нелинейных систем, не очень удобным для последующего синтеза оптимального управления. Наконец, число коэффициентов, которые требуются для описания даже очень простой нелинейной системы, обычно бывает велико. С другой стороны, в предыдущих главах мы видели, что дифференциальные уравнения состояний лучше приспособлены для целей оптимального управления. Можно просто задаваться формой управлений модели; такой подход представляет собой альтернативу метода «черного ящика». Однако часто можно с выгодой использовать преимущества априорной информации, которая задается в виде физических законов и эмпирических соотношений и определяет допустимую структуру уравнений состояний. Несколько примеров использования физических законов для построения модели приведены в гл. 2. В оставшейся части этой главы мы будем рассматривать описание нелинейных систем, основанное на дифференциальных уравнениях состояний вида x = f (x, u, p, t), χ(ί„) = α, (6.1) где χ (ί) — η Χ 1-вектор состояний; и (г) — q X 1-вектор управлений; ρ —τη X 1-вектор неизвестных параметров, не зависящих от времени; f — η χ 1-векторная функция заданного вида; t — переменная текущего времени. Часто в результате специального выбора переменных состояний выход системы можно вычислять только по модели в виде некоторой известной нелинейной функции векторов' состояний и управлений У = У (*,»), (6-2) где У — I X 1-вектор выходов модели (I < п). При использовании модели известной формы задача идентификации сводится к отысканию таких численных значений вектора параметров ρ и начального вектора состояний x(io)> ПРИ которых выход модели наилучшим способом приближал бы выход системы при некоторой управляющей последовательности. Такое описание системы идеально подходит для последующего анализа управлений и требует для приложений только записей управлений в процессе нормальной работы.
Оценивание параметров и состояний нелинейных систем 119 6.2. Дифференциальная аппроксимация Простейшим является такой случай идентификации нелинейной системы, когда все компоненты вектора непосредственно измеряются в системе, а дифференциальные уравнения линейны по вектору параметров р. Если мы продифференцируем вектор состояний в некоторые моменты времени, то легко сможем построить систему линейных уравнений, которую можно решить методом наименьших квадратов относительно неизвестного вектора р. Этот метод, называемый дифференциальной аппроксимацией [1], требует дифференцирования выхода системы χ по времени. Численные методы дифференцирования изложены в разд. 3.1, где читатель может найти необходимые подробности. Если χ, χ и и — известные функции времени, то (6.1) представляет собой систему уравнений относительно параметра р; Xi (τ) .χη(τ). ''Матрица, содержащая \ известные нелинейные I функции χ и и \ в моменты времени τ; I ίο < τ < tf ) Pi .Pm . (6.3) где χ(τ) — оценка х(т), вычисленная по уравнениям модели. Запишем эту систему уравнений в виде ζ(τ) = Α(τ)ρ, ί0<τ<.ί/. (6.4) Обратимся теперь к задаче о таком выборе р, чтобы χ (τ) было хорошей оценкой измеряемого значения χ (т). Для этого рассмотрим интегральную квадратическую ошибку приближения χ (τ) κ χ (τ). Мы могли бы использовать также суммарную меру ошибки по дискретным данным, но этот случай получается непосредственно, и мы его оставляем читателю (см. также задачу 2 в конце главы). / = \ [χ (τ) - Α (τ) ρ]Γ [χ (τ) -Α (τ) ρ] d%, (6.5) где Τ обозначает транспонирование. Необходимыми условиями минимума / являются Vp/ 4- 2АТ (τ) χ (τ) + 2АТ (τ) Α (τ) ρ] dx = О, (6.6)
120 Глава 6 причем (6.6) — система т линейных алгебраических уравнений относительно т X 1-вектора р: Ατ (τ) Α (τ) dx] ρ = [Л Ат (τ) χ (τ) dx] . (6.7) to to Дифференциальная аппроксимация — это очень простой метод, но он имеет некоторые недостатки. Дифференцирование выхода системы существенно снижает отношение сигнала к шуму, и, хотя метод наименьших квадратов [уравнение (6.7)] обеспечивает некоторое сглаживание, шум в общем случае представляет проблему. Другая трудность заключается в том, что, когда состояния искажаются шумом, мы получаем среднеквадратическое приближение к х, а не к выходу системы х. Наконец, дифференциальная аппроксимация неприменима в общем случае, когда все компоненты вектора состояний не могут измеряться в системе. Тем не менее метод дифференциальной аппроксимации привлекателен из-за своей простоты, его легко использовать для получения начальных оценок параметров, которые можно затем улучшать более тонкими методами. 6.3. Вычисления градиента с помощью параметрических коэффициентов чувствительности Рассмотрим общую задачу идентификации, когда все компоненты вектора состояний не измеряются в системе. Предположим, что нелинейная модель системы задана в виде уравнений (6.1) и (6.2). Требуется оценить числовые значения вектора параметров ρ таким образом, чтобы вычисленные выходы модели у как можно точнее соответствовали действительным выходам системы ζ при воздействии управления u (t), tQ <C t < tj. Поскольку мы не можем измерить полностью вектор состояний, необходимо также оценивать «начальные условия» системы, или так называемый начальный вектор состояний χ (ίο)· Выход модели у можно сравнить с выходом системы ζ, введя скалярный критерий ошибки /. Критерий ошибки равен интегралу от разности между выходами модели и системы при заданном входе и (ί), ίο < t < tf. Ч J = JH(y,z)dt, (6.8) ίο где Η — скалярная положительно определенная мера ошибки. Если нет причин поступить иначе, то Η обычно выбирают в виде суммы квадратов компонент вектора ошибки. [
Оценивание параметров и состояний нелинейных систем 121 В следующем разделе мы увидим, что значение градиента / позволяет улучшить поначалу плохие оценки вектора ρ и начального вектора состояний χ (ί0). Идентификация, основанная на вычислении градиента, иллюстрируется на фиг. 6.2. Выражения для градиента / по ρ и χ (г0)Тможно получить, вычисляя частные производные от обеих частей уравнения (6.8). Обо- упрабпение u(t) Физическая система Выход г (t) моде Уравнения состоянии X-f(X,u,p,t) Уравнения выхода у=у(х, и) Критерии ошибки J~/tfH(u,z)dt !f(t) Подстройка начальных состояний и параметров Вычисление градиента Фиг. 6.2. Идентификация по методу градиента. значая χ (ίο) = ос и используя обозначения Эйнштейна для немых индексов (см. приложение), имеем dJ dpt дН dyk dxi dJ _ / <о дуй dxj dpi дН дуъ dxj дуь dxj da j ώ-, ■at. (6.9) (6.10) Функции dH/dyh и dyuldxj можно вычислить, определив аналитически частные производные известных функций Η (у, ζ) и у(х, и). Однако вектор состояний χ явно зависит от вектора параметров ρ и вектора начальных состояний ос. Функциональное соотношение получается из дифференциальных уравнений для состояний, и, следовательно, мы можем вывести уравнения, которым должны удовлетворять dxjldpi и dxjjda.i, вычисляя частные производные от обеих частей уравнения (6.1). Этот подход—эвристический, но результат можно строго проверить. Вычисляя частные производные от обеих частей (6.1) по компонентам р, получаем уравнение _d ~5Г \ dpi) dfj dxh . dfi dxh dpt dpi (6.11)
122 Глава 6 и вычисляя частные производные от (6.1) по. компонентам α — уравнение -LlHX\=J!lLl!2L.m (6.12} dt \ dat ) dxh dai ' \ ' ) Переменную начального состояния нельзя изменить, изменяя параметры или остальные переменные начального состояния. Следовательно, начальные условия для уравнений (6.11) и (6.12) имеют вид dX}-(tQ) = 0 (6.13) dp дх Γ-(<ο) = δ^, dat где Ьп = 1 при ] = i, δη = 0 при ίΦί. (6.14) Уравнения (6.11) и (6.12) называются дифференциальными уравнениями чувствительности [15]. Используя начальные условия, заданные уравнениями (6.13) и (6.14), можно проинтегрировать линейные уравнения с переменными коэффициентами (6.11) и (6.12) от г0 до tf и найти компоненты dxj/dpt и dxjldai к&к функции времени. Уравнения (6.9) и (6.10) можно использовать для вычисления соответствующих компонент градиента критерия ошибки /. Пример 1 Проиллюстрируем изложенный выше материал, выписав все выражения для одного простого примера. Рассмотрим систему, описываемую следующей моделью: я= — рх3 + и, x(t0) = a. (6.15) Квадрат ошибки — разность между выходом ζ системы и выходом χ модели — используем в качестве меры ошибки. Таким образом, критерий ошибки определяется уравнением ■-? {x-zfdt. (6.16) ίο Градиенты /, соответствующие формулам (6.9) и (6.10), равны -g. = J2(*-*)-g-cft (6.17)
Оценивание параметров и состояний нелинейных систем 123 dJ = ^2(x-z)-^dt. (6.18) да J v ' да Уравнения, позволяющие выразить дх/др и дх/да как функции времени, получаем путем вычисления частных производных от правой части уравнения (6.15): Ц (М = о, |>) = 0, (6.19) d dt ·£(ίο) = 1· (6.20) Заметим, что уравнения (6.19) и (6.20) соответствуют уравнениям (6.11) и (6.12). βΑ*~ Итерационные алгоритмы, использующие направления градиента Простейшей итерационной градиентной схемой для улучшения начальных оценок вектора параметров ρ и начального вектора состояний ос является метод наискорейшего спуска [14]. Направление наискорейшего спуска обратно направлению градиента и совпадает с направлением, в котором критерий ошибки наиболее быстро убывает при бесконечно малом изменении. Направление наискорейшего спуска задается вектором [Apt ... крт, Δαι ... Δαη]τ, где APl=-C~, i = l,...,m, (6.21) Даг=—C-g-, 1=1, ...л. (6.22) Константа С в уравнениях (6.21) и (6.22) определяет величину изменения переменных. Если сделать С слишком большой, то критерий ошибки в действительности может возрасти, а если С очень мала, то скорость сходимости может стать слишком медленной. Кроме того, по мере приближения к минимуму градиент уменьшается, и это позволяет использовать большие значения С. Компромисснее значение С можно найти методом проб и ошибок, но в общем случае предпочтительнее выбирать С на каждом шаге процесса
124 Глава 6 последовательных приближений. Наиболее эффективно вычисление градиента на каждом шаге можно использовать в том случае, если выбрать С так, чтобы минимизировать / в направлении, обратном градиенту, 'т. е. С = С*, так что J (р + С* Δρ, а+С* Δα) = min [/ (р + С Δρ, а + С Лее]. (6.23) с При определении значений С первую итерацию удобно начинать с некоторого выбранного значения, а последующие итерации — с исправленного значения, полученного с предыдущей итерации. Затем вычисляется критерий ошибки, и до тех пор, пока он не станет уменьшаться, значение С последовательно делится на 10. Как только происходит уменьшение критерия ошибки, значение С последовательно удваивается, пока критерий ошибки не перестанет убывать. Квадратическая интерполяция дает удовлетворительное значение для С*: Μ &%.·?#, К- <6·24> где С* — размер шага при квадратической интерполяции; /j — критерий ошибки до начала линейного поиска; J'3 — первое увеличенное значение критерия качества после удвоения С; Jг — критерий ошибки, вычисленный непосредственно перед J3 после удвоения; δ — значение С в точке, в которой вычисляется критерий ошибки /3. Доказательство справедливости уравнения (6.24) предоставляется читателю в качестве упражнения (см. задачу 1). Шаги, которые делаются при адаптивном вычислении С*, показаны на фиг. 6.3 для двумерной задачи. Обращаясь к фиг. 6.3, замечаем, что pfe представляет собой оценку параметров на к-тк итерации и dfe — вычисленное направление изменения (направление, обратное градиенту в методе наискорейшего спуска). Начальное значение С\ параметра С было разделено на 10 частей, поскольку значение / не уменьшилось. Критерий ошибки увеличивается после трех последовательных удвоений С, и квадратическая интерполяция С* приводит к новой оценке pfe+1 параметров. Алгоритм линейного поиска, построенный выше, является только одним из многих возможных методов, но он рассмотрен здесь для иллюстрации используемых принципов. Метод наискорейшего спуска сходится к экстремуму, обычно к локальному минимуму, но на практике эта сходимость часто бывает очень медленной, поскольку метод плохо «ведет себя» на узких делениях. В этой главе ниже будет показано, каким образом дополнительные вычисления могут улучшить свойства сходимости. Однако можно улучшить свойства сходимости, используя только вычисление градиента по методу сопряженных градиентов [13]. Метод сопряженных градиентов теоретически обладает свойством
Оценивание параметров и состояний нелинейных систем 125. p*"=/>V* Напрабление поиска^ Фиг. 6.3. Минимизация методом линейного поиска. А — поверхность действительной ошибки; Б — квадратнческая аппроксимация. находить минимум положительно определенной квадратической функции за число шагов, меньшее или равное числу переменных. Общая поверхность ошибки обычно далека от квадратической, но оказывается, что метод сопряженных градиентов обычно сходится значительно быстрее, чем метод наискорейшего спуска [7]. Метод сопряженных градиентов сводится к следующим уравнениям. Пусть р=Щ <6-25> и V«/ g=Vfs/ = где V$J обозначает градиент / по градиентов дает (к + 1)-ю оценку β β"+ι = β" + C*dk, VP/ (6.26) 5. Тогда алгоритм сопряженных (6.27)
126 Глава 6 где Гра1 ph = h\ — к-я оценка ρ и ос, dk — изменение вектора сопряженного градиента: d* = -gft+r У)г(8?) 1dft-i. (6.28) Из уравнения (6.28) следует, что вычисление направления сопряженного градиента dft требует только запоминания предыдущего градиента gft_1 и предыдущего направления изменения dft-1. Постоянная С* в уравнении (6.27) определяется на каждом шаге процесса последовательных приближений, так что J минимизируется в направлении dft. Параметр С* определяется уравнением (6.23), а удобным способом его вычисления является квадратическая интерполяция по уравнению (6.24). Мы не будем пытаться выводить описанный здесь алгоритм, но проиллюстрируем свойство сходимости за два шага для двумерной квадратической поверхности. Прежде чем перейти к этому, сделаем два замечания относительно градиента критерия ошибки. Прежде всего покажем, что этот градиент всегда ортогонален линиям уровня. Рассмотрим скорость изменения критерия в направлении Ь, т. е. β^βο + cb. (6.29) Тогда £UH^U)(^)=(^U)<*>· <6·30> Уравнение (6.30) показывает, что если dJ/dc = 0, то V&J | β=β<> ортогонально Ь. Однако условие дЛдс = 0 означает, что b — это направление, в котором не происходит изменения /, т. е. b есть касательная к линиям уровня /. Следовательно, мы показали, что VpJ ортогонально линиям уровня. Во-вторых, мы покажем, что. если указано направление на минимум функции [см. уравнение (6.23)], то новое направление градиента ортогонально предыдущему направлению поиска. Рассмотрим скорость изменения критерия ошибки J в направлении d, т. е. βΐ = βο + cd, (6.31) "'.--(-Sri.J(*)-(£[_,)<*> <6·32> дс β=βΐ Поскольку теперь линейный поиск позволяет найти минимум J по с, производная дЛдс равна нулю. Следовательно, согласно
j Оценивание параметров и состояний нелинейных систем 127 Начальной точка Фиг. 6.4. Квадратическая двумерная поверхность, иллюстрирующая методы наискорейшего спуска и сопряженных градиентов. »>■ наискорейший спуск; сопряженные градиенты. (6.32), новый градиент должен быть ортогонален предыдущему направлению поиска. На фиг. 6.4 показаны линии уровня двумерной квадратической поверхности. Используя рассмотренные выше два свойства, мы получим метод наискорейшего спуска, схематически показанный на графике. Если мы вновь рассмотрим (6.28), то заметим, что второй шаг в направлении сопряженного градиента представляет собой линейную комбинацию градиента и предыдущего направления поиска, и можно показать, что для двумерной квадратической поверхности это направление проходит через минимум. Заметим, что если бы контуры были круговыми, то метод наискорейшего спуска позволил бы достичь минимума за один шаг. Преобразование, позволяющее перейти от линий уровня произвольной квадратической поверхности к концентрическим гиперсферам (например, к кругам в двумерной плоскости), неявно используется в процедуре Ньютона, которая будет рассмотрена в разд. 6.7 (см. также задачу 4). В общем случае метод сопряженных градиентов сходится намного быстрее, чем метод наискорейшего спуска. При применении этого метода следует иметь в виду одно практическое обстоятельство: если минимум не достигнут за число шагов, равное общему числу
128 Глава 6 независимых переменных, то лучше обратиться к методу наискорейшего спуска на одном шаге, а затем возобновить вычисления по методу сопряженных градиентов. 6.5. Процедура Гаусса—Ньютона Как было установлено в разд. 6.4, метод сопряженных градиентов сходится быстрее, чем метод наискорейшего спуска. В этом разделе мы рассмотрим другой метод, который в общем случае сходится быстрее, чем метод сопряженных градиентов. Этот метод, называемый квазилинеаризацией [2] или процедурой Гаусса — Ньютона [12], использует матрицы dxj/dpt и dxj/dat [см. уравнения (6.11) и (6.12)]. Используем опять обозначения β=(*)· (6.33) Метод Гаусса — Ньютона приспособлен для использования ква- дратической меры ошибки. В соответствии с этим заменим Η в (6.8) квадратической мерой ошибки, так что Ч J=\ wh(yh — zkfdt, (6.34) причем w (t) — / X 1-вектор положительных'Г'весов, приписываемых соответствующим элементам вектора ошибки. Предположим, что задана начальная'оценка^вектора параметров β. Возьмем линейную часть разложения выхода модели у относительно β. В разд. 6.6 мы увидим, что это обеспечивает аппроксимацию разложения второго порядка критерия ошибки / относительно β: /(β + Δβ)«| Wh[yh+^-^.^T-zl^dt. (6.35) ίο Необходимым условием минимума /(β + Δβ) является обращение в нуль градиента /(β + Δβ) по β: Vp/ (β + Δβ) = VAp/ (Ρ + Δ8) - 0. (6.36) Дифференцируя (6.35) для получения ί-й компоненты Удр Jt находим ίο = 0 в точке минимума. (6.37)
О ценивание параметров и состояний нелинейных систем 129 Уравнение (6.37) в действительности представляет собой систему линейных алгебраических уравнений относительно Δβ: /ft дхе ί г дук dxi (ί ч^тжН^- = -^2wh(yk-Zk)^-^rdt. (6.38) Ό Правая часть уравнения (6.38) равна взятому с обратным знаком,градиенту критерия ошибки / по β;. Перепишем уравнение (6.38) в матричнок обозначении: ΓΔβ=— g. (6.39) Здесь Г задается, как в (6.38); g — градиент критерия ошибки / по β. Покажем, что матрица Г — симметричная и положительно полуопределенная [17]. Свойство симметрии очевидно, поскольку элементы с индексами ir и Η тождественно равны. Чтобы доказать, что Г положительно полуопределенная, рассмотрим ΔβτΓΔβ. Используя обозначения Эйнштейна для сумм, имеем " У = ] 2wkvi, (6.40) ίο dyh dxs Л0 где Заметим, что выражение (6.40) положительно, если только vh не равно нулю, при всех к и для любого момента времени между £0 и tf. Случай равенства нулю интересен тем, что он соответствует такой ситуации, когда реакция системы не дает достаточной информации о некоторых параметрах. За исключением этого вырожденного случая, Г является положительно определенной. Решение уравнения (6.38) можно переписать в виде Δβ=— F^g. (6.41) Существует много методов решения линейных систем алгебраических уравнений (6.38). Однако, поскольку матрица Г симметрична, метод квадратного корня [6], использующий свойство симметрии, является одним из наиболее эффективных. По мере приближения к минимуму уравнение (6.41) дает весьма быстро сходящуюся последовательность оценок параметров. Однако на удалении от минимума Η3ΜβΗβΗΗβ^Δβ, описываемое формулой (6.41), может привести к увеличению критерия ошибки из-за пре-
130 Глава в небрежения. членами высших порядков. По этой причине лучше вычислять Δβ из следующего выражения, соответствующего линейному поиску минимума в направлении, задаваемом формулой (6.41): Δβ=-ί7*Γ-^, (6.42) где константа С* определяется на каждом шаге процесса последовательных приближений, описываемого уравнениями (6.23) и (6.24). Использование в уравнении (6.24) исправленного значения С* обеспечивает уменьшение критерия ошибки на каждом шаге. Мы можем показать это, рассмотрев (к -f- 1)-ю оценку β: рй+1 = β& + Δ β = β& — CF^ig. (6.43) Имеем i?"=-W-^-^{gT}{-r"lg}=-grF"lg· (6·44) Поскольку Г — положительно определенная матрица, исключая случай равенства нулю, о котором шла речь выше, grF_1g положительна для любого вектора g. Таким образом, дЛдС всегда положительна, а это показывает, что всегда можно найти положительное значение С, при котором критерий ошибки уменьшается. Процедура Гаусса — Ньютона· с изменяющейся постоянной С* в общем случае приводит к быстро сходящейся вычислительной схеме [9]. Мы доказали, что критерий ошибки уменьшается на каждом шаге, но для некоторых начальных оценок сходимость может быть медленной из-за наличия членов высших порядков, которыми мы пренебрегали при анализе. В этих случаях сопряженные градиенты можно использовать для того, чтобы начать итерации, а затем обращение к процедуре Гаусса — Ньютона при приближении к минимуму существенно увеличивает скорость сходимости. 6.6. Вычисление кривизны с помощью параметрических коэффициентов чувствительности Согласно методу сопряженных градиентов, производятся установление сопряженных направлений поиска и минимизация положительно определенной квадратической функции η переменных за число шагов, меньшее или равное п. В следующем разделе будет показано, что вторые производные ошибки можно использовать для достижения за один шаг сходимости к минимуму положительно определенной квадратической функции η переменных. Поэтому мы перейдем к вычислению матрицы кривизны или вторых производных критерия ошибки. Рассмотрим второй член разложения в ряд Тейлора критерия ошибки / относительно значения оценки β, равного β°: J (βο.+ Ь) = J (β») + Ь* V (βο) +1 ЪЧЮ (βο)i Ь + 0 (V), (6.45)
Оценивание параметров и состояний нелинейных систем . 131 ■где b — произвольное изменение β; Vp/ (β°) — (m-fra) χ 1-вектор градиентов критерия ошибки / по β, в £-й строке которого стоят значения dJ/df>i\ /ρρ( β0) —матрица кривизны с г/-й компонентой Комбинируя уравнения (6.9) и (6.10) и используя обозначение β -W· запишем компоненты градиента Vp/ в виде ^Гйя^л. (6.46) d$i J дуа Οχι д§] v > Компоненты дН/дуа и dyjdxi можно найти аналитически, вычисляя частные производные, но компоненты dxjdfy] можно вычислить только путем интегрирования соответствующих уравнений чувствительности (6.11) и (6.12). Уравнения чувствительности первого порядка записаны ниже через вектор β _ά_Γ^Xj_l _ Jft_ дха_ dh_ (P, A7\ dt Lapj J dxa d§} Ί" d§] V·*1' с начальными условиями 4g7 (Ό) = 0 при fa^Ph, ■Щ (*θ) = &ij ПРИ β; = ОД. Выражение для элементов матрицы кривязны можно получить, вычисляя частные производные (6.46) по β£: = Г д*Н Г дус dxdl дуа dxt d J [дуа дус I дха д% J dxt д§} "^ +ί tf t |* *^^<ί.«ίί.Λ + tmap_iPztd (64g дуа dxidxd d$h d$j · J дуа dxt d§} d$k v ' h *o Первые два члена в уравнении (6.48) можно вычислить, зная коэффициенты чувствительности первого порядка dxi/dfij. В самом деле, интересно отметить, что если Η квадратична по у, то первый член в (6.48) совпадает с матрицей Г в процедуре Гаусса — Ньютона [см. уравнения (6.38) и (6.39)]. Другими словами, матрица Г является оценкой матрицы кривизны. Последний член в уравнении (6.48) требует оценивания коэффициентов чувствительности второго порядка
132 Глава 6 Подобно коэффициентам чувствительности первого порядка, их можно определить, только интегрируя соответствующие уравнения чувствительности. Уравнения чувствительности второго порядка можно вывести, вычисляя вторые производные (6.47) а г ffbj -ι _ г ей ι г дЧд τ г a*ft dt, i d§] 9β^ J L dxa J L a$j d$k J + L dxa d$k "1~ a«/i ^birfagi г а2/г irfa3i г d4t ι ,R ,q, ^ d*a дхЬ в% J L ββ* J "f" L «ie % J L ββ* J "^ L apy apft J *U,TO' с начальными условиями ββί d$k (ί0) = 0 для всех β^ β„. (6.50) Начальные условия (6.50) получаются непосредственно путем вычисления частных производных от начальных условий в уравнении (6.47). Уравнение (6.49) можно проинтегрировать от to до tf, а затем можно использовать уравнение (6.48) для вычисления матрицы кривизны /. 6.7. Итерационные алгоритмы, использующие градиент и кривизну Схему минимизации Ньютона [5] получаем сраэу же из разложения критерия ошибки J в ряд Тейлора до членов второго порядна, используя (6.45): J- (βο + Ь) = J" (βο) + b^VpJ- (β») +-|- brJ-pp (βΡ) Ь + 0 (Ь»). (6.51) Необходимые условия минимума / (β° -f- b) имеют вид VpJ" (β<> + Ь) = 0, (6.52) и, поскольку β = β° + b, V&J (βο + b) = Vb/ (βο + b) = V&J (βο) + Jw (βο) b + 0 (b2) = 0 для минимума. (6.53) Пренебрегая членами высшего порядка в уравнении (6.53), найдем изменение β, необходимое для достижения минимума за один шаг: Ь*= — [J'pp]-1 Vp7. ■ (6.54) Уравнение (6.54) позволяет отыскать минимум положительно определенной квадратической функции ошибки за один шаг. Практически поверхности ошибки обычно имеют форму, сильно отличающуюся от квадратической, но уравнение (6.54) обеспечивает весьма быструю сходимость при приближении к минимуму. В общем случае использование вектора Ь* в правой части уравнения (6.54) может привести к увеличению критерия ошибки. Мы
Оценивание параметров и состояний нелинейных систем 133 можем попытаться ускорить сходимость, вводя линейный поиск, подобно тому, как это описано уравнениями (6.23) и (6.24), но часто даже бесконечно малое изменение направления Ь* приводит к увеличению критерия ошибки. Эта аномалия возникает из-за того, что при выводе уравнения (6.54) не проводилось различия между минимизацией и максимизацией критерия ошибки. Более строго это можно показать, рассматривая изменение вектора β° в направлении вектора Ь*. Новый вектор β равен β = βο + Δβ = βο + СЪ* = βο - С [/№]-ι V. (6.55) Таким образом, ■й-в <w {ж β} = wr {- four1 ад= = -{V}rtop]_1V. (6.56) Для того чтобы положительное значение С привело к уменьшению критерия ошибки, дЛдС должна быть отрицательной. Но уравнение (6.56) показывает, что это можно гарантировать только в том случае, если /цр положительно определенная. Следовательно, мы можем обеспечить сходимость метода Ньютона только для вогнутых поверхностей. Однако процедуру Ньютона можно слегка видоизменить так, чтобы сходимость была гарантирована для всех поверхностей, независимо от того, положительна или отрицательна кривизна. Для этой модификации требуется привести к диагональному виду матрицу кривизны /рц [101. Матрица кривизны симметрична и потому имеет действительные собственные значения. Если Φ — матрица собственных векторов и Л — матрица собственных значений, то Jpp можно переписать в виде [17] /рр=фЛфг. (6.57) Определим новое множество независимых переменных у посредством преобразования γ = ΦΓβ. (6.58) Тогда Vv/ = фгуц/ и /νν = φΓ/№φ = Λ. (6.59) Новая матрица кривизны диагональна, поэтому составляющие градиенты дЛдуг инвариантны относительно изменений в других направлениях, т. е. ι^7=0 при ίΦ1-
134 Глава 6 Следовательно, мй можем рассмотреть задачу об обращении в нуль градиента функции J по каждой из у координат независимо. Рассматривая квадратическое приближение к функции /, имеем два различных случая в зависимости от. знака соответствующих собственных значений. При .* положительных собственных значениях кривая зависимости / от yt вогнута вверх, как показано на фиг. 6.5. Для отрицательных собственных значений кривая зависимости / от у} выпукла вверх, как показано на фиг. 6.6. Используя новые переменные у, процедуру Ньютона можно записать в виде ?Ь+1 = ?*+С(0*, (6.60) где ω* = - [Л]"1 Vv/, (6.61) или для ί-й компоненты у в виде (6.62) Из рассмотрения фиг. 6.6 видно, что формула (6.62) приводит к возрастанию критерия ошибки для отрицательных компонента. Если квадратическая аппроксимация адекватно описывает поверхность, то формула (6.62) приводят к максимуму при отрицательных собственных значениях и к минимуму при положительных собственных значениях. Один из способов преодоления расходимости процедуры Ньютона заключается в использовании только положительных собственных значений матрицы кривизны [9]. Этот метод описывается следующим алгоритмом: β*+ι = β» + ββ··ι (6.63) где с — положительная константа, найденная при линейном поиске минимума / (β&+1), и Фиг. 6.5. Квадратическая аппроксимация к / при положительных 33//3γ|_ причем ωί Ь** = Ф(о**, ω** = 0, если Л,; отрицательна, ί \ 8J ·—(л4т) 3yi , если А.ц положительна. (6.64) (6.65)
Оценивание параметров и состояний нелинейных систем 135 Используя этот метод, можно всегда заметить убывание критерия ошибки, и если поверхность квадратическая и положительно определенная, то значение с = + 1 приводит к минимуму за один шаг. Другие возможности стабилизации метода Ньютона заключаются в том, что используется только абсолютная величина собствен- I, —■—— ___ , „ЭР. Фиг. 6.6. Квадратическая аппроксимация к / при отрицательных d^Jldy]. ных значений [10] или только обратная абсолютной величина отрицательных собственных значений, когда появляются отрицательные собственные значения [9]. 6.8. Улучшенные методы оценивания градиента и кривизны В предыдущих разделах этой главы мы рассмотрели итераци-т онные схемы, в которых информация о градиенте.и кривизне используется для улучшения плохих исходных оценок параметров и начальных состояний. Было показано, что коэффициенты чувствительности можно" использовать для вычисления градиентов и кривизны. В этом разделе мы покажем, что общее число уравнений, которые необходимо проинтегрировать для вычисления градиента или кривизны, можно существенно уменьшить, вводя дополнительную переменную. Если уравнение (6.9) используется для вычисления градиента / по вектору параметров р, то η X т уравнений чувствительности
136 Глава 6 первого порядка (6.11) можно проинтегрировать от t0 до t}. Простой подстановкой η Χ πι уравнений можно заменить η уравнениями [4]. Это может привести к значительным упрощениям, особенно если число параметров т превосходит число состояний п. Вместо того чтобы использовать уравнение (6.9) для вычисления dJ/dpi, определим новую η χ 1 переменную λ следующим образом. Пусть г?='Ь^< ίο Заметим, что dfjldpt в отличие от dxjldpt можно вычислить аналитически, находя частную производную. Подстановка df)ldpl из уравнения (6.11) в уравнение (6.66) дает «о Интегрируя первый член по частям и изменяя немые индексы во втором члене, запишем dJ- Г дх> λ Vt ( Гдх* дХ> j-dfh дх} λ„ 1/7/ ■ dpi «о i ίο Для того чтобы из уравнения (6.68) получалось то же значение dJjdpi, что и из уравнения (6.9), требуется, чтобы dXj dfk « ОН dVh ,n 7Пч В уравнении (6.69) τ&ω-0· но dxj/dpi(tf) произвольна. Поэтому из уравнения (6.69) следует Kj(tf) = 0. (6.71.) Уравнение (6.71) представляет собой краевое условие на одном конце для дифференциальных уравнений (6.70). Эти уравнения легко проинтегрировать в обратном времени от tf до t0, и затем можно использовать уравнение (6.66), чтобы вычислить составляющие гра-
Оценивание параметров и состояний нелинейных систем 137 диента dJldpt. Таким образом, τη Χ η уравнений чувствительности первого порядка (6.11) можно заменить η сопряженными уравнениями (6.70). Аналогичную подстановку нельзя использовать для компоненты, градиента но начальному состоянию се. Тем не менее в общей задаче вычисления градиента по параметрам и начальным состояниям η (τη + п) уравнений (6.9) и (6.10) заменяются η (η + 1) уравнениями. Если используется процедура Гаусса — Ньютона, описанная в разд. 6.5, то требуются все η (τη + τι) уравнений чувствительности первого порядка. Процедура Ньютона, описанная в разд. 6.6 и 6.7, также требует использования всех коэффициентов чувствительности первого порядка, и, кроме того, в уравнении (6.48) требуются коэффициенты чувствительности второго порядка Имеются η (η -f- τη + 1) (η + ш)12 независимых компонент d'txild^jd^h и, следовательно, η (η + τη -f- 1) (η + τη)/2 независимых уравнений чувствительности второго порядка (6.49). Такое число уравнений слишком велико, но можво показать, что при введении вспомогательной переменной, может потребоваться интегрирование только η уравнений [8]. Вместо того чтобы Пользоваться уравнением (6.48) для вычисления d^J/dfijdfib, определим η X 1 переменную λ следующим образом. Пусть д$] d$h Г дШ Г дус дхд "Ι dy^ dXj , ' J дуа дус I dxd d$k J дхг d$i "1" to f дН д2уа dxd dxi , . «о dxi dxa dfik 9β] J_fl Γ/ d*fi ι a*h д*Ь\ I дхд \ . "^ J ' LA dxa dfa "1" дха дхЬ dfa ) \dfo ) "1" *o Уравнение (6.72) отличается от уравнения (6.48) только последним членом. Вместо η (η + τη) (η -f- τη + 1)/2 различных вторых частных производных вектора состояний используется сопряженный (η X 1)-вектор λ. Другие множители в уравнении (6.72) — это либо первые частные производные вектора состояний, либо функции, которые могут быть получены аналитически путем вычисления частных производных-
138 Глава 6 Подставляя выражение (6.50) в последний член уравнения (6.72), запишем Последив ,т. = '(я,[4(^)-^-^Г]л (6.73) 10 Проинтегрируем уравнение (6.73) по частям: Последуй ,М.= [Я1^|Г];;-|[А,Ц^|Г+ + λ'ΪΓ^]ώ· <β·74> Используя различные немые индексы и приводя подобные члены > получим Последний член = [λ, ^r]|j - 3fi 1 Shu dxt J d$} d$k ■?[ τ №■)+*<■&] 1Й!-*· <β·75> «0 Подставляя (6.75) в (6.72), находим дЧ Э$1 dfik . ίο + ίο f ' дШ I дус dxd\ дуа дхь dt ) дуа дус \ dxd d$k I дхь d$j "1" ίο Ϊ9Η дгуа . дхь dxd ^ дуа dxbdxd Lapft д$) *0 +[^wkl- <8·7β> Для того чтобы уравнение (6.76) приводило к тому же значению матрицы кривизны дЧ что и уравнение (6.48), требуется, чтобы [*-w5tU'-° <6·77' и d л л dfi дН дуа ,R 7ЙЧ
О цен иван ие параметров и состояний нелинейных систем 139 Однако для всех β^, βΛ [см. уравнение (6.51)], и, следовательно, уравнение (6.77) дает единственное граничное условие h(tf) = 0. Таким образом, вектор λ можно вычислить, интегрируя η уравнений (6.78) в обратном времени от t} до tQ. Уравнение (6.72) можно использовать затем для вычисления элементов матрицы кривизны. Для этого все еще требуется η (т + п) уравнений чувствительности первого порядка (6.11) и (6.12), но η (η + иг) {η + т -f- l)/2 уравнений чувствительности второго порядка заменяются на η сопряженных уравнений (6.78), 6.9. Сравнение методов В этой главе рассмотрены четыре итерационные схемы улучшения плохих исходных оценок вектора параметров и начального вектора состояний. Теперь сравним их по числу уравнений, которые необходимо проинтегрировать за одну итерацию, по легкости программирования, по затратам машинного времени на одну итерацию' и по относительной скорости сходимости. В табл. 6.1 приведено общее число уравнений, которые необходимо проинтегрировать за одну итерацию по каждому из этих четырех методов. Данные таблицы соответствуют интегрированию уравнений состояний, которое необходимо при линейном поиске [уравнение (6.23)]. Поскольку общее время вычислений по любому из методов существенно влияет на время интегрирования, таблица может служить хорошим указателем относительных затрат машинного времени на одну итерацию. Из табл. 6.1 видно, что процедуры Гаусса — Ньютона и Ньютона требуют большего числа уравнений, чем методы наискорейшего спуска и сопряженных градиентов. Кроме того, метод сопряженных градиентов обычно сходится быстрее, чем метод наискорейшего спуска, и, следовательно, метод сопряженных градиентов оказывается наилучшей схемой, когда требуется простой алгоритм. Процедура Гаусса — Ньютона требует большего числа уравнений, чем метод сопряженных градиентов, а также требует решения некоторой системы алгебраических уравнений. Однако в общем случае процедура Гаусса — Ньютона сходится быстрее, чем метод сопряженных градиентов. Схема Ньютона требует приблизительно такого же числа уравнений, что и метод Гаусса — Ньютона, но при этом существенно увеличивается сложность программирования. Как уже отмечалось
140 Глава 6 Таблица 6.1 Число уравнений, решаемых за одну итерацию Использование только коэффициентов чувствительности Пример Использование улучшенных методов градиента и вычисление кривизны, где это возможно Пример Наискорейший спуск п(т-\-п)-\- 100 »(! + ») + 55 Сопряженные градиенты п(т-\-п)-\- 100 я(1+в) + 55 Гаусс — Ньютон п(т-\- п)-\- -\-Ln 100 η (т-\- п)-\- 100 Ньютон п(т-\- п)-\- -\-п(т-\-п) χ Х(т + и + 1)/2 + + Ln 700 η (т-\-п)-\- -\-п-^Ьп 105 Обозначение Пример Число состояний η 5 Число параметров т 10 Число шагов при линейном поиске L 5 в разд. 6.7, процедура Ньютона сходится весьма быстро для поверхностей с положительно определенной матрицей кривизны, но может расходиться для поверхностей с неположительно определенной матрицей кривизны. Эту трудность можно легко преодолеть, если привести матрицу кривизны к диагональному виду, как было показано в разд. 6.7. Приведение к диагональному виду можно очень быстро проделать на большой вычислительной машине, причем это время пренебрежимо мало по сравнению с временем, необходимым для решения различных дифференциальных уравнений. Модифицированные процедуры Ньютона требуют более сложного программирования, но в общем случае они сходятся быстрее [9]. С учетом всего сказанного, включая время на одну итерацию, методы можно расположить по скорости сходимости в следующем порядке: наискорейшего спуска, сопряженных градиентов, Гаусса— Ньютона и, наконец, Ньютона. Однако трудность программирования возрастает в той же последовательности, и, таким образом, выбор метода должен основываться на компромиссе между скоростью сходимости и сложностью программы.
Оценивание параметров и состояний нелинейных систем 141 6.10. Влияние шута на точность оценивания До сих пор мы не рассматривали специально влияние шума на оценивание параметров и начальных состояний. Сглаживание шума при оценивании β зависело от соответствующего выбора интервала измерений. В этом разделе мы приведем выражение для ожидаемой ошибки и ковариации ошибки в оценке β, возникающей из- за шума. При дальнейшем анализе мы будем использовать сосредоточенные шум и возмущения выхода системы. Рассмотрим систему, показанную на фиг. 6.7. УпраВление u(t) Гипотетическая система, дез шумов Гипотвтичес - „ . кий приВеден - " ι ныи шум и помехи Физическая система ДейстВит ный выход •епь- Уравнения состояний Уравнения выхода у*у(х,и) Математическая модель Выход модели Фиг. 6.7. Шумы в задачах оценивания параметров и состояний. Единственный выход, который в действительности можно измерять в физической системе,— это выход ζ, содержащий помеху. Выход ζ без помехи вводится для математического удобства. Используя вектор действительного выхода с помехой, запишем критерий ошибки [уравнение (6.8)] в виде Чй& У) Л. (6.79) Чтобы исследовать влияние шума на решение задачи минимизации (6.79), рассмотрим гипотетический выход ζ, не содержащий помехи. В отсутствие шума критерий качества имеет вид /=|я(г, у) Л. (6.80) Предположим, что критерий качества в отсутствие шума (6.80) достигает минимума на векторе β*, где β — вектор, компонентами
142 Глава 6 которого являются параметры и начальные состояния. Градиент J* по β в точке β — β* должен быть равен нулю., т. е. яг* dJ ■ 0. (6.81) Разложим критерий качества / в окрестности /*, добавляя шум и слегка изменяя β. Пренебрегая членами порядка выше второго, получим "4 ан* Λ ,. . aj* дй , ι г am* Λ . F,, . ι акт* AD AQ , *0 Itete*)4***· <6·82> *0 tf + to В уравнении (6.82) имеем Δβ = β—β», (6.83) Δζ = ζ—ζ = η, (6.84) где β* — гипотетическая оценка β ,в отсутствие шума; ζ — гипоте- МР тический выход ζ в отсутствие шума; ζ—выходной вектор с шумом; η — вектор, описывающий шум и возмущение. Подставляя (6.81) и (6.84) в (6.82), получаем , (■ ан* ,, . f am* ,. . + )^-nidt + )-a4rb4]-ntnidt + J&J* . 1 gV* 2 δβ4δβ '/ Т^' + [\^7(Ш)"-^- <6·85' Рассмотрим вновь задачу минимизации (6.79) при наличии шума. Необходимым условием минимума является обращение в нуль градиента / по β. Однако, поскольку мы положили ρ — β* + Δ β, градиент по Δβ должен быть равен нулю. Мы пытаемся найти результаты воздействия шума на оценки параметров и состояний и, следовательно, можем использовать преимущество аппроксимации к /, которое обеспечивает формула (6.85). Выражение (6.85) не учитывает члены третьего и более высокого порядка, но оно оправдано, поскольку шум предполагается малым. Следовательно, уело-
Оценивание параметров и состояний нелинейных систем 143 вие минимума /, согласно (6.85), имеет вид «о' 9J а2/* .о , Г дШ* I дуа дхь\ ,,. „ 1Щ^ЖШ^ + )1^д^Ы1^)П]а1 = 0 в Τ04κθ минимУма· (6.86) '/ Уравнение (6.86) на самом деле представляет собой систему линейных алгебраических уравнений относительно Δβ. Решение уравнения (6.86) можно записать в следующем виде: Δβ = εΝ, (6.87) где С—матрица, обратная матрице кривизны [/рр]"1; N—вектор, i-я компонента которого равна ,r Ρ д*Н* I дуа дхь \ ■,. Уравнение (6.87) связывает ошибку вектора β, возникающую из-за наличия шума, с выходом системы. Это уравнение может быть использовано для вычисления ожидаемого значения ошибки и ковариации ошибки через характеристики шума. Чтобы упростить формулы, в последующих выкладках используется обозначение д*Н* дШ dzj d$i dzj ду, к(Ш^- <6·88> Выражение для ожидаемой ошибки в оценке β* можно вывести из уравнения (6.87). Обозначая символом Ε оператор математического ожидания, получаем it Ε [Δβ,] = Ε [CKSNS] = CKSE [J JjgL·. щ dt] . Следовательно, Ε [Af>k] = СК8]-^щ-Е [n}]dt. (6.89) Один результат, с очевидностью вытекающий из уравнения (6.89), заключается в том, что если среднее значение шума равно нулю, т. е. Ε [η] = 0, то оценка вектора β несмещенная, т. е. Ε [Δβ] = 0.
144 Глава 6 Наконец, выведем формулу для ковариационной функции ошибки в оценке β в зависимости от ковариационной функции шума: Ε [Δβ0Δβ6] = Ε lCaSNsCbrNr] = = CasCbrE [ j J™L щ dt j -£ZL. nj dt] = tf Ц =C«*C»E [ J ^ж &> * ωdti J жж μ n>{h) Μ = ίο ίο yf ι— /» л /92/7"* /92/7"* π = CaSCbr£ [ j J gz, gp^ (ii) i»j (ii) n^ (fa) gzygpr (ia) d*i <feaJ = io *o = CasCbr J ί ЖЖ(ω Ε [7ϊί (il) *' (ia)1 ЖЖ(ίζ) dil di2> *0 *0 Следовательно, Ε [Δβ„Δβ6] = = CasCbr J J ЖЖ(ίι) *"'(ίι'ia) ЖЖ('2) dtl dt*' (6·90) где Ιϊί} (tlf t2) — ковариационная функция шума. Важно отметить, что в объекте с настоящим шумом мы не можем проводить измерений над гипотетической системой без шума. Однако оба уравнения (6.89) и (6.90) зависят от частных производных, вычисленных в точке минимума при отсутствии шума. На практике всегда имеются только записи сигналов с шумами и соответствующий им минимум, и, следовательно, наилучшие оценки С и d2H*/dZidf>s, которые мы можем построить, выражаются через данные с шумами. Однако, если шум не очень мощный, они служат хорошими мерами ошибок в оценках параметров и состояний, возникающих из-за шума. В качестве частного случая уравнения (6.90) рассмотрим пример с некоррелированным стационарным белым шумом, имеющим нулевое среднее. Стационарность обеспечивает выполнение равенства Ru{ti,h) = Ru{h-h). (6.91) Если шум на различных выходах некоррелированный, то Riiih — h) = 0 при ίΦ]\ (6.92) Белый шум имеет равномерную спектральную плотность. Предположим, что шум i-ro выхода имеет спектральную плотность, при-
Оценивание параметров и состояний нелинейных систем 145 нимающую значение Kt на'всех частотах. Тогда автокорреляционная функция шума представляет собой импульсную функцию, интеграл от которой равен 2ηΚι, τ. е. Ru(ti—t2) = 2nKib{ti—t2). (6.93) Подставляя (6.91) — (6.93) в (6.90), получаем окончательно Ε [ΔβαΔβί)] = CasCbr ( ™L· -**£- 2nKi dt. (6.94) ίο Выведем теперь более простой результат, чем (6.94). Для этого нам понадобятся дополнительные предположения. Во-первых, ограничимся квадратической мерой ошибки /, т. е. положим ь J= j (у- if Ω (у-£) dt, (6-95) *0 где Ω — симметричная положительно определенная весовая матрица. Во-вторых, предположим, что топология модели в точности соответствует топологии физической системы в отсутствие шума. В общем случае это не так, поскольку мы аппроксимировали систему высокого порядка, возможно распределенную, моделью невысокого порядка. Однако выражение, которое мы получим, пользуясь этим предположением, дает ценную практическую информацию относительно эффектов, производимых шумом, даже если модель и система не имеют одинаковой топологии. Второе предположение эквивалентно допущению о том, что модель в точности описывает систему в отсутствие шума в точке минимума /: y* = z. (6.96) Как и прежде, разложим критерий качества / в отсутствие ошибки относительно /*, добавляя шум и небольшое изменение β*. Пренебрегая членами более высокого порядка, чем линейные члены в разложении у, находим у = уЧ-ЛЛр, (6.97) где А—матрица, £/-й элемент которой равен Г dyi dxh ί Vdxh д§; У i = z + n. (6.98) Имеем ь J=) (y-zfQ(y-i)dt. ίο
146 Глава 6 Используя (6.97) и (6.98), получаем ь J=\ (γ* + ΑΔβ — ζ—η)ΓΩ(γ* + 4Δβ — ζ—η) Λ. Ό С помощью (6,96) находим /=J (ΑΔβ—η)ΓΩ(ΛΔβ—η) Λ. (6-99) Необходимые условия минимума / сводятся к равенству нулю градиента по Δβ: Ρ Удр/= ] 2ΑΤΩ (ΑΔβ—η) Λ = 0. (6.100) ίο Правило дифференцирования (6.100) легко проверить, используя обозначение Эйнштейна для сумм. Читателю предлагается проделать это в качестве упражнения. Из уравнения (6.100) имеем следующее соотношение, которое удовлетворяется при Δβ: [j 4Γ04Λ]Δβ = [| 4rQndi]. ίο ίο tf _ tf Δβ=[ί ΑΓΩΑ^1 i Г f 4rQndi]. (6.101) ίο ίο Ковариационная функция ошибки в оценке β имеет вид tf tf tf £Δ{βΔβΓ} = £ {[ j ΑτΩΑάύ] 1 [j ATQndt\ [j η^ΩΛώ] χ ίο ίο Ό х[( лгол^] 'J =£:{[( лгйлл] х ίο ίο χ [ j j AT(ti) Ω ft) η (ij) Пг (ί2) Ω (ί2) Л (fa) Λ,][ j ЛгОД л] '} . (6.102) ίο ίο ίο Чтобы упростить (6.102), предположим, что шум —белый со следующей ковариационной матрицей: Ε [η (ij) ητ (ί2)] = 2пШ {tl — u2), (6.103) где I — тождественная матрица.
Оценивание параметров и состояний нелинейных систем 147 Подстановка (6.103) в (6.102) дает Ε [ΔβΔβΓ] = 2лК [Г ΑΤΩΑ Л J * Г ( ΑΤΩΩΑ dt~\ Г \ ΑΤΩΑ dt] '. to i<i io (6.104) Наконец, предположим, что весовая матрица Ω равна тождественной матрице I. Тогда ATAdt\\ ATAdt £[ΔβΔβΓ] = 2π# [f ATAdt~\ i [f ATAdt\ [f Ό Ό 'ο jE [ΔβΔβΓ] = 2rtff [ j ЛГЛ л] . 1-1 (6.105) Уравнение (6.105) позволяет очень просто вычислить ковариационную матрицу оценок параметров. Результат, эквивалентный уравнению (6.105), является стандартным для линейных приближений по методу наименьших квадратов [3]. Задачи 1. Докажите формулу квадратической интерполяции (6.48). Метод: а. Найдите такие коэффициенты к1г к2 и ks, чтобы квадра- тическая функция у= kix2 + к2х + к3 проходила через точки (0, /j), (δ/2, J2) и (δ, Js). б. Найдите минимум квадратической ч. функции, проходящей через заданные точки. 2. Даны следующие последовательности для простой нелинейной системы: 0 1 2 3 4 5 6 7 8 9 10 0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 Выход системы без шумов (ж) 1,000 0,667 0,500 0,400 0,333 0,288 0,250 0,222 0,200 0,182 0,167 Выход с шумами (х) 1,115 0,592 0,575 0,470 0,151 0,191 0,201 0,147 0,123 0,288 0,149
148 Глава 6 Предположим, что эта информация получена для системы, динамическое поведение которой можно описать дифференциальным уравнением вида а. Постройте выход системы без шумов и с шумами. б. Для оценивания производных по времени от заданных функций используйте формулу конечных разностей {например, первый член в уравнении (3.7)]. в. Для определения значения ρ в системе без шумов и в системе с шумами используйте дифференциальную аппроксимацию. - Метод: 9 а. Пусть /=Σ Μ0 + Ρ*2(ί)]2· б. Выведите формулу наименьших квадратов для 9 -2*»(i)*"(i) в. Найдите ρ для данных без шумов и с шумами. При решении этой задачи можно пользоваться логарифмической линейкой, карандашом и бумагой. г. Проинтегрируйте уравнения состояний с полученными значениями р. 3. В разд. 6.8 было показано, что для уменьшения числа уравнений, используемых при вычислении градиента критерия ошибки по параметрам, можно ввести вспомогательную переменную. Проделайте аналогичный вывод для описанной ниже дискретной системы: уравнения состояний x(7 + l) = f[x(7), u(7), p, t], χ (0) = се, t = I χ Τ (секунды), Τ—время установления; уравнения выхода модели у(7) = у[х(7), и(7)]; наблюдаемый выход системы ъ(1), 7 = 1, ..., Ν;
Оценивание параметров и состояний нелинейных систем 149 критерий ошибки N J = ^Н [у(!),*(!)]. Метод: а. Покажите, что 8J N dpi £J дуь ч ' дх] ч ' dpi v '" dxj 1=1 где (dxj/dpi) (I) удовлетворяет следующему уравнению чувствительности: fie+D=!£(')-&(')■ dpi дР1 #Ю "Ч- If <°> = 0. б. Пусть -£=2 λ,(/)■$[■(/). 1=1 в. Подставьте dfjldpt из дискретного уравнения чувствительности. г. Прибавляя и вычитая соответствующие члены в суммах, выведите выражение, эквивалентное уравнению (6.68). д. Выведите дискретные сопряженные уравнения и соответствующие краевые условия. 4. Рассмотрим квадратическую поверхность ошибки и запишем разложение в степенной ряд относительно точки β°, оставив члены второго порядка* J (β« + Ь) = J (β°) + brVp/ +1> bT/ppb. /ββ есть матрица кривизны, причем предполагается, что она положительно определенная. Запишем кривизну /рр в диагональной форме: /ββ = ΦΛΦΓ, где Φ — матрица собственных векторов; Л — диагональная матрица положительных собственных значений. Покажите, что преобразование Y = Sb, где УК о s = л1/2фт = L о VK. фг,
150 Глава 6 переводит линии уровня поверхности в концентрические гиперсферы. Покажите также, что в пространстве γ метод наискорейшего спуска приводит к минимуму за один шаг. 5. Вращающееся твердое тело подчиняется следующим уравнениям состояний: Xi = (C/A—B/A) Х2Х3— (Ε/Α) χι, хг=(А/В—С/В)х3х1—(Е/В)х2, х3=(В/С—А/С) XiXZ—(E/C) x3, где хи х2, х3 — переменные состояний, соответствующие угловым скоростям относительно трех главных осей тела; А, В и С — главные моменты инерции; Ε — член, характеризующий затухание. а. Покажите, что параметры А, В, С и Ε не независимы в совокупности, полагая А = 1. 6. Полагая 5 = 2, С = 3 и£ = 0,6, проинтегрируйте численно эти уравнения на интервале 10 с (при шаге 0,1 с) и начальных условиях Х\ (0) = αϊ = 1, х2 (0) = а2 = 1 и х2 (0) = а2 =0. Обозначим это решение ζ (ύ) 0 < t <. 10. в. Рассмотрим задачу идентификации этой системы по следующему критерию ошибки; ю з 0 1=1 где χι — выходы модели; zt — значение функции, как и в (б). г. Выведите уравнения чувствительности первого порядка для параметра В и начального состояния αι. д. Выведите уравнения чувствительности второго порядка для параметра В и начального состояния αι. е. Выведите сопряженные уравнения для этой системы. ж. Запишите выражение для дЛдВ через сопряженные переменные и для дЛдац через коэффициенты чувствительности. Найдите дЛдВ и dJ/dai при В = 5 и αϊ = 1,5. з. Запишите формулы для вычисления д2ЛдВ2, d2JldBda.i и д2Лда2 через коэффициенты чувствительности первого порядка и через сопряженные переменные. Оцените эти выражения при В = 5, αϊ = 1,5. (Решение см. в работе Гудвина [7, 8].) б. Для вращающегося твердого тела, описанного в предыдущей задаче, зафиксируем Ε = 0,5 и допустим изменения В ж С. Используйте данные ζ (t), вычисленные в п. 46. Предположим, что начальные значения параметров модели отличаются от 5 = 2, С = 3 (например, В = 5, С = 5). Используйте метод наискорейшего спуска и метод сопряженных градиентов для минимизации /, определенного в п. 4в. 7. Повторите предыдущую задачу для процедуры Гаусса — Ньютона.
Литература 151 8. Рассмотрим простую систему первого порядка χ = — рх, χ (0) = 1. а. Покажите, что t*e-pt. б. Рассмотрим задачу идентификации этой простой системы на интервале 0 <С t fC Τ. Допустим, что идентификация производится из условия минимума г j\{x—zfdt, где ζ {t) — некоторые данные с шумами на интервале 0 < t < 71; £ (ί) — выход модели. Пусть задано, что шум — белый с импульсной автокорреляционной функцией, имеющей площадь 2пК. в. Выведите выражение для кривизны 92//9р2. Укажите, почему членом, зависящим от д2х1др2, можно пренебречь в точке минимума, если топология модели соответствует системе без шумов и уровень шумов низкий. г. Идентификация системы с шумами дает значение ρ = 1 в точке минимума /. Используйте уравнение (6.105) для получения зависимости дисперсии- ошибки параметра ρ от автокорреляции шума и периода наблюдения Т. д. Покажите, что дисперсия ошибки ρ не может быть сделана меньше, чем площадь под автокорреляционной функцией ошибки, умноженная на 4. ЛИТЕРАТУРА 1. Bellman R., Kagwada Η., К а 1 a b a R., Quasilinearisation, system identification and prediction, Rand Corporation Research Memorandum RM-3812-PR, August 1963. 2. Bellman R., К a 1 a b a R., S r i d h a r R., Adaptive control via qua- silinearization and differential approximation, Rand Corporation Research Memorandum RM-3928-PR, November 1963. 3. В r i g g s P. A.N., Clarke D. W., Η a m m о n.d P. H., Introduction to statistical identification methods in control systems, Control, 233 (March 1968). 4. Brown R. F., G о о d win G. C, Hybrid method of state and parameter estimation for use in gradient techniques, Electronics Letters, 3, № 12 (December 1967). 5. Crockett J. В., Chernoff H., Gradient methods of maximization, Pacific Journal of Mathematics, 5, 33 (1955). 6. Фаддеева В. Η., Вычислительные методы линейной алгебры, ГИТТЛ, 1950. дх ~др др*
152 Глава 6 7. Goodwin G. С, Estimation of process parameters and states, IFAC Symposium, Sydney, August 1968. 8. Goodwin G. C, A simplified method for the determination of the curvature of an error index with respect to parameters and initial states, International Journal of Control, 8, № 3, 253 (1968). 9. Goodwin G. C, The Application of curvature methods to parameter and state estimation, Proc. IEE, 116, №. 6, 1107 (1969). 10. Greenstadt J., On the relative efficiencies of gradient methods, Mathematics of Computation, 21, № 99, 360 (July 1967). 11. Η a r r i s G. H., Lapidus L., The identification of nonlinear systems, Ind. Eng. Chem., 59, № 6, 67 (June 1967). 12. Η a r 11 e у H. 0., The modified Gauss—Newton method for the fitting of nonlinear regression functions by least squares, Technometrics, 3, № 2, 269 (May 1961). 13. Η e s t e η e s M. R., S t i e f e 1 E., Methods of conjugate gradients for solving linear systems, J. Res. Nat. Bureau Stand., 49, № 6, 409 (December 1952). 14. К e 1 1 e у Η. J., Methods of gradients, in «Optimization Techniques with Applications to Aerospace Systems», ed. by G. Leitmann, Academic Press, N.Y., 1962, Chap. 6. 15. Meissinger H. F., The use of parameter influence coefficients in computer analysis of dynamic systems, Proceedings of the Western Joint Computer Conference, p. 181, May 1960. 16. W i e η e r N., Nonlinear problems in random theory, Technology Press of MIT, Cambridge, Mass., Wiley, N.Y., 1958; русский перевод: Винер Η·, Нелинейные задачи в теории случайных процессов, ИЛ, 1961. 17. Wilkinson J. H., The. algebraic eigenvalue problem, Clarendon Press, Oxford, 1965; русский перевод: Уилкинсон Дж. X., Алгебраическая проблема собственных значений, изд-во «Наука», 1970. Дополнительная литература AllisonJ. S., On the comparison of two methods of of f-line parameter identification, J. Math. Anal. Appltc. (USA), 18, № 2, 229 (May 1967). Cuenod M., Sage A. P., Comparison of some methods used for process identification, IFAC Symposium, Prague, June 1967. Eykhoff P., Van der GrintenP. Μ. Ε.Μ., KwakernaakH., Veltman B. P. Th., System modelling and identification, Survey, Third Congress, IFAC, London, June 1966. Fletcher R., Reeves СМ., Functional minimization by conjugate gradients, The Computer Journal, 7, № 2 (July 1964). Giese C., McGhee R. В., Estimation of nonlinear system states and parameters by regression methods, JACC, Rensselaer, Poly. Inst., p*. 46, June 1965. Lavi Α., Strauss J. C, Parameter identification in continuous dynamic systems, IEEE International Convention Record, 13, Part 6, 49 (1965). Sage A. P., Eisenberg B. R., Experiments in nonlinear and nonstatio- nary system identification via quasilinearization and differential approximation, 7th JACC, Seattle, 1966, p. 522.
Глава 7 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ Широкое развитие теории оптимального управления в последнее время в значительной степени стимулировалось требованиями космических систем и появлением мощных вычислительных машин. Опубликовано много превосходных обзоров по этому предмету (читатель может начать с работ Атенса [1] и Брайсона [4]). Со многими разделами теории, которые появились на основе исследовательских разработок, можно познакомиться, например, по таким обстоятельным работам, как книги Понтрягина и др. [8], Беллмана [3], Мерриэма [37], Атенса и Фальба [2] и Сейджа [10]. Цель настоящей главы — познакомить с понятиями теории оптимального управления, лежащими в основе проектирования оптимальных систем управления. Теория оптимального управления занимается в основном предсказанием последовательности управления или управлений функций непрерывного времени, которые при подаче их на объект на заданном интервале времени в будущем вынудят его работать в некотором смысле оптимально. Ясно, что полезные применения такой теории зависят от точного знания состояния объекта в начале интервала и динамических характеристик объекта на этом интервале. При рассмотрении в этой главе предполагается, что начальное состояние и уравнения состояний заданы точно, и внимание может быть сосредоточено на развитии методов определения оптимальных функций управления. Первым шагом является построение некоторого критерия ошибки, измеряющего качество работы объекта при подаче на него выбранной функции управления. С этой целью мы используем скалярную величину, полученную интегрированием по интервалу управления некоторой меры ошибки, которая сама является функцией переменных состояния и управления. Простым примером такого критерия ошибки является среднеквадратическая ошибка, хотя будут использованы и более сложные выражения. Затем мы используем идеи вариационного исчисления для вывода необходимых условий, которым должны удовлетворять экстремали. По определению экстремали представляют собой зависящие от времени функции управления и состояний, соответствующие экстремуму (в нашем случае всегда минимуму) критерия ошибки. Эти условия имеют вид системы дифференциальных уравнений с
154 Глава 7 определенными граничными свойствами, часто называемыми уравнениями Эйлера — Лагранжа, или уравнениями косостояний. Мы выразим те же условия с помощью уравнений Понтрягина и покажем, что в распространенном и важном частном случае, когда амплитуда управления ограничена, в качестве необходимого условия можно с успехом применять принцип минимума. Необходимые условия получаются также и при использовании процедуры динамического программирования в форме дифференциальных уравнений в частных производных Гамильтона — Якоби. Решения этих уравнений могут быть получены для ограниченного класса уравнений состояний и критериев ошибки. Получена также несколько менее общая система условий с помощью матричного дифференциального уравнения Риккати. При правильном выборе критерия ошибки для конкретной системы управления имеются только один экстремум и одно соответствующее множество экстремалей, представляющие интерес. В таких случаях вариационные методы динамического программирования всегда приводят к тому же результату, и во многих отношениях эти подходы равноценны. В настоящей главе будет показана тесная связь между этими подходами. 7.1. Критерий ошибки С самого начала проведем четкое различие между понятиями меры ошибки и критерия ошибки, проиллюстрировав это различие на простом, но важном примере. На фиг, 7.1, А показана блок-схема объекта с одним входом и· одним выходом, управляющее воздействие которой и задается управляющим устройством, сравнивающим действительный выход χ с желаемым выходом xd. Определим для этого примера меру ошибки Η как разность между действительным и желаемым выходами: H[xd{t), x{t)] = xd{t) — x{t). (7.1) Тогда обычное управляющее устройство с обратной связью вырабатывает управление, являющееся функцией меры ошибки: и {£) = и{Н [а!1 (0, х (01} = и [sd {t) — x {£)]. (7.2) Заметим, в частности, что мгновенное значение управления и {ή является функцией мгновенных значений выхода χ (t) и выхода χά (t). Как показано на фиг. 7.1, Б, обычное управляющее устройство не учитывает явно возможных будущих рассогласований между действительным и желаемым выходами. В противоположность этому оптимальные управляющие устройства учитывают рассогласование между предсказанными значениями действительного выхода и желаемыми выходами в будущем. Они предсказывают функцию управления и (τ) (t ^ τ ^ t -j- T) на всем
Оптимальное управление 155 Исполнительное устройство Р5ъект\- ПреоораэоВатеМ—»- Улра8ляющий Вход и Управляющее устройство Желаемый Выход χ ^ ДейстВитель ный Выход χ *··—.lxd(t) Желаемый Выход ^~—4 χ (t) Действительный Выход 1 _—: ^ время и (i) УпраВляющий Вход х^(Г)Желаемый Выход В будущем *(ΐ) Предсказанный действительный Выход , г t*T Время и (ΐ) Предсказанный упраВпяющий Вход t r t*T Время Интервал управления В Фиг. 7.1. Блок-схема объекта и управляющего устройства (А); управление как функция мгновенного значения ошибки (В); оптимальное управление как функция интегрированных предсказанных ошибок (В). интервале управления (t, t + Τ) в будущем. Для того чтобы такое предсказанное управление было допустимым, требуется скалярная мера предсказанных ошибок. Для этой цели удобнее определить критерий ошибки, равный интегралу от меры ошибки на интервале управления в будущем: t+T в = \ H[xd{%), χ{τ)]άτ. (7.3) t Во многих практических случаях применяется квадрэтическая мера ошибки, приписывающая положительные веса и положитель-
■156 Глава 7 ным и отрицательным разностям между предсказанными действительными выходами и будущими желаемыми выходами. При этом мера ошибки определяется как Я [xd (τ), χ (τ)] = [xd (τ)-χ (τ)]2, (7.4) а критерий ошибки имеет вид t+v е = \ [xd{x) — x(%)fdx. (7.5) t Мы видим, что существенное различие между обычным управляющим устройством, стремящимся минимизировать меру ошибки, и оптимальным управляющим устройством, минимизирующим критерий ошибки, заключается в том, что последний вычисляет не только управляющий вход и (t) в настоящем, но и предсказывает управляющий вход и (τ) (t ^τ ^ t + Τ) в будущем. Это различие можно видеть на фиг. 7.1, В, где будущее значение управляющего входа показано в функции от предсказанного действительного выхода и желаемого выхода в будущем: u{x) = u[xd{%),x{%)}, t<%<t + T. (7.6) В дальнейшем исследовании оптимального управления нас особенно будут интересовать критерии ошибки в интегральной форме (7.3). По этой причине будет рассмотрено подробнее, каким образом· можно построить функции меры ошибки для достижения требуемых характеристик системы. В частности, мы исследуем квадрати- ческую, взвешенную во времени и взвешенную по амплитуде меры ошибки. Квадратическая мера ошибки Если рассмотреть некоторый достаточно широкий класс используемых в настоящее время систем управления, то обнаружится перевес так называемых систем регулирования, цель которых — поддерживать действительный выход объекта как можно ближе к постоянному желаемому выходу. В настоящее время практически во всех этих системах используются системы регулирования с обратной связью, хотя в связи с успехами, достигнутыми в настоящее время в современной теории управления, следует ожидать, что в будущем принципы оптимального управления найдут более широкое применение. В действительности, как будет показано ниже в этой главе, теория оптимального управления представляет собой вполне удовлетворительную основу для построения систем с многими входами и многими выходами, в которых управляющие входы в данный момент времени являются линейными функциями от действительных выходов в тот же момент времени u(i) = u[x(i)]! (7.7)
Оптимальное управление 157 Однако мы забегаем вперед, и нам надо вернуться к рассмотрению требований, предъявляемых к мере ошибки для оптимальной системы регулирования. Очевидно, что квадрэтическая мера ошибки общего вида HlXd,x(t), i] = [Xd-x(0]rQi(0[Xd-x(0] (7.8) (где Xd — ?г-вектор постоянных желаемых выходов; χ (t) — «-вектор действительных выходов; Qi (t) — диагональная η Χ «-матрица с положительными меняющимися во времени элементами, учитывающая различные веса различных выходов (эта матрица в общем случае положительно определенная); Τ — верхний индекс, обозначающий операцию транспонирования) удовлетворяет основным требованиям, предъявляемым к системе регулирования. Управление, минимизирующее соответствующий критерий ошибки ί+Γ е= J [Xd-x(T)]TQl(T)[Xd-x(T)]dT, (7.9) t стремится поддерживать на малом уровне разность, положительную или отрицательную, между действительным и желаемым выходами системы на интервале t, t -\- Т. Вид выражения для меры ошибки в (7.8) можно упростить, сделав подстановку i(t) = \d — x(t) (7.10) и положив #[i(0,f] = ir(9Qi(0i(9· (7-И) Во многих практических ситуациях MOffleT оказаться удобнее измерять величины ошибки χ и основывать синтез управляющего устройства на использовании этих переменных. Столь же важными, хотя, по-видимому, менее часто встречающимися, чем системы регулирования, являются следящие системы, в которых желаемые входы не постоянны, а непрерывно меняются во времени. Если бы xd (t) были изменяющимися во времени желаемыми выходами объекта, то соответствующая квадратическая мера ошибки была бы равна H[xd(t),x(t), i] = [xd(i)-x(0]rQi(0[xd(0-xW]. (7.12) 5До сих пор рассматривались только выходные ошибки объекта и молчаливо предполагалось, что можно найти управляющие входы, которые минимизируют соответствующие квадр этические критерии ошибки. Однако теперь стэновится ясно, что для минимизэ- ции тэких критериев ошибки без учетэ других сообрэжений могут потребовэться бесконечно большие упрэвления, что приведет к ситуэции, не имеющей прэктического вмыслэ. Хотя этэ потенци- эльнэя трудность может быть преодоленэ несколькими способами,
158 Глава 7 в этом разделе внимание будет сосредоточено лишь на одном из них, когда член с квадратом управления вводится в меру ошибки следующим образом: Η [xd(t), χ (t), и (t), t] = [xd (t)-x (f)]rQi (0 X, x [x« (0-x (01 + ur (i) Q2 (0 u (0, (7.13) где u — ίη-вектор управляющих входов; Q2 — диагональная τη Χ т- матрица с положительными элементами, зависящими от времени. Приписывая в этом выражении достаточный вес членам, содержащим управления, можно удерживать в практически допустимых пределах соответствующий критерий ошибки, хотя и за счет увеличения выходной ошибки. Взвешивание ошибки во времени В системах ругулирования, цель которых — поддерживать действительный выход как можно ближе к постоянному желаемому выходу, элементы весовых матриц Qi и Q2 имеет смысл выбирать постоянными, поскольку ошибки в различные моменты времени одинаково нежелательны. Кроме того, для систем слежения некоторых типов, например для системы слежения за целью антенной радара, когда длительность интервала управления очень велика по сравнению с временем установления в объекте, имеет смысл выбирать постоянный вес. Тем не менее для систем управления, в которых последствия ошибок в один момент времени больше, чем в другой, например для систем наведения ракеты, имеет смысл придавать некоторым ошибкам больший вес на интервале управления. Выбор весовых коэффициентов ошибки в виде функций времени совершенно произволен и остается на усмотрение разработчика систем. Один возможный случай схематически показан на фиг. 7.2. Здесь предполагается, что в идеальном случае самолет должен снижаться по траектории xd (t), проходя через точку xd (to) = х% в момент t0 и производя посадку в точке xd (ti) = 0 в момент t\. Вследствие разброса начальной точки самолет появляется на высоте χ (t0) = хо в момент t0, и им необходимо управлять соответствующим образом, чтобы посадка произошла при χ (ti) = 0 в момент £4. На первый взгляд может показаться, что, поскольку критическим участком посадки' является приземление, имеет смысл учитывать ошибку по высоте с ненулевым весом в мере ошибки только на последнем участке интервала управления, как показано на графике [функция φ (t)]. Однако оптимальное управление, основанное только на этих соображениях, не учитывает ошибок по высоте на предыдущих участках этого интервала и может привести к траекториям самолета, близким к х2 (t). Такая возможность делается очевидной при моделировании на стадии конструирования системы. Избежать
Оптимальное управление 159 ее можно путем подбора весового коэффициента ошибки, подобного q1 (£), который учитывает ошибки с некоторым весом как на начальном участке траектории, так и на остальных ее участках. Здесь следует отметить предельный частный случай временного взвешивания меры ошибки, который понадобится позднее в некоторых теоретических построениях. Если бы система была такой, что Высота х, полета ЧЫ-О Весомой iqxpuuuet ошибки коэц>фициент им Фиг. 7.2. Сравнение эффектов, возникающих при использовании весовых коэффициентов ошибки двух видов в задаче об оптимальной траектории самолета, заходящего на посадку. ошибка имела бы конечное значение, то весовой коэффициент надо было бы выбрать в виде импульсной функциЪ, имеющей ненулевое значение в момент tt, т. е. Q4 (t) = Q46 (t — ti). Соответствующий критерий ошибки равен V е = \ {[xd (0-х (t)f Qi (0 [xd (t) -χ (01 + цТ (0 Q2 (0 »(0} *, где Qi (0 = и, следовательно, ?и Чпп_ 6 (ί-—*ΐ) = Ql6 (ί — ίΐ), ·= [xd (ίθ-χ (h)f Qi [xd (ω-χ (Ί)] + (цТ (0 Q2 (0 »(0 dt. to
160 Глава 7 В этом случае критерий ошибки представляет собой меру конечной ошибки и управляющего воздействия на интервале. Следовательно, управляющее устройство будет минимизировать конечную ошибку при конечной амплитуде управляющих входов. Другой важный класс систем, хотя, возможно, и не относящийся точно к категории взвешенных во времени критериев ошибки, — это оптимальные по быстродействию системы управления, цель которых— перевести объект из одного заданного состояния в другое за минимальное время. Если мера ошибки выбрана равной единице, т. е. Я = 1, то Ι«ι е= I 1 dt = ti — tQ. Отсюда следует, что управлением, минимизирующим критерий ошибки, будет время перехода. Такие оптимальные управления рассматриваются' ниже в этой главе. Амплитудное взвешивание ошибки До сих пор рассматривались квадратические меры ошибки, в которые входили квадраты ошибки и других величин. Как известно, квадратические меры ошибки обладают удобным свойством облегчать последующий математический анализ и имеют практическое преимущество, поскольку приписывают большим ошибкам больший вес, чем малым ошибкам. Однако, как и следовало ожидать, имеются важные случаи, когда требуются другие формы амплитудного взвешивания. Имея это в виду, начнем с рассмотрения систем с минимальным расходом топлива и систем с ограниченной амплитудой состояния. В некотором классе систем, типичными представителями которых являются системы управления положениями спутников, где движущий момент создается за счет выпуска сжатого газа, очень важно, чтобы при маневре требуемое движение достигалось прд минимальном расходе газообразного топлива. Если амплитуда управляющей силы пропорциональна скорости истечения газа, неотрицательной по своей природе, то соответствующая мера ошибки равна H = \u{t)\ (7.14) и соответствующий критерий ошибки имеет вид i+T е= \ \и(т)\<1т. (7.15) i Хотя управление и (τ) (ί ^ τ ^ t + Τ), минимизирующее критерий ошибки (7.15), очевидно, минимизирует общий расход топлива на интервале управления [t, t-\-T], нет гарантии, что амплитуда
Оптимальное управление 161 такого управления не выйдет за пределы значений, допустимых для конкретной физической системы. В самом деле, теория оптимального управления утверждает, что управления, минимизирующие критерии ошибки типа модуля, имеют вид импульсных функций, которые не могут быть реализованы ни в одной практической системе. Следовательно, в системах с минимальным расходом топлива, использующих в качестве меры ошибки модуль управления, необходимо предпринимать определенные дополнительные шаги для реализации практической системы. Обычно такими шагами может быть либо включение штрафных функций в меру ошибки, либо использование принципа минимума — процедуры, описанной ниже в этой главе. Штрафные функции — это составляющие меры ошибки, часто имеющие вид / и \2М ι χ \ш М или Ы) - Фиг. 7.3. Сравнение весовых функций ошибки (модуль, квадрат, штрафная функция), нормированных при i7 = l. где U и X обычно интерпретируются как максимально допустимые амплитуды и и χ; Μ—большое положительное целое число. Штрафные функции, показанные на фиг. 7.3, вносят незначительный вклад в критерий ошибки, когда и <С U и χ <С X, но в противном случае их вклад становится очень большим. Когда Μ достаточно велико, эти члены приводят к тому же результату, что и ограничение переменных диапазонами —U<u<U и —Х<х<Х. Следует отметить, что при введении штрафных функций увеличивается объем вычислений, необходимых для нахождения оптимальных функций управления. Штрафных функций от управления можно избежать, если использовать принцип минимума. Однако обычно этого не делают, так как штрафные функции нужны для решения задач с ограниченными амплитудными состояниями. Хотя это и не связано непосредственно с критериями ошибки, следует отметить также очень большую разницу между ограничениями, налагаемыми проектировщиком на множество переменных состояний из соображений надежности или каких-либо других соображений, и ограничениями типа насыщения, возникающими в объек' те вследствие физического ограничения. В то время как наложение ограничения вводятся в задачу управления посредством штрафных функций, ограничения типа насыщения представляют собой нелинейность в уравнениях состояний.
162 Глава 7 7.2. Необходимые условия минимума Задачей оптимального управления является предсказание управления в виде функции времени. Такая функция, приложенная к объекту, заставит его работать на интервале управления таким образом, чтобы критерий ошибки достигал своего наименьшего возможного значения. Чтобы выбрать эту оптимальную управляющую функцию из всех возможных функций, необходимо знать состояние объекта в начале интервала управления и динамические характеристики объекта на этом периоде. Если же они известны неточно, то может быть найдено только приближенное управление. Очень удобно' было бы вывести явное выражение для оптимальной управляющей функции, исходя из информации о начальном состоянии, уравнениях состояний объекта и функции критерия ошибки. К сожалению, это невозможно, и мы вынуждены обходиться частным решением в виде некоторого множества необходимых условий экстремума критерия ошибки. В частном случае, когда уравнения состояний линейные и мера ошибки квадратическая, численное решение можно получить непосредственно путем численного интегрирования некоторой системы дифференциальных уравнений (уравнений Риккати), как будет показано ниже в этой главе. Однако в общем случае необходимо на основании некоторой систематической процедуры проб и ошибок найти экстремальное состояние и управляющие функции. Такие методы рассматриваются в гл. 8. С математической точки зрения задача оптимального управле^ ния представляет собой задачу минимизации функционала, рассматриваемую в вариационном исчислении. Она сходна с обычной задачей минимизации в анализе, когда необходимые условия, которым должны удовлетворять независимые переменные скалярной функции, определяются приравниванием нулю всех частных производных функции по своим аргументам. При минимизации функционала получается не система алгебраических уравнений, которой удовлетворяют независимые переменные в точке минимума скалярной функции, а система дифференциальных уравнений, которым на интервале управления удовлетворяют управления и состояния — функции времени, соответствующие экстремуму критерия ошибки. Кроме того, процедура минимизации функционала усложняется из-за необходимости удовлетворять ограничениям, налагаемым на переменные управлений и состояний. Эти ограничения связаны с динамикой объекта и задаются уравнениями состояний. Ограничения в виде уравнений состояний можно учесть в задаче минимизации функционала, используя математический метод множителей Лагранжа. Поскольку это понятие иногда трудно усвоить при первом знакомстве, мы вводим его здесь, рассматривая вначале обычную минимизацию с ограничениями, когда множители Лагранжа
Оптимальное управление 163 являются константами. Затем рассматривается минимизация функционалов с ограничениями, и тогда множители Лагранжа являются функциями времени. Обычная минимизация с ограничениями Обычная задача минимизации заключается в отыскании множества значений независимых переменных скалярной функции, при - Т(Лв) = Силремум f(n) Максимум У(х) (локальный максимум) \ 1 1 »- - /(х„)=Имрим//м/(х) х€Х Фиг. 7.4. Функция / (х) = х3 — 5ж для множества X = [х: с точками инфимума, минимума и супремума. -3 < χ < 2] которых функция достигает своего минимального значения. Например, если задана функция / (х) одной переменной х, определенной на множестве X — {х : — 3 < я < 2 }, f(x) = x3 — Ъх, то обычная 'задача минимизации заключается в отыскании значений х, минимизирующих / (х). Сразу же возникает вопрос об определении минимума, потому что, как видно из фиг. 7.4, имеется различна между локальным минимумом и инфимумом rain f(x) χζΧ inif(x). χζΧ Оба типа минимума важны в теории оптимального управления, но если это не оговорено особо, рассматриваемые в настоящей главе локальные минимумы будут называться просто минимумами. Экстремум (максимум или минимум в стационарной точке) функции / (х) можно определить как значение функции в точке χ = х*г
164 Глава 7 в которой член первого порядка в ряду Тейлора / (х* + x) = f* + хП + -i- χψχχ + 0 (а?) (7.16) равен нулю независимо от значения х, т. е. п=о, где df(x) (7.17) /ΪΔ- х=х* х= дх Уравнение (7.17) дает необходимое условие минимума / (х). Достаточным условием является положительность члена второго порядка в разложении Тейлора при χ = χ*, т. е. /L>0, (7.18) где ПЛ дЧ (х) дх* х=х* Используя аналогичные рассуждения в случае, когда / (х) является скалярной функцией множества элементов {χι, . . ., xnj вектора χ, находим, что необходимым условием экстремума / (х) является векторное равенство Гх = 0, (7.19) где /ΪΔ — Γβ/(χ) η dxi df(x) L дхп J х=х* χ*— точка экстремума. Уравнение (7.19) представляет собой необходимое условие минимума /(х). Достаточным условием является положительная определенность матрицы /£х, где /χχΔ дЧ (х) dxi dxi дЧУ) дхп dxi дх\дхп дЧ(х) дхп dxnJx=x* (7.20) Необходимое условие минимума / (х), определяемое равенством (7.19), подразумевает, что все компоненты χ можно выбрать независимо. Если бы на эти компоненты были наложены ограничения, то учет их привел бы к необходимости видоизменения соответствующих необходимых условий. С этой целью предположим, что ограничения выражаются векторной функцией g(x) = 0. (7.21)
Оптимальное управление 165 Экстремум / (х) при ограничениях (7.21) можно определить как значение функций в точке χ в разложении Тейлора х*, в которой член первого порядка /(х* + х)=/* + /хтх + 0(х2) равен нулю независимо от значения χ при ограничениях g (χ* + х) = g* + gfx + 0 (χ*) = О, (7.22) (7.23) где ЙА dgi дх\ dgi dgm dxi dgm Из 7.22 следует и из (7.23) и (7.21) _ дхп '' ' дхп Jx=x* (7.24) *1— η · л gixx = 0, г = 1, т. (7.25) Уравнения (7.24) и (7.25) можно объединить в одно уравнение *т (/Γ + λ^χ + Определяя + λ^„τχ) χ = 0. (7.26) Wn_ (7.26) можно записать в виде (/χΤ + λτ§χ)χ = 0. (7.27) Для того чтобы условие (7.27) не зависело от х, значение λ должно быть выбрано так, чтобы ff ~%Tg* = 0. (7.28) Таким образом, при соответствующем выборе коэффициентов λι, · . ., hm уравнение (7.28) представляет собой необходимое условие минимума / (х) в точке х* с ограничениями g (χ) = 0. Важно знать, что если определена новая функция G(x, λ)Δ/(χ) + λτ§(χ), (7.29) где λ — т-вектор неопределенных коэффициентов, то необходимым условием обычного безусловного экстремума G является обращение
-166 Глава 7 в нуль частных производных, а именно Gx = /x + g^ = 0 (7.-30) и Gx=g = 0. (7.31) Следует отметить, что с помощью (7.29) мы за один шаг получили необходимое условие (7.30), которое, как легко видеть, совпадает с уравнением (7.28), полученным выше довольно сложным путем. Уравнение (7.31) представляет собой исходное уравнение ограничений. Использование вектора коэффициентов λ в (7.29) представляет собой общий метод введения ограничений в задаче минимизации. Компоненты этого вектора обычно называют множителями Лагранжа. Пример 1 В качестве примера использования множителей Лагранжа определим минимум функции / (х) = / (ж1» х2> %з) = х&г + #2^3 (7.32) с ограничениями g(*) = (7.33) _gz(xu я2, ^з)J "" L^2 + ^з + 2 Из (7.29), (7.32) и (7.33) следует G{x, λ) = χιχζ + χίχ3 + λ1(Χι + χζ + ί) + λ2(χ2 + χΆ + 2). (7.34) Взяв частные производные так же, как и в (7.30) и (7.31), получим GXI = хг 4- λι = 0, Ϊ Gti = Χι + xs + h + ^2 = 0, GX3 = x2 + h. =0, GXl = Xi + x2 + l =0, G^ = xz + x3+2 =0. (7.35) Решение этих уравнений дает экстремум функции /(х) в (7.32): *ι = — V«, " ж2=— %, Хз'~ — I ii λί=3/4, λ2=3/4· (7.36) Читателю предоставляется возможность определить, является ли это решение максимумом, минимумом или стационарной точкой функции.
Оптимальное управление 167 Минимизация функционала с ограничениями Рассмотрев обычную минимизацию с ограничениями, мы видим, какие преимущества дает использование множителей Лагранжа. Исследуем теперь аналогичную процедуру минимизации функционала с ограничениями. Рассмотрим, в частности, задачу оптимального управления, для которой мы хотим установить необходимые условия, налагаемые на экстремали u* (ί) и х* (t) на замкнутом интервале управления [ίο, h]. Пусть уравнения состояний имеют вид x(i) = f[x(i), u(i),f], (7.37) где χ — и-вектор состояний; и — т-вектор управлений; f — «-векторная функция, которая может быть нелинейной и зависящей от времени, и по определению χ(ί)ΔΑχ(ί)> а начальные условия х(^о) = хо· Определим критерий ошибки следующим образом: ίι е = (Я[х(0, u(f), t]dt, (7.38) to где Η — скалярная функция, которая может быть неквадратиче- ской и зависящей от времени. Заметим, что задача заключается в нахождении необходимых условий, которым должны удовлетворять χ (ί) и и (ί) (ίο ^Ξ t ^.ti) в точке экстремума критерия ошибки при условии, что уравнения состояний налагают ограничения на функции χ (t) и u (t). Имея в виду переход от задачи на минимизацию функционала с ограничениями к задаче на безусловный минимум, воспользуемся идеей, содержащейся в (7.29) и введем меру ошибки при ограничениях Hc[x(t),x(t),u(t),k(t),t] = = H[x(t),u(t)] + %T(t){i[x(t),u(t),t]-x(t)}, (7.39) где λ — и-вектор множителей Лагранжа. В дальнейшем будем называть λ косостоянием по причинам, которые станут ясны впоследствии. В формуле (7.39) предполагается, что функции χ (ί), χ (ί), u (t) и λ (ί) независимы. Можно определить соответствующий критерий ошибки при ограничениях ес = f Hc (х, х, и, λ, t) dt (7.40) ίο
168 Глава 7 и воспользоваться методами минимизации функционалов для отыскания необходимых условий, которым должны удовлетворять функции х(«), x(i), u(i) и λ(ί) (ί0 < t < U) в точке экстремума ес. Такой анализ, как мы уви- Оптимальная функция управления Ч0 i / ■ „ ^Ά*ι Функция управления, близкая к оптимальной S дим, приводит к необходимым условиям экстремума ес, одним из которых является i[x(t),u(t), ί]-χ(ί)=0. Когда ото условие выполняется, из (7.39) следует, что соответствующая мера ошибки при ограничениях, оцениваемая в точке экстремума ес, равна Яс(х,х, и, λ, t)=H(x, u, t). Соответствующий критерий ошибки при ограничениях принимает значение П ίι ес= \ Hcdt= \ Ηdt = e, <n to г так что функции χ(ί) и u(i), соответствующие экстремуму ес, являются экстремалями е. Другими словами, получается, что необходимые уел οι вия безусловного экстремума ес совпадают с необходимыми условиями экстремума е при ограничениях, наложенных уравнениями состояний. Чтобы найти эти необходимые условия, обозначим χ*(ί), χ*(ί)> u* (t) и λ*(ί) (ί0^ί<ίι) как экстремали ес и пусть χ(ί), χ(ί), u(i) и λ(ί) [где χ(ί) Δ (d/dt) X (ί)] — произвольные функции, определенные на замкнутом интервале [i<b h\, так что функции в окрестности экстремалей можно задать соотношениями χ(ί) = χ*(ί) + ηχ>). (7.41) χ(ί) = χ*(ί) + ηχ(0- (7-42) Произвольная функция переменной состояния 11 s функция вариации Фиг. 7.5. Экстремальные и близкие к экстремальным управление, состояние, скорость и функция косостояний (в, б, в, г); произвольная функция состояния χ (ί) и вариация ηχ (ί) при ί0 -< ί <; ti (д).
Оптимальное управление 169 ιι(ί) = ιι·(ί)+'ζιι(ί). λ(ί) = λ*(ί) + ξλ(ί), (7.43) (7.44) где η, ζ и ξ — малые числа, как показано на фиг. 7.5. Допустим, что в пространстве функций экстремум определяется как точка, в которой lim- ε->-0 о, (7.45) где ε=(η2+ζ2+ξ2) Чтобы найти необходимые условия, удовлетворяющие этому определению экстремума, будем считать, что ес оценивается членом первого порядка в разложении Тейлора относительно экстремали в функциональном пространстве. Таким образом, ес = j (Щ + ηχτ#?χ + ι&Η\ + ζ^Ηΐ» + ξλτ#*λ) dt, (7.46) где НСх = дНг дх< дИ, дхп Η дНс дх\ дНс дхп ГдНс1 Нса = дщ дНс дип гдНс нс% = дХ< дНс дХп и верхний индекс * относится соответственно к величинам Нс и частным производным на экстремалях х*, х, и* и λ*. Подставляя (7.46) в (7.45), находим lim вс вс = lim f Г-^ hcTH*cx + xTH*.) + Р_*П J 1- 6 CX ε-+0 ь ε-+0 J •о %тН*а~] dt. (7.47) Поскольку χ, и и λ — произвольные функции времени и поскольку η/ε, ζ/ε и ξ/ε стремятся к конечным пределам, необходимо, чтобы при стремлении к нулю такого предела каждая из компонент интеграла в (7.47) стремилась к нулю независимо. Следовательно,
i70 Глава 7 необходимо, чтобы j (хгЯс*х + хтН\ ) Л = О, (7.48) to (итЯ?иЛ = 0 (7.49) ίο «1 ^%TH*cXdt = 0. (7.50) Интегрируй (7.48) по частям, находим необходимо^ условие «1 j (хгЯс*х-ι'"-JL Я*,. ) Л + [хтЯ*.]',0 = 0. (7.51) ίο Поскольку χ (£) — произвольная функция времени на замкнутом интервале ltQ, tj, можно считать, что она имеет три независимые компоненты, а именно х (to), х (0> *о < * < h (открытый интервал) и X (fi). Следовательно, необходимо, чтобы компоненты (7.51) порознь обращались в нуль, т. е. Ϊ1 |хт(я?х —±-H\)dt = 0 (7.51а) ίο И [хтН\]% = 0. (7.516) Поскольку х, и и λ — произвольные функции времени, необходимые условия, которым удовлетворяют экстремали х*, и* и λ*, имеют вид Я?и = 0 (уравнения управлений), (7.52) Я?^ = 0 (уравнения состояний), (7.53) Н*х—тт-Я*. = 0 (уравнения Эйлера—Лагранжа, или (7·54) сх уравнения косостояний), [хтЯ?]|о = 0 (условие трансверсальности). (7.55) сх Как и следовало ожидать, одним из необходимых условий экстремума ес является выполнение уравнений состояний. Следовательно,
Оптимальное управление 171 экстремали ес совпадают с экстремалями е при ограничениях на уравнения состояний, и поэтому они являются искомыми экстремалями. При выводе необходимых условии мы обращались к экстремуму ес и не проводили различия между точками максимума и минимума. Из изложенного выше относительно критерия ошибки следует, что нас интересует минимум критерия. Интересно отметить, что, как указано в книге Куранта и Гильберта, точка, удовлетворяющая этим необходимым условиям, есть седловая точка в пространстве χ, λ. Решение этой задачи минимизации при ограничениях приводит к минимуму χ по λ, и наоборот. Необходимые условия (7.52) — (7.55) имеют фундаментальное значение в оптимальном управлении, так как они составляют основу для определения оптимальных траекторий. Эти условия очень подробно исследуются в остальной части этой главы. Пример 2 Для более четкого понимания необходимых условий рассмотрим линейный объект первого порядка Xi(t) = x2(t), χι (tQ) = χι о, (7.56) x2(t) = u(t)i X2(tQ) = x2o (7.57) и критерий ошибки e=\{x\(t) + x\(t) + u?(t)\dt. (7.58) ίο По определению (7 58) мера ошибки при ограничениях для этого примера имеет вид Нс = xl+ xl + u? + %i(x2 — xi) + h(u—х2). (7.59) В соответствии с необходимым условием (7.52) уравнение представляет собой уравнение управления (для простоты звездочки опущены)} или Яг(?и=2ц + Я2 = 0 и = -^-%2. (7.60) 2 Из необходимого условия (7.53) получаем уравнения состояний L и—χ?.-*
172 Глава 7 ИЛИ Xi = x2, (7-61) хг = и. (7.62) Из необходимого условия (7.54) получаем уравнения косостояний я„_Ая. = Р^ .1=0, dt cx L2.r„_uX,_ulJ -2^2 + λ14-λ2- = 'λι = 2χι, (7.63) — Xa = Xi + 2^. (7.64) Из необходимого условия (7.55) получаем условия трансверсальности [χ*Η .]£ = ~*т (ti) Н. (ii) -хТ (t0) Η. (t0) = 0. (7.65) CX CX Ьа При выводе этого необходимого условия предполагалось, что χ (t) — произвольная функция, так что χ (to) не зависит от χ,(ίι). Если это так, то уравнение может выполняться только в том случае, если независимо выполняются условия xT(t0)H .(*„)= О (7.66) сх И x(ti)H .(fi) = 0. (7.67) Cjt Рассматривая хг (tQ), прежде всего замечаем, что начальное состояние объекта фиксировано при χ (t0) = х0, как это определяется уравнениями (7.56) и (7.57). Кроме того, вследствие инерционности объекта (что следует из уравнений состояний (7.56) и (7.57)) никакое ограниченное начальное значение и (to) не может изменить начального состояния χ (to). Вследствие этого физического ограничения на объект никакое изменение начального состояния невозможно, и поэтому мы требуем х (t0) = 0. Однако на оставшейся части -траектории такого ограничения нет, так что χ (t) можно выбрать произвольно на полуоткрытом интервале (t0, ij, включая, следовательно, и χ (ti). Поскольку χ (t0) = = 0, необходимое условие (7.66) может удовлетворяться при любом (нулевом или ненулевом) значении Η . (t0). По определению Нс в этом примере, как это следует из (7.59), имеем '-λ! (ί0)' Η .(t0)- cx .—M*o). (7.68)
Оптимальное управление 173 Отсюда заключаем, что на начальные значения переменных косостоя- ний не наложены ограничения, вытекающие из необходимых условий экстремума критерия ошибки е. Можно считать это обстоятельство неблагоприятным, так как отсюда следует, что' необходимые условия несут очень мало информации относительно λ (t0). В отличие от начального состояния конечное состояние χ (ti), как указывалось выше, в этом примере не задано и, следовательно, возможны ненулевые изменения χ (ti). Поэтому оказывается, что необходимое условие в уравнении (7.67) удовлетворяется при произвольных значениях χ (ij) только в случае Г —λ1 Н.(Ь)=\ . сх. [_—Μ Здесь нам выпала удача, поскольку из необходимых условий получаются конкретные значения переменных косостояний на конце интервала. Объединяя различные результаты, полученные в этом примере, видим, что необходимыми условиями, которым должны удовлетворять экстремали критерия ошибки е, являются (опускаем звездочки) уравнение управления, вытекающее из (7.60), и = ^-12; (7.70) уравнения состояний, вытекающие из (7.61) и (7.62), xl = x2.i xi (^о) = xi 0> ('·'!) хг=и, хгУо) = хго, (7.72) уравнения косостояний, вытекающие из (7.63) и (7.64), — ^ = 2*!, (7.73) -ν=λι + 2ζ2; (7.74) граничные условия для косостояний, вытекающие из уравнений (7.68) и (7.69), %i (t0) произвольно, λ! (ti) =-- 0, λ2 (ίο) произвольно, λ^ (ij) = 0. В принципе теперь можно решить четыре дифференциальных уравнения со своими четырьмя граничными условиями, построить множество экстремалей х* (t), x* (t), λ* (t), λ* (t) (t0 ^ t ^ t^ и найти оптимальное управление и* (t) подстановкой уравнения управлений. Однако при попытке проинтегрировать систему четырех уравнений мы сразу же сталкиваемся с вездесущей двухточечной = 0. (7.69)
174 Глава 7 ^Механический ограничитель граничной задачей, в которой часть граничных условий известна в начальный момент времени, а остальная часть — в конечный момент. Для систем с линейными уравнениями состояний и квадратиче- скими мерами, ошибки можно избежать двухточечной граничной задачи, решая дифференциальное уравнение, в частных производных типа Гамильтона — Якоби или матричное дифференциальное уравнение Риккати с одноточечными граничными условиями, как будет показано ниже в этой главе. В противном случае необходимо использовать систематические методы проб и ошибок, рассматриваемые в гл. 6 и 8. Пример 3 Чтобы еще более прояснить необходимые условия, рассмотрим линейный объект при заданных ограничениях. В частности, рассмотрим показанный на фиг. 7.6 электрический прибор с подвижной катушкой, имеющий небольшое затухание, в котором уравнение моментов имеет вид Фиг. 7.6. Подвижная катушка электрического прибора. Ы = J Χι + Dxi + Cxlt (7.75) где J, D и С — соответственно постоянные инерции, затухания и жесткости; Χι — угловое положение стрелки; i — ток в подвижной катушке. Уравнения состояний можно выбрать в виде Xi = x2, xi(t0) = 0, (7.76) x2=r=j-xi—fx2 + -j-y X2(t0) = 0, (7-77) где Х2 обозначает скорость стрелки. Пусть движения стрелки ограничены механическими упорами в диапазоне \χι | < X и пусть из-за ограниченной проводимости проволоки ток ограничен диапазоном Пусть при нулевом токе стрелка находится в покое в среднем положении и стрелку требуется перевести, минимизируя средне- квадратическую разность между действительным отклонением Х\ (t) и требуемым отклонением xd (t) = 0,95 X (t0 ^ t <: ti), так чтобы стрелка не касалась упора и ток не превзошел безопасного предела. Чтобы удовлетворить этим различным условиям, можно выбрать
Оптимальное управление 175 меру ошибки в виде H = a[0,95X-xl(t)]2 + b[^-]2M+i2(t), (7.78> где а и Ъ — произвольно выбранные весовые коэффициенты; Μ — большое положительное число. В этой мере ошибки первый член учитывает ошибку смещения, второй — это штрафная функция, ограничивающая максимальное отклонение, и третий член ограничивает амплитуду тока. Замечаем, что выбор меры ошибки произво- Попожение механического ограничителя Фиг. 7.7. Изменение во времени отклонения подвижной катушки прибора при оптимальном токе. лен; например, для ограничения амплитуды тока одинаково допустимо использовать штрафную функцию более высокого порядкаг чем квадратическую. По уравнениям состояний и по мере ошибки можно построить меру ошибки с ограничениями: Hc = a[0,95X-xl(t)]* + b[^-fM + + i2(t) + K(t)[xz(t)-Xi(t)] + + l2(t)[-=j^xl(t)-^-x2(t) + j-i(t)-'x2(t)]. (7.79) Первое необходимое условие экстремума критерия ошибки, полученное из (7.52), представляет собой уравнение управления 2i(t)+-fXz(u) = 0 или i(t)=. ^-4-мо- (7.80) Второе множество необходимых условий включает уравнения состояний (7.76) и (7.77). Третье множество необходимых условий включает уравнения состояний, выведенные из (7.54) и (7.79). Эти уравнения имеют
176 Глава 7 ВИД -λ, (t) = -2а[0.95Х-st (Q] + ШЬ 1*$Г~' —j-λ2 (О, (7.81) -λΒ(ί) = λ1(0—τ-λ,ίί). (7·82) Четвертое множество необходимых условий составляют условия трансверсальности, выведенные из (7.55). Эти условия имеют вид λι (t0) произвольно, (7.83) λ2(ί0) произвольно, (7.84) М*0 = 0, (7-85) λβ (it) = 0. (7.86) На фиг. 7.7 показана реакция, которая может получиться при воздействии оптимального управления на систему, начиная с исходного положения. Для получения точного вида реакции и соответствующей функции оптимального управления потребовалось бы провести итерационные вычисления, описанные в следующей главе. Уравнения косостояний (уравнения Эйлера — Лагранжа) В предыдущем разделе мы видели, что уравнения косостояний образуют часть необходимых условий экстремума критерия ошибки. Если, как это имеет место в общем случае, уравнения состояний нелинейны и мера ошибки неквадратическая, то уравнения косостояний нелинейны, они содержат функции переменных состояний в правых частях. В принципе эти дифференциальные уравнения можно решать методом численного интегрирования, обычно в обратном времени, начиная с граничных условий на конце, при условии, конечно, что переменные состояний в правых частях известны, хотя в общем случае это не всегда так. Для систем с линейными уравнениями состояний и квадрати- ческими мерами ошибки уравнения косостояний линейны и их просто можно связать с уравнениями состояний. Рассмотрим, например, нестационарные линейные уравнения состояний χ(ί) = Α(0χ(0 + Β(0»(0 (7·87) с заданными граничными условиями χ (*„) = х0 и критерием ошибки и е = J [хг (0 Qi (0 х (0 + «г (0 Ъ (0 и (ί)] dt. (7.88) ίο
Оптимальное управление 177 По определению мера ошибки при ограничениях равна Ή^χ^χ + ιι^ιι + λ^Αχ + Βιι— χ). (7.89) Согласно необходимому условию (7.54), уравнения косостояний имеют вид i(t) = — Α.τ(ύ)λ(ύ) — 2Q1(i)x(0, (7.90) и, согласно необходимому условию (7.55), граничные условия для уравнений косостояний имеют вид λ (t0) произвольно и [λ(ί1)=0. (7.91) Уравнения косостояний иначе называются в литературе сопряженными уравнениями, потому что уравнения косостояний без возмущений λ (t) = — Ат (t) λ (t) являются сопряженными в обратном времени с уравнениями состояний без возмущений χ (t) = A (t) x (t). Частный случай линейной системы с квадратическим критерием встречается тогда, когда в меру ошибки включены только конечное состояние и управляющий вход. В этом случае матрица коэффициентов принимает вид Q1(0 = Q16(i-i1), (7.92) где Qi — постоянная матрица; δ (t — ti) — единичная импульсная функция, обращающаяся в нуль всюду, кроме точки t = ij. В данный момент имеет смысл рассмотреть единичную импульсную функцию как предельный случай прямоугольной импульсной функции Δ (t, ti, а) при α, стремящейся к нулю, причем f Ι/α для ύι—<x<.t<_tu Δ(ί, tu α) Δ " (7.93) = [ U в остальных случаях. График функции (7.93) показан на фиг. 7.8. Другими словами, определим δ (t — ti) Δ lim Δ (t, tu a). (7.94) = a-+0 Подставляя Qi (t) из (7.92) в выражения для критерия ошибки (7.88) и интегрируя, находим и е = χτ (^) &Χ fa) + j ur (t) Q2 (0 u (t) at. (7.95) Подстановка Qi (ί) из (7.92) в сопряженные уравнения (7.90) дает λ(ί) = — A.T(t)%(t) — 2QlX(06(i—ь). (7.96)
ms Глава 7 Для определения граничных условий сопряженных уравнений прежде всего заметим, что хотя конечному состоянию придается большой вес в формуле (7.96) и можно ожидать, что оно будет близко к нулю в этом случае, все же конечное состояние не равно в точности заданному значению. Конечное состояние является свободным, и, следовательно, из условий трансверсальности конечные сопряженные переменные равны нулю. Если мы интегрируем сопряженные уравнения (7.96) в обратном времени от нулевых конечных условий, то первым шагом является интегрирование импульсных функций с последующим скачкообразным изменением значений сопряженных перемен Μ я Единица ппощади ных. По этой причине сопряженные уравнения и конеч- jjtx ,► £ ные условия для них можно переписать в эквивалентной более удобной форме λ(ί)= — Ατ(ί)λ(ί), X(ti) = 2qlx(tl). (7.97) В итерационной схеме вычислений, когда интегрируются сначала уравнения состояний в прямом времени, а затем сопряженные уравнения в обратном времени, граничные условия, от которых производится интегрирование сопряженных уравнений, должны равняться конечным значениям переменных состояний, полученных в предыдущем интегрировании. Следует ожидать, что в обычных случаях граничные условия изменяются при переходе от одной операции к другой. t0 tf-cr t, t Фиг. 7.8. Прямоугольная импульсная функция Δ (f, fj, α), стремящаяся к единичной импульсной функции δ (f — ij) при α -»- 0. Условия трансверсальности Условия трансверсальности представляют собой необходимые условия оптимальности, применимые к системам более широкого класса, чем может показаться сначала. В этом разделе мы более подробно исследуем условия трансверсальности и увидим, как они применяются к системам, конечные условия которых содержат ограничения. Согласно формуле (7.55), условия трансверсальности имеют вид [хтН .]Й = 0. (7.98) сх Используя определение меры ошибки при ограничениях (7.39), а именно ЯcΔЯ + λг(f —х), (7.99)
Оптимальное управление 179 получим, что условия трансверсальности можно выразить в виде [хЩЦ = 0. (7.100) Поскольку вариации состояния χ произвольны, оказывается, что это условие эквивалентно двум следующим условиям: χΓ(ίι)λ(ί1) = 0 (7.101) и xT(tQ)k(tQ) = 0. (7.102) Как уже отмечалось в предыдущем разделе, из этих условий вытекает следующее: а) когда конечное состояние фиксировано, соответствующая конечная сопряженная переменная свободна; б) когда конечное состояние свободно, соответствующая сопряженная переменная равна нулю. Между крайними случаями фиксированных и свободных условий находится промежуточный класс переменных конечных условий. В системах с такими условиями конечные состояния оптимальных траекторий должны лежать в заданных подмножествах пространства состояний. Например, возможен случай, когда конечные состояния должны лежать на заданной линии в пространстве состояний. Как и следовало ожидать, наличие конечных условий на переменные состояния приводит к соответствующему частному ограничению на сопряженные конечные условия. На последующих примерах будет показано, как условия трансверсальности используются для вывода соотношений, которым должны удовлетворять сопряженные конечные условия. Пример 4 Рассмотрим двумерное пространство состояний, показанное на фиг. 7.9, в котором начальное граничное состояние фиксировано в начале координат, а конечное граничное состояние лежит на прямой, заданной уравнением ёШЬ), xz(ti)] = xi(ti) — xii = 0. (7.103) Если, как показано на диаграмме, точка 1хц, х* (t)] обозначает оптимальное граничное состояние, то произвольный вектор вариаций χ (ti) ограничен — он должен лежать на линии, описываемой уравнением (7.-98), т. е. ^-ΕωΗ·]' (7Л04) где α — малая произвольная константа. Из условия трансверсальности (7.101) получаем уравнение ΞΊ(ίι)λ!(ίΙ)+^(ίι)λΗί0 = 0 12*
180 Глава. 7 или 0λί(ί1) + αλ!(ί1) = 0, которое удовлетворяется при всех значениях λ* (ti) и нулевом значении λ* (t,). Другими словами, поскольку х* (ti) фиксировано, λ* (ti) свободно, а поскольку x%(ti) свободно, λ* (tj) равно нулю. x2(tf) x/f xi Фиг. 7.9. Система при фиксированном начальном состоянии χ* (ί0) = 0 с одним фиксированным конечным состоянием xt (ij) = гии одним свободным конечным состоянием я2 ('ι)- Если интерпретировать геометрически, то граничный сопряженный вектор λ^ (ti) ортогонален граничному вектору вариаций X (ti). Пример 5 Более общий случай показан на фиг. 7.10 состояниям соответствуют точки на окружности, (Лг)х2 где начальным а конечные со- точкам на пря- Ф и г. 7.10. Векторы вариации конечного состояния и сопряженные конечные векторы для системы второго порядка с начальными условиями на окружности и конечными состояниями на прямой. стояния мой. Если точки на окружности удовлетворяют ограничению ga [Χι (to), Ъ (к)] = = x](t0) + xl(t0)-i = 0, (7.105) то из условия трансверсальности следует, что для оптимальной траектории начальный сопряженный вектор λ* (t0) нормален к окружности в точке начального состояния [х* (t0), χ* (ί0)J- Поскольку вектор нормали равен (при дифференцировании в частных производных) Ρ-Ί = Γ2*ι(ίο)Ί. (7.Ю6) [gaxJ~l2x2(to)l·
Оптимальное управление 181 в этом частном случае необходимо, чтобы где β — произвольная постоянная. Аналогично, если ограничение имеет вид gblxiih), Xb(tl)] = xlitl)-zt(tl)-3 = q, (7.108) то из условия трансверсальности требуется, чтобы где у — константа, зависящая от β. Двухточечная граничная задача Рассматривая систему In уравнений состояний и сопряженных уравнений, можно заметить, что условия трансверсальности, которые также должны удовлетворяться, всегда приводят к двухточечным граничным условиям. Эти условия можно рассмотреть совместно следующим образом. Наличие граничных условий в начальной и конечной точках интервала управления не позволяет решать уравнения состояний и сопряженные уравнения путем одновременного интегрирования ни в прямом, ни в обратном времени. Для преодоления этой фундаментальной трудности были разработаны итерационные методы, которые будут более подробно рассмотрены ниже. В этой главе укажем только, что напрашиваются два различных подхода. Соотношение между конечными условиями для уравнений состояний и сопряженных уравнений Конечное условие для переменной состояния Фиксирована в некоторой точке в пространстве состояний Частично ограничена некоторым подмножеством точек в пространстве состояний Свободна, может принимать любое значение в пространстве состояний Соответствующее конечное условие для сопряженной переменной Свободна, может принимать любое значение в сопряженном пространстве Частично ограничена некоторым подмножеством точек в сопряженном пространстве Ограничена началом координат в сопряженном пространстве Первый подход, называемый итерацией граничного значения, основан на том, что вначале задаются некоторыми значениями неизвестных начальных условий для полной системы уравнений
182 Глава 7 состояний и сопряженных уравнений, а затем выполняют численное интегрирование. Полученные таким образом граничные значения сравниваются с требуемыми граничными состояниями, и на основе их сравнения производится некоторая подстройка ранее выбранных начальных условий, и затем снова проводится интегрирование. В принципе этот цикл повторяется много раз до тех пор, пока не будут удовлетворяться граничные условия на конце интервала; в этот момент получается система функций состояний и сопряженных функций времени, удовлетворяющих необходимому условию ошибки. Однако следует отметить, что этот метод может столкнуться с вычислительными трудностями, главным образом из-за того, что сопряженные уравнения в общем случае неустойчивы в прямом направлении времени. Решения их имеют тенденцию быстро расти к конечной точке интервала управления, и могут возникнуть значительные трудности при корреляции требуемых изменений начальных условий с вычисленными значениями условий на конце интервала. Второй подход, называемый итерацией функции управления, приводит к очень устойчивому и хорошо сходящемуся процессу. Вначале задаются функцией управления на всем интервале управления. Используя эту функцию, вначале решают уравнения состояний в прямом времени, исходя из начальных условий, и запоминают решение. Затем эти вычисленные функции состояний используют для решения сопряженных уравнений в обратном времени от известных конечных условий и вновь запоминают решение функции. Управления, состояния и сопряженные функции, получающиеся при первой итерации, используются для вычисления модифицированной функции управления, и весь процесс повторяется. Итерации повторяют до тех пор, пока функции управления не сойдутся к оптимальному управлению, а функции состояния и сопряженные функции — к соответствующим экстремалям. Следует отметить, что в отличие от итераций граничных значений эта итерационная процедура является успешной, поскольку сопряженные уравнения решаются в обратном времени, и в этом направлении их решения имеют устойчивые характеристики. 7.3. Принцип минимума Понтрягина Математическая теория оптимального управления в последние годы вызывает интерес среди математиков. Однимиз важных результатов этого является так называемый принцип минимума, который точно сформулирован под названием принципа максимума в книге Понтрягина и др. [8]. Принцип минимума составляет основу синтеза многих систем управления, особенно систем, имеющих конечные ограничения на амплитуду управления. Необходимость в принципе минимума возникает, когда обнаруживается, что нигде в допустимом диапазоне управляющей пере-
Оптимальное управление 183" менной невозможно удовлетворить необходимому условию уравнения (7.52), а именно Яси = 0. В этом случае, согласно принципу минимума, оптимальное управление принимает значение на одном из концов допустимого диапазона. Принцип минимума особенно важен в системах управления с минимальным быстродействием и минимальным расходом топлива, где управления обычно бывают релейного типа, т. е. управления принимают крайние, а не промежуточные значения на всем интервале. Это важно также и в случае итерационных методов, применяемых для вычисления оптимальных управлений. Уравнения Понтрягина Уравнения Понтрягина основаны не на мере ошибок при ограничениях Нс, а на функции Гамильтона, определяемой соотношениями SS[x{t), λ(ί), u(i), t]AH[x(t), u(i), ί] + λτ(ί)ί[χ(ί), u(i), t]. (7.109) Из уравнений (7.39) и (7.109) следует, что функцию Гамильтона можно выразить через меру ошибки при ограничениях Нс посредством соотношения #0 = ($?-λΓχ. (7.110) Подставляя Нс из (7.110) в уравнения (7.52) — (7.55), получаем необходимые условия, выраженные через Ηΐα = S£a = 0 (уравнение управления), (7.111) Щх = Ш\ — х* = 0 (уравнения состояний), (7.112) Щ-ц. — -тг Н*. = $£\ 4- λ* = 0 (сопряженные уравнения), (7.113) [xTH*.]ll= — [χΓλ*]^ = 0 (условие трансверсальности). (7.114) Необходимые условия, записанные в такой форме, называются уравнениями Понтрягина. Ясно, что уравнения состояний χ — i и мера ошибки Η приводят в точности к такому же множеству условий, что и уравнения (7.52) — (7.55). Однако следует отметить, что вдоль экстремалей мера ошибки при ограничениях Нс и гамильтониан Ж принимают различные значения. Мера ошибки при ограничениях принимает . значение Н* = Н* (поскольку удовлетворяются уравнения состояний), и можно показать, что если гамильтониан не является функцией только времени, то он принимает значение $£*< = const. Это можно показать, вычисляя полную
•184 Глава 7 производную гамильтониана по времени dt dt * χ*τί* + 'λ*τχ* = ^-, (7.115) dt ' dt Таким образом, если гамильтониан не является функцией только времени, то 4-'*"·=° <$?* = const. (7.116) В качестве примера вывода необходимых условий из уравнений Понтрягина рассмотрим систему второго порядка где Функция Гамильтона а сопряженные Х\ — #2> Xz = U, Н = имеет вид <5Ю = х\ + и\ уравнения можнс дху дзе _ дх2 ~~ Xi (ί0) = 0, Хг (ίο) = 0» χ] + иг. ί + λ1χ2 + λ2Μ, ι представить как — Αι = ^3?ι, — λ2 = Aj. (7.117) (7.118) (7.119) (7.120) (7.121) (7.122) Условия трансверсальности имеют ,вид λι (*0 = λ2 (tj) = 0. . (7.123) Принцип минимума Точная формулировка принципа минимума и его доказательство требуют длительных математических рассуждений, которые полностью приводятся в книге Понтрягина и др. [8]. Для наших целей достаточно изложить один из основных результатов и показать, что эти результаты естественны. Для простоты изложения предположим, что каждое управление и, (£) (i = 1, . . ., τη) ограничено тем условием, что оно лежит в диапазоне |И|(«)|<1, «о<*<*1- (7.124)
Оптимальное управление 185 Множество допустимых управлений, удовлетворяющих этим ограничениям, обозначим U. Если функция Гамильтона, определяемая формулой (7.109), равна <$? = #+λτί, (7.125) то из принципа минимума следует, что функция Гамильтона принимает свое наименьшее значение на экстремалях x*(t), u*(i), λ*(ί). Пусть это минимальное значение равно 'Ж* = Ш [χ* (ί), u*(0, λ*(ί), ί]. (7.126) Если допустимы изменения только одного управления иг (£) относительно оптимального значения и* (£), то соответственно изменится и значение, функции Гамильтона. Обозначим это новое значение Ш , где <Й0* = <Й?[х»(4), ιί·(ί),ΐίι(ί),.λ·(ί), t], (7.127) где и* (ί) есть множество оптимальных управлений [И* (ί), . . ., Uf-i (ί), Itf+i (ί), · . . Г«т («)]■ Для типичного случая зависимость ЗИ? от цг (ί) может принимать форму, показанную на фиг. 7.11, а, где необходимое условие (7.111), принимающее вид <Й?1!£ = 0, (7.128) удовлетворяется при Uj = u*. В ситуациях, где с$?5 = 0 при и££Л необходимые условия, выведенные раньше в предыдущем разделе, оказываются адекватными. Однако возможность удовлетворить условию <Ш\ = 0 зависит от формы меры ошибки. Например, в некоторых случаях оказывается, что гамильтониан имеет вид, показанный на фиг. 7.11, б, причем невозможно применить предыдущие необходимые условия. Ситуации, показанные на фиг. 7.11, б, описываются принципом минимума, утверждающим, что на оптимальной траектории гамильтониан принимает свое наименьшее значение, равное se*=se[x*{t), u*(i), λ·(ο, t] = infm[χ*(Ο, λ·(ί), u(i), ц, (7.129) где inf обозначает наибольшую нижнюю границу. Используя этот результат, получаем, что в случае, указанном на фиг. 7.11, б, управление и-г = — 1 удовлетворяет принципу минимума и, следовательно, является оптимальным. Можно убедиться в том, что этот результат разумный, вводя функцию штрафа (кг)ш в меру ошибки и, следовательно, в функцию Гамильтона. Определим модифицированную функцию Гамильтона S£i=se^ + {uiYM, (7.130)
186 Глава 7 где 3£f определяется формулой (7.127). Заметим, что это стандартный метод введения ограничений на амплитуду управлений при выводе необходимых условий, получаемых в вариационном исчислении. Отсюда немедленно вытекает, что Mm должна принять вид, Фиг. 7.11. Изменение значения яК^ функции Гамильтона в зависимости от управления щ, изменяющегося относительно оптимального значения uf а — д&6 /ви. = О, — 1 ^ и. ^ 1; б— да№ Idut = 0, — 15ξ и. ^ ι; β — изменение гамильтониана при добавлении штрафной функции (u;)2M . &6т = 36 + («, показанный на фиг. 7.11, в, причем минимум 3£ти = 0 достигается в точке, близкой к ut = — 1. В пределе при М-> 0, кг-> —1 мы приходим к заключению, что для оптимальной траектории в этом случае и* (£) = —1. Таким образом, вводя штрафную функцию и рассматривая влияние очень больших значений М, приходим к тому же результату, который получается и при непосредственном применении принципа минимума. Конечно, это ни в коей мере не служит доказательством
Оптимальное управление 187 принципа минимума, но такое использование штрафных функций позволяет лучше понять свойства экстремалей, когда на управления наложены сильные ограничения. Применение принципа минимума Как уже упоминалось выше, необходимые условия, которым должны удовлетворять экстремали критерия ошибки, сформулированные с помощью вариационного исчисления [уравнения (7.52) — (7.55)] или уравнений Понтрягина (7.111) и (7.114) с добавлением в обоих случаях принципа минимума, редко дают возможность найти непосредственно решение экстремальной задачи. Однако они обнаруживают некоторые свойства экстремалей, которые вместе с информацией об управляемом физическом процессе могут оказать существенную помощь при нахождении экстремалей. Это особенно существенно для важных классов систем, оптимальных по быстродействию, и систем с минимальным расходом топлива. Эти два случая будут рассмотрены ниже, поскольку каждый из них помогает лучше понять новые разделы теории оптимального управления. В системе управления, оптимальной по быстродействию, целью является перемещение объекта из заданной начальной точки в пространстве состояний в заданную конечную точку за минимальное время, причем это должно быть сделано не выходя за заданные ограничения амплитуды управлений. С формальной точки зрения уравнения состояний должны иметь вид x(i) = f[x(i), u(i), ί], χ (to) = το, (7.131) где to — начальный момент времени; х0 — начальное состояние; χ — и-вектор состояний; и — т-вектор управлений. Если критерий ошибки выбран так, что «1 е где *1 = jl*. (7.132) Η = ί, (7.133) то управление, минимизирующее этот критерий ошибки, минимизирует интервал времени tt — ύ0, что и требуется. Функция Гамильтона, согласно (7.109), равна $? = 1+λΓί, (7.134) а сопряженные уравнения, согласно (7.113), имеют вид -i=m*. (7.135)
188 Глава 7 Пример 6 Рассмотрим линейный стационарный объект второго порядка, движение которого описывается уравнениями состояний с начальным состоянием и конечным состоянием Xi(t) = X2(t), хг (ί) = и (t) x1(t0) = l, Хг (ίο) = 1 (7.136) (7.137) ί+Α1χζ+Κζ ■*ι(ίι) = 0, ζ2(ίι) = 0. Пусть управление ограничено таким образом, что — l<u(t)<l, io<t<ti, и множество управлений, удовлетворяющих этому условию, обозначим U. Из уравнения (7.134) следует, что функция. Гамильтона равна <$? = 1 + λ1χ2 + λ2ΐί. (7.138) Если <0£* определяется соотношением JTA [λ· (0, х* (О, К (0. ΐί(ί)] = ι + λΓ(ί)*ί(0 + λί(0»(0. (7.139) то <2&?t, как легко видеть, является линейной функцией управления и, и необходимое условие (7.111) не^- применимо. Из соотношения (7.139) или фиг. 7.12 ясно, что мы должны использовать принцип минимума. Рассмотрение показывает, что наибольшая нижняя граница Ш достигается, когда u*(t)= -sign λ* (ί). (7.140) Сопряженные уравнения для этого примера имеют вид -λί = 0, (7.141) -λ8 = λ1, (7.142) и, поскольку начальные и конечные состояния фиксированы, соответствующие условия на сопряженные переменные свободны. Сле- Ф и г. 7.12. Линейное соотношение между функцией Гамильтона &ΰ^ и управлением и (пример 6).
Оптимальное управление 189 довательно, решения сопряженных уравнений имеют вид ^ (ί) = klf (7.143) λ2(ί)= — к^ + k2, (7.144) где fcj и к2 — неопределенные константы. Уравнение g (7.144) показывает, что λ* (t) — линейная функция времени, и, следовательно, при условии ki Φ О она может обратиться в нуль только в один Фиг. 7.13. Сопряженная перемен- Фиг. 7.14. Траектория в пространстве' ная как функция времени (о); соот- состояний для системы управления, опти- ветствующая функция оптималь- мальной по быстродействию (пример 6). ного управления в примере 6 (б). ^ момент времени, как показано на фиг. 7.13, а. Этот результат вместе с законом управления (7.140) приводит к тому, что оптимальное управление и* (t) имеет релейную форму, как показано на фиг. 7.13, б. Однако ни знак управления, ни время переключения ts еще не определены. Их можно определить только после дальнейшего подробного рассмотрения свойств объекта. На диаграмме пространства состояний (фиг. 7.14) построены два семейства траекторий: одно для и = + 1 и другое для и — — 1. Это семейства парабол, которые легко вычислить из уравнений состояний. Например, начиная из точки А с координатами х^ (t0) = 1 и Xz(to) = 1, получим оптимальное управление {— 1, t0<.t<.ts от А к В, + 1, f.<f<fi от Я it С, где t0 = 0, ^
190 Глава 7 ние и + 1, и—) и=+1 Крива/! 'переключений хг'/г(хг)2 + 1 Эти результаты можно объединит1!., построив кривую переключений в пространстве состояний, как показано на фиг. 7.15. Для любого заданного начального состояния, например χ (ί0), начала координат можно достичь за минимальное время, используя следующее правило: если точка лежит ниже кривой, применить управле- пока не будет достигнута кривая переключений, и в этот момент изменить управление на и ——1 и двигаться по кривой переключений, пока не будет достигнуто начало координат. Если начальная точка в пространстве состояний лежит над кривой переключения, то процедура меняется. Очевидно, что оптимальное управляющее устройство, основанное на кривой переключений, допускает очень простую .техническую реализацию. Рассмотрим систему с минимальным расходом топлива, цель которой — найти управление, переводящее объект из одного состояния в другое за фиксированное время при минимальном расходе топлива. Так же, как и в случае оптимального быстродействия, рассмотрим объект, описываемый уравнениями состояний x(i) = f[x(i), u(t), t] (7.145) с начальными и конечными состояниями χ (ύ0) = х0 и χ (£,) = х, и фиксированными начальными и конечными моментами t0 и ij. Предполагается, что скор'ость потребления топлива пропорциональна амплитуде управления, так что критерий ошибки, минимум которого отыскивается, равен e=\\u(t)\dt, (7.146) Фиг. 7.15. Кривая переключений в пространстве состояний для системы управления, оптимальной по быстродействию (пример 6). а мера ошибки определяется как я=И0|. В этой задаче гамильтониан равен |ΐί(ί)|-τ-λτ(ί)ί[χ(ί). u(0. t]. (7.147) (7.148)
Оптимальное управление 191 Пример 7 Рассмотрим тот же объект, что и в примере 6: Zl(t) = X2{t), Xi(t0) = i, Xl(tl) = 0, x2(t) = u(t), xl{t0) = \, xz(tl) = 0, где — 1<и(0<1. Функция Гамильтона равна se = I и (t) ι+h (О *2 (О + К (О и (О· Выражая гамильтониан как функцию только^ к (О, получаем <я?+=ио!+ь:(о*;(о+ь:(Ои(о· (7·152) Рассматривая (7.152) и сравнивая с фиг. 7.16, видим, что опти- ,(7.149) (7.150) (7.151) Фиг. 7.16. Зависимость гамильтониана от управления для системы с минимальным расходом топлива (пример 7). а — λ2 = 2; б — λ2 = */«; β — λ2 = — 1. мальное уравнение зависит от λ* (ί) следующим образом: λ*(ί)<-1, и· (ί) = 1, (7.153) -1<λ*(ί)<!, и* (9 = 0, (7.154) 1<λ*(ί), w*(i)=-l- (7.155) Поскольку сопряженные уравнения имеют вид — λ! (0 = 0, (7.156) — λ2(0 = λ! (7.157) с фиксированными начальными и конечными граничными'^условиями, решения которых принимают вид h(t) = ku (7.158) Ы0=—*ι* + *2. (7-159)
192 Глава 7 оказывается, что λ* (ί) — линейная функция времени, причем к^ и /с2 пока неизвестны. Эти результаты показывают, как видно на фиг. 7:17, что управление имеет релейный характер с нулевым состоянием. Полярность да иЧ 1 *0 -t I ta Ч t, 4 Фиг. 7.17. Связь между сопряженной переменной λ* (f) и оптимальным управлением it* (f) для задачи о минимальном расходе топлива (пример 7). Фиг. 7.18. Оптимальная траектория для системы с минимальным расходом топлива (пример 7). и момент переключения функции управления должны определяться при более точном рассмотрении объекта. Результирующая траектория показана на фиг. 7.18, где ta и tb зависят от ij и t0. 7.4. Уравнение Гамильтона — Якоби Вместо вариационных процедур для определения оптимальных управлений можно использовать метод динамического программирования. По этому методу определяется функция минимальной ошибки, явно зависящая от переменных состояний и времени. Значение этой функции в каждой точке в пространстве состояний и времени равно наименьшему значению критерия ошибки, которое может быть достигнуто на оставшейся части интервала управления. Зная функцию минимальной ошибки, легко можно построить оптимальное управление. На первом шаге по этому методу определяются функциональная форма и значения коэффициентов функции минимальной ошибки. Один из подходов заключается в том, что делается предположение
Оптимальное управление 193 о подходящей форме функции ошибки, а затем составляется система обыкновенных нелинейных дифференциальных уравнений с известными одноточечными граничными условиями и из этой системы вычисляются коэффициенты функции минимальной ошибки. Другой подход заключается в составлении дифференциального уравнения в частных производных Гамильтона — Якоби, решением которого является функция минимальной ошибки. Применение обоих методов ограничено линейными системами с квадратическими мерами ошибки. Однако они дают простое решение линейной задачи об управляющем устройстве; изучение их оказывается очень полезным для понимания задачи оптимального управления. В последующих разделах выводится уравнение Гамильтона — Якоби и получается решение методом проб. Наконец, соотношение между динамическим программированием и вариационными методами разъясняется путем вывода уравнения Эйлера—Лагранжа из уравнения Гамильтона — Якоби. Вывод уравнения Гамильтона — Якоби В методе динамического программирования центральное место занимает функция минимальной ошибки [7], определяемая следующим образом: E[x{t), t]u min \н[х(а), ιι(σ), σ] da, (7.160) υ(,σ)ζϋ J где σ.— точка на замкнутом интервале [t, ij]; H — функция меры ошибки; U — множество допустимых функций· управления. Пример 8 Для объекта первого порядка х=и (7.161) с квадратической мерой ошибки # = (1-я)а + и2 (7.162) можно показать, что функция минимальной ошибки равна E[z(t), t] = k(t) — 2ki(t)x(t) + ku(t)x2(t),. (7.163) где коэффициенты являются решениями дифференциальных уравнений: k{t) = ki(t)—.i, Α(*ι) = 0, (7.164) M0 = fti(0ftii(0-1. M*i) = 0. (7·165) ft11(i) = ft11(i)-l, ftu(ii) = 0. (7.166) Можно показать, что оптимальное управление имеет вид u*(t) = ki(t) — ku(t)x(t). (7.167)
194 Глава 7 Поверхность функции минимальной ошибки для этого примера показана на фиг. 7.19. Необходимо отметить, что: а) Е [χ (t,), ij =0, что следует из определения (7.160); б) когда χ (ί) = 1, имеет место равенство Ε {χ (ί), t] = 0; Это видно из рассмотрения уравнения состояния и критерия ошибки, поскольку при ι (ί0)= 1 г и (ί) = 0 на интервале [t0, ij мера ошибки и функция минимальной ошибки равны нулю вдоль оптимальной траектории (б) на диаграмме; в) когда χ (t0) Φ 1, точка движется вдоль оптимальной траектории (б), которая достигает значения χ = 1 при t = ti. Функция минимальной ошибки Ε является функцией независи- ., хп, t, и ее можно рассматривать как уравнение поверхности в (и+2)- мерном пространстве с ко©р- мых переменных хи \E[x(t),i] динатами Е, хи .. ., хп, t. Согласно формуле (7.160), функция минимальной ошибки Ε [χ (t), t] определяется как минимальное значение критерия, которое можно получить при допустимом управлении и (σ) на [оставшейся части интервала управления t ^ σ ^ ti. Следовательно, это управление является функцией оптимального управления. Определение функции минимальной ошибки само по себе не дает какой- либо непосредственной информации относительно оптимального управления и* (ί) в момент t. Однако последующий анализ дает возможность найти выраженное через состояние χ (ί) необходимое условие, которому должно удовлетворять оптимальное управление и* (ί). Оно называется условием динамического программирования для критерия минимальной ошибки. В замкнутом интервале [t, ij рассмотрим точку τ вблизи t. Согласно определению (7.160), Фиг. 7.19. Форма функции минимальной ошибки для системы первого порядка, рассмотренной в примере 8. E[x(t),t]= min min j \ Η [χ(σ), u (σ), σ] da + [i, t] [τ, ii] * ii + j#[x(cr), ιι'(σ), σ]ώσ} , (7.168) где U — множество допустимых функций управления.
Оптимальное управление 195 Поскольку управление и (о) на интервале [τ, ij не может влиять на критерий ошибки в предыдущем интервале [t, τ], имеем τ E[x(t), i]= min \[н[х(а), u(a),a]da + [i, τ] * «ι + min \н[х(а), и (a), a] da\ . (7.169) u(a)eU J J [τ, «ι] τ Из определения функции минимальной ошибки следует,, что τ E[x(t),t] = min ί(#[χ(σ), ιι(σ), σ]άσ + Ε[χ(τ), τ]}. (7.170) u(a)eC7 L J J [<. τ] ' Если τ — ί — очень малый интервал времени, то можно сделать следующие предположения: 1. Сигнал управления приблизительно постоянный, поэтому χ(σ)«χ(ί), u(a)«u(i), σ«ί, ί<σ<τ, так что τ \ #[χ(σ), ιι(σ), σ]άσ& (τ— t)H[x(t), u (ί), ί]. i 2. Значение функции минимальной ошибки в момент времени т приближенно равно Ε [χ(τ), τ]^ Ε [x(t), t] + (r-t)~ E [x(t), t]. Замечаем, что полная производная равна ~E[x(t)< t] = Et[x(t), t]+xT(t)Ex[x(t), t], (7.171) (7.172) где £,Δ £χΔ дЕ at дЕ dxi дЕ _ дхп . При этих предположениях из (7.170) следует, что Ε [xtt),t] ж min {(τ —t)H [x(t),u{t),t]+E[x(t),t] + u(i)£U + (τ-1) Et [χ (ί), t] + (τ-1) 'xT (t) £x [χ (ί), t]}. (7.173) Из исходного определения (7.160) следует, что значение управления и (ί), минимизирующего (7.173) в правой части, является оптимальным управлением в момент t. Рассматривая члены в (7.173),
196 Глава 7 замечаем, что только Η [χ (ί), u (ί), t] и χ (ί) = f [χ (ί), u (ί), ί] являются функциями u (i), и, следовательно, их нужно минимизировать. Таким образом, уравнение (7.173) удовлетворяется в том случае, если тш{Я[х(0, u(i), t] + xT(t)Ex[x(t), t]}=—Etlx(t), t]. (7.174) u(i)eu Отсюда следует, что управление и (ί), удовлетворяющее этому условию, и есть оптимальное управление по исходному определению. Уравнение (7.174) называется условием минимума квадратиче- ской ошибки в динамическом программировании. Из уравнения (7.174) следует, что оптимальное управление удовлетворяет уравнению H[x(t), u(t),t] + iT[x(t), u(i), t]E*lx(t),t] = —Et[x(t), ί], (7.175) которое называется уравнением Гамильтона — Якоби. Если минимум левой части (7.174) существует для управления, принадлежащего множеству U, это выражение для оптимального управления можно получить, приравнивая нулю частные производные левой части по и (ί). Результирующие уравнения для закона управления имеют вид Hu[x(t),u(t), t] + tu{t)Ex[x(t),t]=0, (7.176) где - dfi din^ diii ' ' ' ди± dfi dfn ' -dum ' " " duml решениями этих уравнений являются оптимальные управления и* (ί). Решение по методу проб Метод решения уравнения Гамильтона — Якоби (7.175) заключается в том, что задаются математическим видом функции минимальной ошибки и составляют уравнения, решения которых равны коэффициентам заданных функций. Этот метод приводит к точным результатам для систем с линейными уравнениями состояний и квадратическими мерами ошибки. Их можно использовать для получения приближенных результатов и в некоторых других случаях. Поясним этот метод на примере. Пример 9 Рассмотрим объект, описываемый линейными уравнениями состояний x1(t) = f1lx{t),u{t),t] = xi(t), xi(t0) = i, (7.177) X2(t) = hlx(t),u(t),t] = u(t), xz(t0) = 0 (7.178) fuA
Оптимальное управление 197 и управляемый на интервале [i0, ij так, чтобы минимизировалась квадратическая мера ошибки H[x(t),-u(t),t] = x'(t) + u*(t). (7.179) Чтобы применить условия минимума критерия ошибки по методу динамического программирования, предположим, что функция минимальной ошибки имеет квадратическую форму: Ε [χ (ί), t] = к (t) + 2ki (t) Xi (t) + 2k2 (t) x2 (t) + + ku(t)zi (t) + 2h 2 (t) χι (t) x2 (t) + k2 2 (t) x\ (t). (7.180) Частные производные, необходимые для решения уравнения Гамильтона—Якоби, имеют вид Ех Ef- 2ki (t) + 2fti ι (ί) χι (t) + 2ki 2 (t) x2 (t) 2k2(t) + 2ki 2 (t)Xi (t) + 2k22 (t) x2 (t)_ r dE -ι dxi dE L dx2 °-± = k{t) + 2fti (t) Xl (t) + 2k2 (t) x2 (t) + Ь ι (t) x\ (t) + + 2ki 2 (0 Xl (t) x2 (t) + k22 (t) x\ (i), dH , (7.181) Hu ди dfi df. 2u(t), '-[4&-.те-]'-и».ч: (7.182) (7.183) (7.184) Закон управления получаем путем подстановки (7.183) и (7.184) в (7.176); при этом 2и* + Ех, = 0, откуда — Е*· (7.185) Подставляя и* из (7.185) в уравнение Гамильтона—Якоби (7.175), получаем необходимые условия, которым удовлетворяют экстремали х!+и*2 + Х2Ем + и*Ех, которые, согласно (7.185), переходят в· . Г1. " -1- Г-Н. ._ ИЛИ - — ЕХ2-\- х2ЬХ1- — E2i - 2 χ2" ■Еи -Et (7.186) х\ + χ2ΕΧί—7-^x2= —Et. (7.187)
198 Глава 7 Подставляя 2?х%з (7.181) в (7.187), находим х\ +2kix2 + 2kiixix2 + 2ki2xl—к\—k2ki2xi— — кчк22х2—к^2к2Х\— ki2xi —ki zkz чХ\Х2— —к2 %к2х2—к2 2к\ 2х^х2—к2 2щ = — к — 2к\Х\ — — 2к%х2—h ix\ — 2ki 2х\Х2—к22х\. (7.188) Приводя подобные члены и производя преобразования в (7.188), получаем (к—kl) -f- (2kl — 2к2к12) х, + (2к2 + 2h — 2кгк22) х2 + + (kli + i-kU)x'l+(k22 + 2kl2-kt2)xt + + (2klz + 2kll — 2ki2k22)xlx2 = 0. (7.189) Поскольку необходимое условие (7.189) должно удовлетворяться для всех ^значений х, коэффициенты в этом уравнении должны тождественно обращаться в нуль, т. е. к = к\, (7.190) ki = k2ki2, (7.191) kz = h + k2k22, (7.192) ftii=-l+ft?„ (7-193) к1г=—kii + hJca, (7.194) k22=-2ki2 + kt2. (7.195) Поскольку по определению функция минимальной ошибки равна нулю для всех χ (ί) в момент t = ί1( граничные условия для (7.190) — (7.195) имеют вид к (к) =к, (ij) =ft2 (ij) =ftu (ίΟ = kZ2 (h) =kl2 (i4) = 0. Решая (7.190) — (7.195) в обратном времени от t = tt до t = t0, получаем множество коэффициентов, зависящих от времени, с помощью которых можно определить, что закон управления (7.185) может быть представлен в виде U* (f) = — к2 (0 —Al2 (0 Xl (0 —*22 (0 *2 (0· (7·196) В этом конкретном примере можно показать, что член —к2 (t), не зависящий от состояния в законе управления (7.196), равен нулю, потому что, когда х^ ш х2 равны нулю, для поддержания нулевого состояния не требуется управляющего воздействия. Таким образом, закон управления в этом примере имеет следующий вид: и* φ = _Α12 (ί) Χι (ί) — ft2 2 (0 x* (0· (7·197) Если период управления велик по сравнению с временем установления объекта, то параметры к стремятся к постоянным значе-
Оптимальное управление 199 ниям в моменты времени, близкие к началу интервала управления, как показано на фиг. 7.20, а. В пределе при ti — tQ-+- oo уравнения (7.190) — (7.195) можно записать в виде 0 = к\, 0 = k2ki г, 0=-fti + 0=—1 Параметр к -&2&2 2) У1 "Ί2> (7.198) (7.199) (7.200) (7.201) (7.202) (7.203) Состояние (7.204) (7.205) (7.206) (7.207) (7.208) Управление 6 u*(t) Фиг. 7.20. Параметры к и экстремали для системы, описываемой уравнениями Xi = х2, х1$) = 1; хг = и, х-2. (0) = 0; О — к\ ι -)- ki 2А2 2> 0=-2ftla + AJ,. При решений этих уравнений получаются постоянные значения А2 = 0, &12=1, к22 = У 2, *ι = 0, Таким образом, для больших интервалов управления закон управления, согласно (7.197), приближенно может быть представлен следующим образом: и*=— Xi — У2хг. (7.209) Замечаем, что законы оптимального управления, полученные так же, как в этом примере, обладают очень удобным свойством отрицательной обратной связи независимо от того, получены они в точном виде с коэффициентами, зависящими от времени, как в (7.197), или в приближенном виде с постоянными коэффициентами, как в (7.209). В каждый момент времени оптимальное управление является функцией состояния объекта в этот момент. Поэтому закон управления можно записать в общем виде u* = u*(x(t),t). (7.210) Напомним, что в противоположность этому оптимальные законы управления, полученные решением уравнений Эйлера — Лагранжа, не содержат обратной связи u* = u*(t), toKtK.ii. (7.211) --\(xf + и2) dt.
200 Глава 7 Связь с уравнением Эйлера — Лагранжа До сих пор мы рассматривали объект, описываемый уравнениями состояний x(t) = i[x(t),u(t),t], (7.212) и вывели необходимые условия, которым должны удовлетворять х* (0 и u* (t), чтобы достигался экстремум критерия e=\H[x(t),u(t),t]du (7.213) ίο Эти условия были получены независимо вариационным методом и методом динамического.программирования. Чтобы установить соотношения между этими результатами, покажем вначале, что Ех —λ, а затем выведем уравнение Эйлера — Лагранжа из уравнений Гамильтона — Якоби. В понтрягинской формулировке необходимых условий функция Гамильтона (7.109) определяется как Μ=Η + %τΐ = Η + ίτλ, (7.214) и условие управления требует, чтобы вдоль экстремали. Вычисляя частные производные и приравнивая их нулю, найдем оптимальное управление из #„+ί„λ = 0. (7.215) Сравнивая теперь с условием минимума критерия ошибки по методу динамического программирования и уравнением закона управления (7.176), находим, что оптимальное управление удовлетворяет уравнению Hu + iuEx = 0, (7.216) Сравнивая (7.215) и (7.216), приходим к выводу £χ=λ (7.217) Еще больше разъясняет связь между результатами вариационного исчисления и динамического программирования следующий вывод уравнения Эйлера — Лагранжа из уравнений Гамильтона — Якоби. По определению меры ошибки при ограничениях (7.39) Hc = H + %T(i-x) (7.218) уравнение Эйлера—Лагранжа (7.54) Ясх--£-Я. = 0 (7.219> at ex
Оптимальное управление 201 можно записать в виде #χ + ίχλ + λ = 0. (7.220) Согласно (7.175), уравнение Гамильтона — Якоби имеет вид H + iTEx + Et = 0. (7.221) Исключая Ех из (7.217) и (7.221), получаем уравнение Гамильтона— Якоби в виде H + lTb + Et = 0, (7.222) из которого после дифференцирования по χ находим #χ + ίχλ+(£ί)χ = 0 (7.223) или Hx+ixk+(Ex)t = O (7.224) или, поскольку dk/dt= (d/dt)k, Ηχ + ίχλ+λ = 0, (7.225) а это и есть уравнение Эйлера — Лагранжа (7.220). 7,5. Матричное уравнение Риккати В предыдущих разделах этой главы были выведены условия экстремума для систем, описываемых обыкновенными нелинейными нестационарными дифференциальными уравнениями χ = f (х, u, t) с критериями ошибки вида «1 е= \ Η (χ, u, t)dt. ίο Было показано, как можно построить меру ошибки Η (χ, α, ΐ), чтобы функции оптимального управления и состояний удовлетворяли требованиям, предъявляемым к системе, включая амплитудные ограничения, налагаемые на переменные управления и состояний. Вариационный подход приводит к двухточечной краевой задаче^ которая в общем случае может быть решена только итерационными методами, основанными на последовательном интегрировании уравнений состояний и сопряженных уравнений. Использование динамического программирования приводит к дифференциальному уравнению в частных производных, для которого не существует общего решения. Однако отмечалось, что дифференциальное уравнение Гамильтона — Якоби можно решить в важном частном случае линейного нестационарного объекта и квадратической меры ошибки.
202 Глава 7 В этом случае функция Минимальной ошибки является квадратиче- •ской по состоянию, а управление есть линейная функция состояния, что приводит к закону управления с обратной связью. Системы, содержащие линейный объект и квадратическую меру •ошибки, будут рассмотрены теперь с различных точек зрения. Будет показано, что можно вывести линейный закон управления, причем изменяющиеся во времени коэффициенты этого закона являются решениями матричного уравнения Риккати. Как и следовало ожидать, результаты,- полученные для системы управления с линейным регулятором из матричного уравнения Риккати, совпадают с результатами, полученными из уравнения Гамильтона — Якоби. Вывод матричного уравнения Риккати Рассмотрим объект, описываемый линейным уравнением состояний x(f) = F(i)x(i) + G(Qu(f), χ(ί0) = Χο (7.226) и управляемый на интервале [tQ, £j по критерию минимума средне- ивадратической ошибки ίι e = ^(xI(t)ql(t)x(t) + uT(t)qz(t)u(t))dt + xT(tl)Q3x(tl). (7.227) ίο Для того чтобы зта система имела практический смысл, предполагается, что матрицы коэффициентов Qi и Q3 положительно полуопределенные, a Q2 положительно определенная. Элементы Qi, Q2 и Q3 всегда можно определить таким образом, чтобы соответствующие матрицы были симметричными, поэтому предполагается, что они симметричны. Для многих практических систем Qj, Q2 и Q3 — диагональные матрицы с положительными элементами. Как уже упоминалось выше, хотя стоимость управления может и не быть существенной, член urQ2u должен быть включен в критерий, чтобы -ограничить амплитуду управлений. ч В более компактной форме меру ошибки можно записать следующим образом: # = (xrQlX + urQ2u), (7-228) ■а функция Гамильтона имеет вид Μ = (xrQiX + uTQ2u) + λΓ(Γχ + Gu). (7.229) Из уравнений Понтрягина (7.111), (7.112) и (7.113) x = Fx + Gu, χ(ί0) = χ0, (7.230) i=—2Qlx—F% λ ft) = 2Q3x fa), (7.231) <^„ = G^+2Q2u = 0, (7.232)
Оптимальное управление 203 откуда оптимальное управление равно и*= 1-0ί4»τλ. (7.233) Подставляя (7.233) в (7.230), получаем x = Fx— -i-GQ^G^, x(tQ)=xQ. (7.234) При решении уравнений (7.234) и (7.231) можно искать линейное соотношение между состоянием χ и соответствующей сопряженной переменной λ. Следовательно, поскольку мы стремимся найти явное решение уравнений Лагранжа и построить закон управления с обратной связью, структура уравнений наводит на мысль искать матричное преобразование Ρ (t) в виде λ(ί) = 2Ρ(ί)χ(0. (7.235) где λ и χ удовлетворяют во все моменты времени уравнениям (7.234) и (7.231). Множитель 2 введен для того, чтобы избежать дробей в уравнениях. Поскольку производная (7.235) равна λ = 2Ρχ+2Ρχ, (7.236) подстановка в (7.231) и (7.234) приводит к уравнению 2(P+PF+FTP—PGQ-K^P + QOx^O. (7.237) Поскольку требуется найти преобразование, справедливое при всех х, уравнение (7.237) удовлетворяете^, если матрица коэффициентов χ тождественно равна нулю. Это произойдет при значениях Р, удовлетворяющих матричному дифференциальному уравнению Р=— PF— FTP— Qi + PGQ-H^P. (7.238) Уравнение (7.238), называемое матричным уравнением Риккати, хорошо изучено [6]. Граничное условие для (7.238) сразу же вытекает из (7.235) и (7.231). Поскольку λ(ί1) = 2ρ8χ(ί1), (7.239) имеет место равенство P(ii) = Q3- (7.240) Кроме того, вследствие симметрии Q3 и уравнения (7.238) матрица Ρ (t) симметрична при всех значениях t. Отсюда следует, что оптимальное управление равно u*=—Q-^Px, (7.241)
204 Глава 7 где коэффициенты Ρ (t) находят интегрированием в обратном времени уравнений Риккати (7.238). Следует отметить, что, поскольку Ρ(ύ) не зависит от χ (t) или χ (tQ), тот же закон управления (7.241) справедлив для всех состояний. Можно показать [6], что решения сходятся к постоянным значениям при интегрировании в обратном времени. Эти значения можно в принципе найти, решая нелинейные, алгебраические уравнения PF + Frp + Qj—PGQ^GTP = 0, (7.242) но в общем случае предпочтительнее интегрирование дифференциальных уравнений (7.238). Замечаем, что закон управления (7.241) непосредственно применим к многомерным системам управления типа регулятора. На коротких интервалах управления коэффициенты Ρ(ί) претерпевают значительные изменения во времени, а на больших интервалах они стремятся к постоянным значениям. Пример 10 В качестве примера использования матричных уравнений Риккати рассмотрим снова пример 9. Система x2(t) = u(t), я2(*о) = Я2 0 (7.243) (7.244) регулируется на интервале [t0, t^ с целью минимизации критерия ошибки и e=\[xl(t) + u2{t)]dt. (7.245) to Решение с помощью матричного уравнения Риккати можно записать в виде x = Fx + Gu, Я = х^1Х + и^2и, λ = 2Ρχ, Р= — PF—FiP—Qj + PGQ^GT», Здесь и F = -Q-^Px. (7.246) (7.247) (7.248) (7.249) (7.250) 0 1 0 0 G = , <2ι = 1 0 о о <?2=1 (скаляр).
Оптимальное управление 205 Следовательно, матричное уравнение Риккати имеет вид λι ι λι2 λ2 1 ^22 λΐ 1 λ! 2 ™2 1 Λ2 2 1 0 ο ο 0 -λϋ .0 — λ21 0 1 ο ο_ λιι λ! 2 Λ2 1 Λ2 2. ο οι ο λΐ 1 λ)[ 2 Λ2 1 Λ2 2. [0 1] — ΓΟ 0 Ί λι ι λι 2_ — ΓΙ 01 0 0. + λΐ1 λ! 2 Λ2 ι Λ2 2_ λΐ 2λ2 1 λι 2^2 2 λ2 2λ21 λ2 2 (7.251) Разделяя отдельные уравнения, получаем λι J = 1 + Aj 2λ2 1) λχ 2 = λι ι -|- λι 2λ2 2) λ% ι = λι ι -)- λϊ 2λ2 1) λ2 2 = λ2 1 — λι 2 + λ2 ; и вследствие симметрии λι 2 = λ21 уравнения принимают вид λιι=-1 + λϊ„ λι 2 = — Mi-{-Μ -г^г 2> λ2 2 = — 2λ! 2 + λ2 2 с терминальными граничными условиями λΐ 1 (ti) = λι 2 (^l) = λ2 2 (^l) ~ 0. Закон управления имеет вид λι 1^1 τ λι 2^-2 -[О, 1] λΐ 2^1 ~Н λ2 2^2. откуда U — Aj 2^1 Л2 2^-2· (7.252) (7.253) (7.254) (7.255) (7.256) (7.257) (7.258) (7.259) (7.260) (7.261) Замечаем, что это тот же закон управления (7.196), который получается решением по методу проб из уравнения Гамильтона — Якоби. Связь с уравнением Гамильтона — Якоби Интерпретацию физического смысла Ρ (ύ) можно получить, исследуя форму критерия ошибки для оптимальных траекторий. Подставляя оптимальное управление из (7.241) в критерий ошибки (7.227) и используя определение функции минимальной ошибки
206 Глава 7 (7.160), находим экстремали E[x(t0), t0] = ^ (xTqlx + ~%TG(£1GTl)dt+xT(tl)Q!ix(ti). (7.262) «о Используя (7.234) и (7.231), можно исключить Qi и Q2 из (7.262), откуда h Ε [х(g, У =4" J ( —χΓλ—χτΓΓλ + λτρχ—λΓχ) dt + xT (ij) Q3x (h). to (7.263) Поскольку все члены в подынтегральном выражении скаляры, выражение (7.263) можно записать в виде ίι ЯНУ, У =45 [-^-(x^j^ + x^QsxW. (7.264) *0 откуда интегрированием находим £[х(д, g=4xr(g4g-|xT('i)4'i)+xT(*i)Q3x(g. (7.265) Замечая, что из (7.231) вытекает λ(ίι) = 2Q3x(£i), приведем (7.265) к виду E[x(t0),t0]^±x*(t0)%(t0). (7.266) Однако матрица 2Р (t) связывает χ и λ во все моменты времени, включая t0; следовательно, Ε [χ (g, g = хг (g ρ (g x (g. (7.267) Аналогично рассуждая, находим Ε [χ (t), t] = хт (t) P (ύ) χ (t), (7.268) откуда получается простое соотношение между функцией минимальной ошибки, матричной функцией Риккати и функциями состояний. Заметим, что квадратическая форма функции минимальной ошибки в (7.268) является менее общей, чем постулированная при решении уравнения Гамильтона — Якоби (7.180). Во втором случае выбрана функция Ε[χ(ύ), t] = к (t) + 2kT (ί)χ (ή + хт(0 К (t)x(t). (7.269) Различие оказывается существенным, когда мера ошибки имеет вид Η [χ (f), и (f), t) = q(t) + qT (0 x (0 + xT (0 Qi (0 x (0 + uT (f) Q2 (f) u (f), (7.269a)
Оптимальное управление 207" более сложный по сравнению с функцией (7.227), использованной при выводе матричных уравнений Риккати. Мера ошибки вида (7.269а) не возникает в так называемой системе регулирования, где целью является поддержание состояния объекта на некотором постоянном уровне, но появляется в следящей системе, где желательно, чтобьъ состояние объекта отслеживало как можно точнее некоторую заданную желаемую ненулевую траекторию. Эти два типа систем управления существенно различаются по форме закона управления, что легко можно понять, рассмотрев следующий пример. Пример 11 Пусть управление объектом xi = x2, Μ*ο) = 0, (7.270> х»=и, xz(t0) = 0 (7.271) производится так, чтобы возможно точнее отслеживалось смещение χ\·{() = 1 (ίο^Ξ^^ι)· Для достижения этой цели при конечном управлении выберем меру ошибки H=[x*(t) — x1(t)]* + u*(t) (7.272) или Я=(1 — xtf + u* (7.273) или H = i — 2x1 + xt1 + u*. (7.274) Сразу же видно, что процедура с матричным уравнением Риккати неприменима, по крайней мере в том^виде, как это описана в предыдущем разделе. Однако процедура Гамильтона — Якоби (см. стр. 196) может быть использована. Если Ε (χ, t) = к-\- 2к^ -f- 2k2x2-{- &i \x\ + 2ki 2x\X2Ar k22x\, (7.275) то Г 2&i + 2ki iXi + 2&J 2^2 x ~~ [ 2кг + 2ki 2xi + 2k2 гх2 (7.276) Et = k+ 2к^ + 2к2х2 + кцх1+ 2ki-2ixix2-*rk22x\. (7.277) Кроме того, Hu = 2u (7.278) fu=[0, 1]. (7.279) Вдоль экстремалей уравнение Гамильтона—Якоби (7.175) принимает вид R.+ iTEx+Et = 0 (7.280)
208 Глава 7 и закон управления (7.176) —вид Hu + iuEx = 0. Из (7.-276), (7.278), (7.279) и (7.281) получаем 2и* + [0, 1] &Х1, ЕХа = 0 или "*= 2"^Х2· ' Из (7.274), (7.270), (7.271), (7.276), (7.277) и (7.280) 1 — 2^ -)- хг 4"4" ЕХ2-\- х2ЬХ1- -\еъ+е< = (7.281) (7.282) (7.283) следует 0 (7.284) или I -2xf+ xl + х2ЕХ1-±-Е%2+ Et = 0. (7.285) Подставляя Ех и Et из (7.276) и (7.277) в (7.285), получим, что уравнение Гамильтона — Якоби удовлетворяется вдоль эктрема- лей, откуда следует 1 — Δχι -f- x-y -|- LK\X2 -\- Lh\ \Х\Х2 -\- ик\ 2xz — ft2— ki 2xi — — "-2 a^"2 — ώΛ2Λΐ 2^1 — ik2k2 2^-2 — ""-1 2""2 2^-1^2 ~Η "" ~Т + 2к^ + 2k2x2 + Aj &\ + 2ki 2xix2 + k2 2x\ = 0. (7.286) Поскольку это уравнение должно выполняться для всех состояний, — ft = l — ft2., (7.287) — ft1=—l-ft2fti2, (7.288) — ft2 = fti — k2k22, (7.289) -ftj^l-ft2,, (7.290) — ft12 = ftn — kl2k22, (7.291) — ft2 2 = 2ftj 2- ^22. (7.292) где ft(.1) = ft1(.1) = A2(^)-=Aii(ii) = Ai2(^) = ^2 2(^) = 0. (7.293) Согласно (7.283) и (7.276), закон управления имеет вид u* = —ft2 —fti 2xi — k22x2, «0<^<^, (7.294) где ft2(-)^0. Как видим, этот закон управления отличается от закона (7.261) тем, что он содержит член ft2 (t), описывающий прямое регулирование. Наличие этого члена в управлении наблюдается в следящих системах; он возникает из-за того, что требуемая функция состоя-
Оптимальное управление 209 ния xd (i) (t0 ^ t ^ ίι) входит в меру ошибки. Хотя вывод матричного уравнения Риккати (см. стр. 202 — 205) не позволяет включать члены, описывающие желаемые состояния, обобщение метода Риккати на этот случай имеется у Риса [9]. 7.6. Выводы Пусть уравнения состояний и начальные состояния имеют вид x=f(x, u, t), χ(ί0) = χ0, а критерий ошибки равен е= Ι Η (χ, u, t) dt, *0 где Н обозначает меру ошибки. Уравнения Эйлера — Лагранжа Если мера ошибки при ограничениях Нс определена через множитель Лагранжа или функцию сопряженной переменной λ (t) посредством соотношения #ο = # + λτ(ί-χ), то необходимые условия экстремума критерия ошибки имеют следующий вид: Нси = 0 (уравнение управления), Нск = 0 (уравнение состояний), Hex—j-#.=0 (уравнения Эйлера—Лагранжа, или сх сопряженные уравнения), [χτλ]ί* = 0 (условия трансверсальности), где χ — произвольная вариация относительно х*. Уравнения Понтрягина Определив функцию Гамильтона 3£ = Η + λΊί, можно сразу же показать, что необходимые условия экстремума имеют вид ά%Ίι = 0 (уравнение закона управления), Ш%.—х = 0 (уравнение состояний), <2^χ + λ = 0 (сопряженные уравнения), [χτλ]^ = 0 (условие трансверсальности),
210 Глава 7 Уравнение Г амилътона—Якоби Определив функцию минимальной ошибки li Ε (χ, t) — min Ι Η (χ, u, σ) da, u Jt получим необходимое условие экстремума min [Η (χ, u, ί) + 1ΤΕΧ (χ, t) + Et (χ, t)] = 0 u (условие динамического программирования для минимума критерия ошибки). Отсюда следует, что должны выполняться следующие условия: Η (χ, u, t) + ϊτΕχ (χ, t) + Et (x, t) = 0 (уравнение Гамильтона — Якоби), Я„(х, и, £)-f fu2?x (х, £) = 0 (уравнение управления). Для линейных уравнений состояний и квадратических мер ошибки в общем виде имеем ч Η (χ, u, t) = q+ qTx+ х^х+ и^2и, причем функция минимальной ошибки имеет вид E(x,t) = k+ 2krx + xrKx. Поскольку Ех = λ, уравнение Эйлера — Лагранжа можно вывести непосредственно из уравнения Гамильтона — Якоби. Матричное уравнение Риккати Для линейного уравнения состояний и начального состояния χ = Гх -j- Gu, χ (tQ) = x0 и Квадратической меры ошибки Я (χ, iM) = xrQix+iirQ2u оптимальный закон управления имеет вид u*=—Q^GrPx, причем коэффициенты Ρ удовлетворяют матричному уравнению Р= — РГ—ГТР—Qj + PGQ^P (матричное уравнение Риккати). Поскольку λ = 2Рх, функция минимальной ошибки для уравнения Гамильтона—Якоби имеет вид Ε (χ, t) = хгРх.
Оптимальное управление 211 Применения Уравнения Эйлера — Лагранжа и Понтрягина применимы к системам с нелинейными нестационарными уравнениями состояний и неквадратическими нестационарными мерами ошибки. Уравнения Гамильтона — Якоби на практике применимы к системам с линейными нестационарными уравнениями состояний и квадратическими мерами ошибки вида Я (х, u, t) = q + qTx + x^QjX + uTQ2u, как это требуется в следящих системах. Применение матричных уравнений Риккати обычно ограничено системами с линейными нестационарными уравнениями состояний и квадратическими мерами ошибки вида Я(х, u,i) = urQ1x + urQ2u) как это требуется в системах регулирования. Задачи 1. Чтобы получить возможность определять необходимые условия, которым должны удовлетворять экстремали, рассмотрим простую физическую систему и несколько типичных ситуаций. Необходимые условия состоят из системы уравнений состояний и сопряженных уравнений вместе с соответствующими граничными условиями. В общем случае не существует общих решений этих уравнений, хотя методы, описанные в гл. 8, можно использовать для отыскания экстремалей. Пусть физическая система состоит из единичной массы, движущейся в среде, в которой сила трения пропорциональна квадрату скорости. Уравнения состояний, которые нелинейны, имеют вид Xl = ^2> Х% ~=г=- Х% —\- U, где Xi — перемещение; хг — скорость (предполагаемая положительной); х3 — ускорение. Начальное состояние системы в одних случаях считается фиксированным, а в других— ограничено подмножеством в пространстве состояний. Конечные состояния могут быть фиксированными, ограниченными некоторым подмножеством пространства состояний или свободными в зависимости, от постановки задачи. Интервал, управления tt — tQ = Τ считается фиксированным в одних случаях и свободным в других. Если бы объект был нестационарным, то нам понадобилось бы также задание начального момента ί0·
212 'Глава 7 В некоторых случаях траектория состояний должна отслеживать некоторую желаемую траекторию xd (t0 < t <C ti), причем в этом случае в мере ошибки должен появиться квадратический член (х — xd)rQi (х — xd), где Qj —диагональная матрица с положительными элементами. Если требуется, чтобы на одних участках траектории ошибки взвешивались с большим весом, чем на других, то элементы Qj должны быть нестационарными. В частном случае, когда весь вес сосредоточен на ошибке состояния в конце интервала х(£) — xd (t), элементами Qi являются дельта-функции с ненулевыми значениями при t = tt. В случаях когда амплитуда состояний ограничена, в меру ошибки должны быть введены члены с функцией штрафа. Они должны иметь вид (xi/Xi)2M, где ±Xt обозначает максимально допустимые пределы хь а М — большое целое число. Для предельных амплитуд сигнала управления квадратический член urQ2u часто включается в меру ошибки. В тех случаях, когда известно, что оптимальное управление имеет релейный характер, например в системах, оптимальных по быстродействию, в меру ошибки может быть включена штрафная функция (иг-/?/г-)2м. С другой стороны, при вычислениях можно использовать принцип минимума. Имея в виду эти замечания, необходимые условия оптимальности управления для описанной выше системы, можно определить в следующих случаях. а. Начальное состояние фиксировано при χ (0) = 0. Конечное состояние свободно. Желаемая траектория х\ (ΐ) = 1. На амплитуду управлений наложено квадратическое ограничение. Конечный момент времени фиксирован при fj = 1. б. Начальное состояние фиксировано при χ (0) = 0. Желаемое конечное состояние xd (ij) = [1, OF. Желаемая траектория х\ (ΐ) = 1. На амплитуду управлений наложено квадратическое ограничение. Конечный момент времени фиксирован при fj = 1. в. Начальное состояние фиксировано при χ (0) = 0. Желаемое конечное состояние xd (ti) = [1, OF. Желаемая траектория х\ (t) = 1. Амплитуда управлений ограничена значениями +1. Конечный момент времени фиксирован при fj = 1. г. Начальное состояние фиксировано при χ (0) = 0. Желаемое конечное состояние xd (ij) = tl, OP. На траекторию состояний ограничение не наложено. На амплитуду управлений наложено квадратическое ограничение. Конечный момент времени фиксирован при fj = 1.
Оптимальное управление 213 д. Начальное состояние фиксировано при χ (0) = 0. Желаемое конечное состояние xd (ti) = [1, OF. Траектория состояний ограничена так, что х2 (t) не выходит за пределы ±0,5. На амплитуду управлений наложено квадратическое ограничение. Конечный момент времени фиксирован при ti = 1. е. Начальное состояние ограничено окружностью х\ + х\ — -1=0. Конечное состояние фиксировано при χ (ij) = [2, 0]г. На траекторию состояний ограничение не наложено. На амплитуду управлений наложено квадратическое ограничение. Конечный момент времени фиксирован при ί± = 1. ж. Начальное состояние фиксировано при χ (0) = 0. Конечное состояние ограничено окружностью (χι — 2)2 + + л£ — 1 = 0. На траекторию состояний ограничение не наложено. На амплитуду управлений наложено квадратическое ограничение. Конечный момент времени фиксирован при ti = 1. з. Начальное состояние фиксировано при χ (0) = 0. Конечное состояние ограничено движущейся окружностью (χι — 2-02 + х\ — 1 =0. Начальный момент времени фиксирован при t0 = 0. На траекторию состояний ограничение не наложено. На амплитуду управлений наложено квадратическое ограничение. Конечный момент времени фиксирован при ij = 1. и. Начальное состояние фиксировано при χ (0) = 0. Конечное состояние фиксировано при χ (ij) = [1, OF. На траекторию состояний ограничение не наложено. На амплитуду управлений наложено квадратическое ограничение. Достичь конечного состояния за минимальное время, к. Начальное состояние фиксировано при χ (0) = 0. Конечное состояние фиксировано при χ (t^ = [i, OF. На траекторию состояний ограничение не наложено. Амплитуда управлений ограничена пределами ±1. Достичь конечного состояния за минимальное время, л. Начальное состояние ограничено окружностью х\ + х\ — — 1=0. Конечное состояние ограничено окружностью (х. — 2)2 + + :е* — 1 = 0. На траекторию состояний ограничение не наложено. Амплитуда управлений ограничена пределами ± 1.
214 Глава 7 Осуществить переход от начального состояния к конечному за минимальное время, м. Начальное состояние фиксировано при χ (0) = 0. Конечное состояние ограничено движущейся прямой Χι + + х2 — 1 — t = 0. На траекторию состояний ограничение не наложено. На амплитуду управлений наложено квадратическое ограничение. Достичь конечного состояния за минимальное время, н. Начальное состояние фиксировано при χ (0) = 0. Конечное состояние фиксировано при* χ (ij) =[1, 0]т. На траекторию состояний ограничение не наложено. Конечный момент времени фиксирован при ti = 1. Достичь конечного состояния с минимальным расходом топлива, т. е. πριτ минимуме ι \\u(t)\ at. о о. Начальное состояние ограничено окружностью х\-\- х\ — 1 = = 0. Конечное состояние ограничено окружностью (xt — 2)2 + + а» - 1 = 0. На траекторию состояний ограничение не наложено. Конечный момент времени фиксирован при tt = 1. Достичь конечного состояния при минимальном расходе топлива, п. Начальное состояние фиксировано при χ (0) = 0. Конечное состояние ограничено движущейся окружностью (ж, - 2 - *)2 + х\ = 0. На траекторию состояний ограничение не наложено. Конечный момент времени фиксирован при ij = 1. Достичь конечного состояния при минимальном расходе топлива. 2. Для системы, в которой единица массы движется в среде, где сила трения пропорциональна скорости, уравнения состояний линейныз Х\ = Х2л η Х2= —Xt + U. Предположим, требуется управлять этим процессом при наличии случайных возмущающих сил, так чтобы положение и координата массы были как можно ближе к нулю. Вывести закон управления с обратной связью, используя: а) уравнения Гамильтона — Якоби; б) матричное уравнение Риккати.
Литература 215 Покажите, что система дифференциальных уравнений, определяющих коэффициенты в законе управления, в обоих случаях одинакова. ЛИТЕРАТУРА 1. Athens Μ., The status of optimal control theory and applications to deterministic systems, IEEE Transactions on Automatic Control, July 1966. 2. A t h a n s M., F a 1 b P. L., Optimal control; an introduction to the theory and its applications, McGraw-Hill, N.Y., 1966. . 3. Bellman R., Dynamic programming, Princeton University Press, 1957; русский перевод: Б е л л м а н Ρ·, Динамическое программирование, ИЛ, 1960. 4. Bryson Α. Ε., Applications of optimal control theory in aerospace engineering, Journal of Spacecraft and Rockets, 4, № 5, 545 (May 1967). 5. Courant R., Hilbert D., Methods of mathematical physics, Inter- science Publishers, 1953, Vol. 1, p. 231; русский перевод более раннего издания: КурадтР., Гильберт Д., Методы математической физики, Гостехиздат, М.—Л., 1951. 6. К а 1 m a n R. Ε., Contributions to the theory of optimal control, Boletin de la Sociedad Mathematica Mextcana, 102 (1960). 7. Μ e r r i a m C. W., Optimization theory and the design of feedback control systems, McGraw-Hill, 1964. Ъ. Понтрягин Л. С, Болтянский В. Г.,Гамкрелидзе Р. В, Мищенко Ε. Φ., Математическая теория оптимальных процессов, изд-во «Наука», 1969. 9. R e e s N. W., Optimization and identification studies on a pilot distillation column, Proceedings 3d IFAC Congress, London, 1967. 10. S a g e A. P., Optimum systems control, Prentice-Hall, 1968.
Глава 8 ПРИМЕНЕНИЕ ТЕОРИИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Как часто отмечают, для современной теории управления характерен заметный разрыв между теоретическими разработками и их практическими приложениями в области управления промышленными объектами. Теория управления широко и с успехом применяется в системах, обеспечивающих космические полеты, но несмотря на это ее достижения в промышленности сравнительно невелики. Пытаясь пролить свет на столь необычную ситуацию, мы рассмотрим в этой главе более важные для практики аспекты применения теории оптимального управления. В разд. 8.1 рассмотрены возможные пути поиска оптимального управления и описаны процедуры случайного поиска, методы динамического программирования и вариационный подход. Особое внимание уделяется вычислительным проблемам, связанным с каждой из процедур. В разд. 8.2 уделено внимание вариационным методам. Снова выведены необходимые условия экстремума. Хотя эти условия имеют весьма общий характер и применяются к системам, описываемым нелинейными уравнениями состояний и неквадратическими мерами ошибки, мы специально упоминаем о частных результатах, применимых к системам, описываемым линейными уравнениями с квад- ратической мерой ошибки. Мы поступаем так потому, что эти результаты можно просто применить для практического управления объектами с многими входами и многими выходами. В общем случае для нелинейных неквадратических систем должны быть найдены способы получения оптимальных управлений, удовлетворяющих необходимым условиям, вытекающим из вариационного исчисления. Один из подходов — квазилинеаризация — описан в разд. 8.3; в разд. 8.4 изложен более предпочтительный релаксационный принцип. Последний метод приводит к итерационным процедурам, имеющим желательные свойства сходимости. В разд. 8.5 более подробно рассматривается конкретная форма адаптивного оптимального управления, которое объединяет в одном устройстве основные черты оценивания параметров, состояний и оптимального управления. Это совмещение ролей достигается за счет использования только трех систем уравнений, а именно, уравнений состояний, сопряженных уравнений и уравнений чувствительности. Таким образом не только находится управляющее уст-
Применение теории оптимального управления ,217 ройство, которое может быть реализовано, по крайней мере для простых процессов, но и появляется возможность связать воедино различные результаты, полученные в разных частях этой книги, и выделить общую основу этих процедур оценивания. Приводятсд некоторые замечания относительно синхронизации и последовательности действий при создании управляющего устройства. В конце главы рассматривается важная практическая задача построения субоптимальных устройств управляющих. Иэ множества таких управляющих устройств выделены использующие линеаризованную модель объекта, оптимальные по быстродействию системы, использующие приближенные поверхности переключений, и, наконец, частный вид нелинейных управляющих устройств с обратной связью, которые мы назовем особыми оптимальными управляющими устройствами. 8.1. Вычисление оптимальных управлений Вначале можно было предположить, что при наличии мощных вычислительных машин оптимальные управления - легко будет найти, систематически перебирая все возможные функции управления и выбирая те из них, которые обеспечивают наименьшее значение критерия ошибки. Хотя допустимое множество функций управления в общем случае бесконечно, можно попытаться ограничиться выбором конечного подмножества и свести объем вычислений к допустимым пределам. К сожалению, было установлено, что такие процедуры требуют чрезмерно большого количества вычислений, за исключением самых тривиальных" систем управления. Вполне очевидно, что поиски необходимо систематизировать таким образом, чтобы рассматривалась только очень малая часть допустимого множества управлений. С этой целью был разработан метод численного динамического программирования, позволяющий быстро определять оптимальную траекторию на основании множества ранее полученных результатов вычислений, хранящихся в памяти машины [1]. Однако даже при такой процедуре выбора управлений требования к памяти машины таковы, что их можно эффективно использовать только для объектов сравнительно невысокого порядка. Метод, пригодный для систем высокого порядка, основывается на медленно сходящемся релаксационном методе, используемом для решения систем дифференциальных уравнений. Как показано ниже в этой главе, выбирают начальное произвольное (и субоптимальное) управление и решают уравнения состояний. Это решение используют в качестве возмущения в сопряженной системе, которую решают "в обращенном времени. Как и следовало ожидать, эти решения не обеспечивают обращения в нуль градиента гамильтониана
218 Глава 8 по управлению, как это требуется из условия экстремума. Тем не менее они обеспечивают коррекцию, которую следует произвести над управлением, чтобы приближение к экстремуму было более точным при последующих итерациях. Хотя релаксационный метод требует большого объема вычислений, требования к памяти в общем случае лежат в пределах возможностей современных вычислительных машин. Следовательно, он приводит к практическому методу расчета оптимальных управлений для систем высокого порядка с нелинейными уравнениями состояний и неквадратическими мерами ошибки. 8.2. Вариационный подход Пусть заданы уравнения состояний объекта и начальные условия x(f) = f(x(f),u(i),i), x(t0) = a (8.1) и критерий ошибки /= θ (x(f,)) +J Я[х(0, u(f)]df. (8.2) ίο В гл. 7 было показано, что если определить гамильтониан <й? = Я[х(0, u(f), t] + KT(t)t[x(t), u(i), t], (8.3) то необходимые условия экстремума (8.2) будут иметь вид -f}[x*,u*(t),t], Xi{t0) = ait (8.4) dfk d f_ д&е Έ~Χ}~ dXj dt 3 dxj dXj 1* dH * Ά 0*J N.» ^^)=S- (8·5) $S* = $e[x*(t), λ*(ί), u»(i), i]=min $?[x*(0. λ·(ί), u(f), t], [t0, h]. (8·6) где / = 1, .· ·, п. 8.3. Линейная квадратическая задача Для систем с линейной моделью и квадратиче,ским критерием ошибки в гл. 7 было показано, что оптимальное управление мощно непосредственно выразить как функцию состояния. Таким образом, из (7.241) следует u*(0 = -QrGrP(0x(0, (8-7) где зависящие от времени коэффициенты Ρ (t) получаются интегрированием в обратном времени вспомогательной системы уравнений
Применение теории оптимального управления 219 Риккати (7.238) P(i)=-P(OF-FrP(0-Qi + P(OGQ-1GrP(0, P(f/) = Q», (8.8) гДе Q21 G» Ρ) Qi» Q3 — известные величины. Для интервалов управления, коротких по сравнению с временем установления переходного процесса в объекте, коэффициенты Ρ (t) в законе управления (8.7) существенно изменяются во времени. С другой стороны, для больших интервалов управления коэффициенты мало изменяются во времени, и их можно считать постоянными, удовлетворяющими уравнению (7.242). Пример 1 В качестве примера расчета оптимального управления для линейной системы с квадратическим критерием ошибки проведем синтез простой следящей системы управления, используя подход Гамильтона — Якоби (разд. 7.4). Рассмотрим объект, показанный на фиг. 8.1. и > 1 Р + 1 χι > 1 Р + 2, Фиг. 8.1. Простая система второго порядка. Мы ищем оптимальное управление и (t), минимизирующее критерий ошибки J=\Hdt, (8.9) где H = ai (^-Д^ + ааОЕа-Д^-Ни-Дя)·: (8.10) Здесь Di (t) — желаемая реакция *j (t); D2 (t) — желаемая реакция хг (t); D3 (t) — желаемая форма и (t); αϊ и α2 — весовые коэффициенты. Уравнения состояний для объекта имеют вид 0 и. (8.1-1) Оптимальное управление и* (t) удовлетворяет условию динамического программирования (7.174) min [Η (χ, u, t) + kTEx (x, t)] = — Et (x, t). (8.12) "(0 J- Γ11 = dt UJ X[
220 Глава 8 Подставляя Η из (8.10) и χ из (8.11), получаем min\ai(xi — Dl)2 + a2(x2—D2)2 + (u—D3)2 + ( — xl + U)-^- + + («-2%>-£]=-£- " <8·13) Поскольку условием минимума является обращение в нуль производной по и, имеем 2(u-D3)+^ = 0 и, следовательно, Предположим, что оптимальная функция ошибки имеет следующий вид: E = k{t) + 2ft, (ϊ) Xi (t) + 2ft2 (t) x2(t) + ft! J (0 x\ (t) + + 2ftj 2 (ί) ζ, (f) x2 (t)+k22(t) ^ (0· (8·15) Подстановка (8,15) в (8.14) дает u* = D3— ftj—ftna:i—ft12^2- (8.16) Подставляя (8,16) и (8,15) в (8,13), находим уравнение оц (ж*) — 2»^! (χι) + а^1 + а2 (хг2) — 2a2D2 (x2) + + a2Dt + К + Ц, (xl) + к\ 2 (xl) + 2ftA J (si) + -1- 2ftj jftj 2 (xiXz) + 2ftifti 2 (ж2) — 2fti (χι) — 2fti ι (x\) — — 2h 2 (хл) + 2k,D3 + 2ft! ,D3 fo) + + 2ft! 2D3 (x2) — 2fti - 2ftifti i (χι) — 2kiki 2 (x2) — — 2kiki ι (χ,) — 2ft', (x\) — 2ftj jftj 2 (x^x2) — — 2k fa 2 (x2) — 2ftj jftj 2 (ar^u) — 2ft" 3 (xl) + H- 2ft2 (^i) 4- 2ft, 2 (ж?) -ι- 2ft2 2 (^2)—4ft2 (^2) — — 4ftj 2 (Ж1Ж2) — 4ft2 2 (^2) = = — ft— 2k\(xl) — 2k2(x2) — ft'nK) — 2k\2(xix2) — k22(xl). (8.17) Если уравнение (8.17) справедливо при всех значениях х^ и х2, то все независимые коэффициенты при степенях xi и х2 должны совпадать в обеих частях уравнения. Коэффициент при х\ дает — kll = al—kl1 — 2kii + 2kl2. (8.18) Коэффициент при х^х2 дает —fti2= — ftnfti2 — 3ft12 + ft22· (8.19)
Применение теории оптимального управления 221 Коэффициент при х\ дает -4 2 = αϋ—ftf,—4й*а· (8-20) Коэффициент при ^ дает —uj=r —ajBj—^jj-j-AjjBg—Aj-)-^. (8.21) Коэффициент при х2 дает —к\ = —ааДг — АЛ а +*i 208 — 2*2- (8·22) Постоянный .коэффициент дает — ft = aiDJ + aafli —ΑΪ + 2*ιΑ,· (8.23) Граничные условия для уравнений (8.18) — (8.23) получаем из (8.15), учитывая, что значение Ε в момент времени t = tf равно нулю. Таким образом, A(i/) = fti(i/) = ft2.(i/) = ftii(i/) = fti2(i/) = ft22(i/) = 0. (8.24) Если заданы желаемые функции Д (t), D2 (t) и D3 (t) и правильно выбраны весовые коэффициенты оц и ос2, то уравнения (8.18) — (8.23) можно решить, используя граничные условия (8.24). Тогда (8.16) дает оптимальное управление. Теперь сделаем несколько важных замечаний, касающихся формы этих уравнений. а. Уравнения для переменных с двойнымичиндексами (kt j, k{ 2, к2 г) можно решать независимо от других уравнений. Это матричные уравнения Риккати. б. Уравнения для переменных с простыми индексами (к{, к2) — это линейные уравнения с переменными коэффициентами, зависящими от функций кц, kl2, k22, Bj, D2 и Da. в. Уравнение для переменной без индекса (к) не используется, так как оптимальное управление (8.16) не зависит от к. К сожалению, уравнения для к{ и к2 зависят от Di, Dz и Da. Следовательно, на первый взгляд может показаться, что уравнения (8.21) и (8.22) необходимо решать каждый раз, когда мы меняем желаемые функции реакций. Однако при условии, что мы используем стандартные формы В ι (t), D2 (t) и Da{t), можно воспользоваться замечанием (б), и тогда эти уравнения требуется решать только один раз. В качестве примера рассмотрим случай, когда Dit D2 и D3 — константы. Поскольку уравнения (8.21) и (8.22) линейные, решение можно разделить на решение однородной задачи (с нулевыми управлениями, но заданным начальным условием) и частное интегральное решение (с нулевым начальным условием).
0,3' ο,ζ Время, с ^ 1 1 1 1 I ^ tf-t tf-Z tf-3 tf-4 tf-S tf-в Время, с 1 1 1 1 1 _ tf tf-t tf-Z tf-3 tf-4 tf-S tf-6 n22 Время, а ~t} уч tpi tpa tpi tpi tpr 0 -ο,ζ- -0,4- -QS- -0.8. 4 p tf-f I tf-2 1 tf3 I г tj-4 tfS tf-6 Время, с чг _j [_ Время, с tf tf-Г tf-2 tf3 tf-4 tfS tjB д tf tf-! tf2 tf-3 tf-4 tf-S tf-6 1 1— r~" Время, с Фиг. 8.2. Траектории ко
Применение теории оптимального управления 223 Пусть li, l2 — решение однородной задачи. Тогда 1\ и lz удовлетворяют следующим уравнениям: — Zi=—Ziftu —Zi + k. h(tf)=kl(tf) = 0, (8.25) — /a= —Zi*ia—2ia. h (*/) = h (tf) = 0. (8.26) Рассмотрим только Д. Частное интегральное решение для Д = 1 и Dz = Da = 0 обозначим pj j и р12. Функции рц и р12 удовлетворяют уравнениям —Ри=—«ι—Ри*ц—Ριι + Ριζ. Ριι(ί/) = 0, (8.27) — Ρΐ2=— Pi ι^ιζ—2ρι2, ρι2(ί/) = 0. (8.28) Аналогично, если принять D2 = i и Д = В3 = 0, то получаем урав- йения для частных интегральных решений: — P2i= — Pzihi—P21 + P22, P2i(tf) = 0, (8.29) —Р2 2=—α2Ρ2ι*ΐ2—2ρ22, ρ22(ί/)=0. (8.30) Если мы положим D3 = l и Di = D2 = 0, то получим следующие 5l -*-' i^-2 iy-J £-' fc-ί- tf-6 -ο, ι Pi 2 -0,3 -0,4 -\ \ - -QP- 0.4 о.з r11 0,1 0.1 0 qo3 r « о,ог r1l ' 0,01 0 - 1 1 iri 1 1 1 trz ' 1 1 ж I I tf-3 tj-4 3 ι ι ι ι Время, а Время, с tf~S tf6 ι ι */-' tf-i tf-3 tf4 t,-5 tfS эффициентов (пример 1).
224 Глава 8 интегральные уравнения: —гц = — гцкц + кц — ru + ri2, rn(tf)=0, (8.31) —г12=— Гцк12 + к12 — 2rla, ri2(tt) = 0. (8.32) Наконец, можно использовать теорему суперпозиции для линейных уравнений и записать решения (8.21) и (8.22) в виде kl = ll + Dlpll-\-D2p2i + Darli, (8.33) А2 = /2 + АР12 + -ОгР2 2 + А|Г12. (8.34) Уравнения (8.25) и (8.26) представляют собой однородные линейные уравнения с переменными коэффициентами при нулевых начальных условиях, поэтому Zj и 12 тождественно равны нулю. Таким образом, подставляя (8.33) в (8.16), получаем выражение для оптимального управления u* = Da — D^ ι — D2p21 — Ζλ,η ι —ki ^ — fa 2x2. (8.35) Зависящие от времени коэффициенты pj ь р2 j, г ι i, fa j и fa 2 можно получить, решая уравнения (8.18) — (8.20) и (8.27) — (8.32). Эти уравнения следует решать в обратном времени от tt до t0, поскольку граничные условия заданы в момент t = tp Уравнения (8.18) и (8.20) нелинейные, они зависят от αϊ и а2. Следовательно, раздельное интегрирование этих уравнений нужно производить при любом различном, задании <х\ и а2. В качестве иллюстрации положим αϊ = α2 = 1. Реакции, найденные по соответствующим уравнениям, показаны на фиг. 8.2. Заметим, что оси времени на фиг. 8.2 соответствуют обратному отсчету времени от момента t = tf. Фиг. 8.2 показывает, что при условии, если интеграл (t0 — tf) велик по сравнению с временем установления переходного процесса в объекте, коэффициенты в законе управления можно считать постоянными. В табл. 8.1 приведены асимптотические значения Таблица 8.1 Коэффициенты управления для различных значений οι и о2 а^ а2 ки к12 Ри Ра '11 1,0 1,0 0,464 0,719 —0,667 —0,333 0,333 0 1,0 0,0777 0,0807 0 —0,447 0,106 0 10,0 0,533 0,675 0 — 2,67 0,465 0 100,0 2,04 4,12 0 -9,81 0,804 0 0,01 0,0008333 0,000833 0 —0,00499 0,00125 1,0 0 0,414 0 —0,707 0 0,293
Применение теории оптимального управления 225 коэффициентов для некоторого диапазона значений αϊ и α2· Заметим только, что коэффициенты pj j, р2ι, π ι, &ι ι и hi 2 входят в оптимальный закон управления. А "^\ + /^ + -. а* ~ Р + , -Кц -А/2 *f 1 p+Z Фиг. 8.3. Оптимальное управляющее устройство (пример 1). Оптимальный закон управления (8.35) может быть очень просто реализован на практике. Мы имеем комбинацию прямого управления и обратной связи, как показано на фиг. 8.3. Замечания по поводу оптимального управления линейным объектом при квадратическом критерии ошибки 1. Оптимальный закон управления легко можно использовать; он описывается коэффициентами прямого управления и обратной связи. 2. Коэффициенты управляющего устройства не зависят от начального состояния. 3. Коэффициенты управляющего устройства можно сделать не зависящими от желаемого состояния и траекторий управления. 4. Коэффициенты управляющего устройства зависят от весов, приписываемых различным компонентам критерия качества. Если веса изменяются, то управление для коэффициентов следует еще раз проинтегрировать. 5. Если задать несовместимое желаемое состояние и траектории управления, то получится компромиссное решение, которому будет соответствовать некоторая установившаяся ошибка. 6. На практике часто оказывается трудной задачей выбрать весовые коэффициенты в критерии качества так, чтобы разумное решение получилось без каких-либо нелинейных эффектов, например без насыщения управления. 8Л. Нелинейная или иеквадратическая задача Вообще говоря, когда модель нелинейная или мера ошибки иеквадратическая, нельзя найти такой же простой закон управления, как, например, для линейной квадрэтической задачи, и при синтезе
226 Глава 8 управляющего устройства мы должны основываться на уравнениях состояний (8.4), сопряженных уравнениях (8.5) и уравнениях для управлений (8.6). Непосредственное решение уравнений связано с двухточечными граничными условиями. Из возможных методов решения этих уравнений рассмотрим методы квазилинеаризации и релаксации. 8.5. Квазилинеаризация . Один из методов решения двухточечной граничной задачи заключается в использовании уравнения (8.6) с целью исключения управлений из уравнений (8.4) и (8.5). В этом случае уравнения (8.4) и (8.5) можно представить в виде x = f (χ, λ), χ(ί0) = β, (8.36) λ = β(χ, λ), λ(ί/) = ν«θ. (8.37) Добавляя векторы х и λ, (8.36) и (8.37) можно объединить в одно уравнение £η = β(η), (8.38) где η — 2в X 1-вектор -«- ; начальными условиями в (8.38) являются условия, определяемые (8.36) и (8.37). Запишем граничные условия в виде / = 1, 2, ..., 2п, tt = t0 или tf. (8.39) Уравнения (8.38) можно решить при заданных граничных условиях (8.39) методом квазилинеаризации [2]. Начиная с номинального решения, удовлетворяющего граничным условиям, но не условиям (8.38), мы затем линеаризуем дифференциальное уравнение (8.38) относительно номинальной траектории. Допустим, что мы имеем номинальную траекторию r\h (ί); тогда η&+1 (ί) удовлетворяет следующему линеаризованному уравнению: i (η"+1) = ε |η* + Εη \г (η*« - η"), (8.40) где Εη — (2η Χ 2и)-матрица с i/'-й компонентой dztldy\j. Общее решение уравнения (8.40) можно записать в виде 4fc+1 (0 = Φ (ί, ίο) η"+1 (ίο) + Ρ (<). (8-41) где Φ (ί, ί0) есть (2η Χ 2?г)-матрица вспомогательного решения (8.40) и Ρ — (2п X 1)-вектор, частное интегральное решение (8.40) [8]. Матрицу Φ (ί, t0) можно определить, интегрируя следующее
Применение теории оптимального управления уравнение: ί Φ (f, г0) = ΕηΦ (г, г0), Φ (t, ί0) = Ι- (8.42) Матрицу Ρ (ί) можно получить в виде Α(Ρ) = ΕηΡ+(ε'ί-Εηη'ί)( Ρ(ί0) = 0. (8.43) Если уравнение (8.41) эквивалентно заданным условиям, то мы имеем систему In линейных алгебраических уравнений, которые можно легко решить относительно ηή+1 (tQ). Эти уравнения имеют вид <V(*i. *>)$+* (to) + Pi(U) = bti. (8.44) Определив r\k+1 (t0), уравнение (8.44) можно использовать для отыскания ηή+1 (ί). Итерационный процесс можно продолжить, начиная с уравнения (8.40). Последовательность векторов r\h (t), по всей вероятности, стремится к решению уравнения (8.38). Пример 21) Рассмотрим простой нелинейный объект, описываемый уравнением состояний ±х=—з» + и, Х(0) = 1. (8.45) Мы ищем оптимальное уравнение и* (ί), минимизирующее следующий критерий ошибки: ι J = ^\(x2 + 0,01u2)dt^ (8.46) Гамильтониан (8.3) для этой задачи имеет вид #6=±(а? + 0,01и*) + Х{ — я* + и). (8.47) Сопряженные уравнения имеют вид ~λ = 3χ2λχ, λ(1) = 0. (8.48) Градиент гамильтониана по управлению должен быть равен нулю, чтобы удовлетворялось уравнение (8.6). Следовательно,. -=0,01ι* + λ = 0, (8.49) u*=— 100λ. (8.50) г) Этот при мер был предложен и решен К. Дали, Университет Нового Южного Уэльса (Кенсингтон).
228 Глава 8 Чтобы исключить управление из (8.45) и (8.48), можно использовать (8.50): dx= — xa — 100λ, χ(0) = ί, (8.51) dt τ-λ = 3χ2λ—χ, dt λ(1) = 0. (8.52) Следующим шагом является использование обозначений (8.38) и добавление χ и λ в вектор η. Затем мы записываем (8.51) и (8.52) следующим образом: £(%)=-М3-юоы, ηι(0) = ι, dt dt Ы = зы2ы-ы, η2(ΐ) = ο. (8.53) Линеаризованные уравнения, соответствующие (8.40), имеют вид „fc+ii Γ_(ηδ)3_100(η^)Π Γ —3(η?)2 —100" dt Γηί+11_Γ-(η?) )2Κ)-(η: χ η»] Γ -3Κ)2 ί) J ί6(ηί)(ηί)-1 3 (η*)«. K+1 —ηΠ ίηί+1-ηϊϋ' Χ (8.54) Общее решение уравнений (8.54) можно записать в следующем виде [см. уравнение (8.41)]: Γη?+1(0' .ηί+1(0. 'Φΐΐ Φΐ2 Φςι Ф22. η?+1 (ίο)' .ηϊ+1 («ο). + PiW (8.55) Функции ф в (8.55) являются вспомогательными решениями уравнения (8.54), удовлетворяющими следующему дифференциальному уравнению [см. уравнение (8.13)]: при d dt Φΐ Ι Φΐ 2 _φ21 φ22 = Фи Φϋΐ - -3(η?)2 _6(ηί)(ηϊ)-1 (ίθ) Φΐ 2 (ίθ) (ίθ) Φ>2 2 (ίθ)_ * = — 100Ί Γ φ 3(η?)']ίφ ■ι οι .ο ι J; u φι г"] 21 ^22j (8.56) Функции Р в (8.55) представляют собой частные интегральные решения уравнения (8.54), удовлетворяющие дифференциальному уравнению [см. уравнение (8.14)] d,\Pi] г -зда -iooirpii.r 2кй)3 при 6 (η?) (ηϊ) —1 3 (η?)2 J [Рг\+[ -6 (η?)2 (η?). ΓΛ(ίο)1 Γ0Ί iPzVoA LoJ - (8.57)
Применение теории оптимального управления 229 Отождествив уравнение (8.55) с заданными граничными условиями, получим следующую систему уравнений относительно t]ft+1 (ίο)·' 1 О ,*2ΐ(1) Ф22(1) ][Я+и°(1)]+Ш· <8-58> Наконец, подставим значения ύ\\+1 (Ο) и η£+1 (0), найденные из (8.58), в уравнение (8.55) и затем, используя r\k+1 (t) в качестве о,г о,4 _ ηι~λ-(-ιι*/10θ) - 0,6 Время о,в 1,0 0,05 ОЛ 0,6 0,8 1,0 Время Фиг. 8.4. Итерации по методу квазилинеаризации (пример 2). номинальной траектории, найдем ηή+2 (ί). Оптимальное управление определяется уравнением (8.50). На фиг. 8.4 показана сходимость квазилинеаризовэнных траекторий к оптимальному решению. Начальная оценка η" (ί) была равна 1, а начальная оценка η" (ί) — нулю. Оптимальное значение критерия качества, равное 0,04758, было получено за пять итераций. Изложенный выше метод квазилинеаризации по существу сходен с методом Ньютона — Рафсона [10] нахождения корней полиномиальных уравнений. Метод сходится очень быстро, если вообще сходится [7]. Однако этот метод имеет недостатки: сходимость. не
230 Глава 8 гарантируется глобально и он не применим в тех случаях, когда' уравнение (8.6) может исключить управление из уравнений (8.4) и (8.5). 8.6. Релаксация Другой метод решения двухточечной граничной задачи основан на использовании принципа релаксации. Релаксационные методы применимы к широкому классу задач оптимального управления, причем они всегда сходятся к локальному минимуму. Этот метод использует градиентные процедуры, обсуждавшиеся в разд. 6.3 и 6.4. Рассмотрим опять уравнение (8.2). Начнем с произвольно выбранного управления на периоде ί0 ^Ξ t ^Ξ Ц- Если мы назовем зто управление и (г), то можно будет проинтегрировать уравнение состояний (8.4) в прямом времени и оценить критерий качества Ч /=θ(χ(ί/))+Γ Я (χ, ΰ)Λ. (8.59) Рассмотрим теперь малое изменение управления би (г). С би связано малое изменение вектора состояний бх (г). Уравнение, связывающее бх и би, можно найти, линеаризуя уравнения состояний относительно χ и и: г^-ё^+Йт8"' прИ δχ(0) = °· (8·60) Соответствующее изменение / определяется выражением δ/= (g) «*,(',)+ J (%**,-дЛ*и,) dt. (8.61) К сожалению, выражение (8.61) зависит и от бх и би, а эти величины связаны соотношением (8.60). Тем не менее, используя сопряженные уравнения (8.5), мы можем выразить б/ только через би. Сопряженные уравнения имеют вид i^-W^-Щ ПРИ М'/) = £('/)■ (8-62) Подстановка dH/dXj из выражения (8.62) в (8.61) дает ^[Sl^^+it-U^+^M^+liH*· (8-63> *0
Применение теории оптимального управления 231 Интегрируя (8.63) по частям, находим 6/= (g) δ^(ί/)-[λ^4+J [|(^)^-|§λ^]Λ+ ίο + JH&iidi. (8.64) «о В результате замены немых индексов и приведения подобных членов будем иметь bJ=[§T ^ to)) Ьх> to) + ^ (*°) ^ (*ο) + 4 ( [> (I «-g 6,fe) +g fa,] Λ. (8.65) ίο Используя теперь уравнение (8.60) и граничные условия уравнений (8.60) и (8.62), получаем ^=i(^e^+g^)di=i(^e+i)^di· (8·66) ίο ίο Уравнение (8.66) связывает δ/ и 6u (ί). Это уравнение показывает, что конечное изменение и в момент τ приводит к бесконечному изменению «/". Поэтому пусть but (t) — импульс с площадью Аи], возникающий в момент времени t = τ при фиксированных остальных переменных и. Тогда и=[Ы*)щЮ + д£ю]^ (8.67) или ^ = λ,(τ)^(τ) + ί£(τ). (8.68) ди? ди1 дщ w ч ' г Уравнение (8.68) можно использовать в методе наискорейшего спуска или в итерациях по методу сопряженных градиентов [9] для улучшения управления и. Эти итерационные методы уже рассматривались в разд. 6.4. Релаксационный метод полностью описывается алгоритмом, который состоит из следующей последовательности шагов: Шаг 1. Выбор управления u (i), t0 ^ t ^ tf. Шаг 2. Интегрирование уравнений состояний в прямом времени и вычисление /. Шаг 3. Интегрирование сопряженных уравнений в обратном времени.
232 Глава 8 Ш а г 4. Использование сопряженной переменной для вычисления градиента / по управлению из уравнения (8.68). Шаг 5. Использование метода градиента для улучшения управления и и минимизации /. Шаг 6. Возвращение к шагу 3 и продолжение вычислений. В соответствии с принципом минимума на шаге 5, когда управление достигает верхнего или нижнего предела, управление не превзойдет этого предела независимо от градиента. Пример З1) Рассмотрим снова простую нелинейную систему, исследованную методом квазилинеаризации в примере 2. Уравнения состояний имеют вид ~х=—х3+и, я(0) = 1. (8.69) Мы ищем оптимальное управление и* (ί), минимизирующее следующий критерий ошибки: 1 J = 4r\(x2+0,0lu2)dt. (8.70) о Сопряженные уравнения имеют вид ^-λ = 3Α- χ, λ(1) = 0. (8.71) Используя метод релаксации, мы задаемся начальной оценкой управления и (ί). Например, испытаем u (f) = 0,0. (8.72) Проинтегрируем уравнения состояний (8.69) в прямом времени, а затем сопряженные уравнения (8.71) в обратном времени. Градиент критерия качества по управлению равен -^ = λ (τ)+ 0,01 и (τ). (8.73) Методом наискорейшего спуска вычислим следующую оценку оптимального управления из соотношения и'{х) = Ф{х)-с-^. (8.74) Постоянную с в уравнении (8.74) обычно находят методом линейного поиска, так что минимизируется критерий качества (см. разд. 6.4). Новое управление используют затем в уравнениях состояний и повторяют итерации, как и прежде. г) Этот пример предложен и решен К. Дали, Университет Нового Южного Уэльса (Кенсингтон).
Применение теории оптимального управления 233 0.2 ОА 0,5^**-~-~&б_ 1,0 Время -,Ф и г. 8.5. Итерации по методу релаксации (пример 3). На фиг. 8.5 показана сходимость управления при использовании релаксационной процедуры. Оказалось, что метод релаксации сходится при всех условиях и, по-видимому, наиболее широко используется для вычисления оптимальных управлений. Скорость сходимости может значительно повыситься при использовании второй вариации критерия качества [б], но этот более сложный метод в настоящее время представляется далеким от практических приложений. 8.7. Адаптивное оптимальное управление Применение оптимального управления на практике гораздо более трудное дело, чем может показаться из рассмотрения предыдущих разделов. Кроме вычисления оптимального управления, необходимо оценивать параметры модели и состояния системы. Если параметры системы в течение длительного периода времени остаются неизменными, их необходимо оценивать только один раз, а именно при синтезе управляющего устройства. Если же более правдопо-
234 Глава 8 добно, что параметры изменяются при работе системы, то жела-^ тельно производить эти оценки с некоторой частотой для каждого^ интервала времени. Можно ожидать, 'что состояние системы подвержено непрерывным изменениям из-за действующих на нее внешних возмущений. В связи со всеми требованиями желательно, чтобы управляющее устройство могло непрерывно производить оценивание параметров, состояний и управлений. Имея это в виду, можно заметить, что существует очень близкое сходство между уравнениями, которые надо решать для этих трех задач оценивания. Сравнивая (8.4) с (6.70) и (6.78), мы видим, что сопряженные уравнения для оценивания параметров и состояний совпадают, за исключением правой части, с уравнениями для оптимального управления. Различие возникает из-за определения члена Н, описывающего меру ошибки в этих трех случаях. Кроме того, при оценивании параметров и состояний требуется дополнительно решать систему уравнений чувствительности. Таким образом, всего для оценивания параметров состояний и оптимальных управлений требуется только Зп отдельных дифференциальных уравнений. Имеющееся сходство дает основание считать, что управляющее устройство, вырабатывающее оптимальное управление, обладает всеми существенными характеристиками устройств для оценивания параметров и состояний. С некоторыми предосторожностями необходимые вычисления можно производить последовательно, и, таким образом, управляющее устройство приобретает адаптивные характеристики. Кроме того, если эти вычисления могут быть выполнены в течение малой доли времени установления переходного процесса в системе, то управляющее устройство должно обладать свойством обратной связи * что позволяет учитывать случайные возмущения в системе. Для осуществления адаптивного оптимального управления требуются следующие уравнения: критерий ошибки при оценивании параметров и состояний V h = { Я. (у, z) dt; (8.75) «о критерий ошибки оптимального управления '/ /2 = θ[χ(ί/)] + | Я2(х, u)dt; (8.76) *0 уравнение состояний—η дифференциальных уравнений вида -rrZi<=1i{x, u, ρ, t), Xi(t0) = ai; (8.77)
с >> s с5 <=> •о U + IIs о № ев Рч \о О й К Рч I к Рч И о и Η cS Рч *с О о Рч 3 W F РЗ а о из Рч PS pU в Ρ Я β, >-ч О R О В Ρ1 & £ S а ,я ^ α; α) о g « я « ЕЯ Μ щ.н Kgnj arc go щ*&к ^я ID R 0J S fcj j, Й °sS „egtc из 13 £ к 3 н 2 г ей Η ess о Р.™ на а ов^ Я а о И И о; й к Рч Η о и S И я ι О Μ л S S ч Ε Β £ Рч 5 я &И ρ о к § к о Η CJ о и о и и о; й к Рч Η о и к я и к S о о о в а CS Рч CD а cS Рч ее К О Η и и Рч ft I cS &" cS И о Η I ев 's н Э м « о ы я я ч Й ° Ξ со Η я я =я м φ Φ FS м а о Я О Рч Рч Η >> о Η (η к CD к η cS Ρ* ft я № Μ cS Он Η № CD Ч о Я В" гн к 2 о Μ л ч се S3
236 Глава 8 сопряженные уравнения — η дифференциальных уравнений вида d dt λ}= dfh %k- дН δθ При hj(tf) = — (tf), (8.78) dxj ""■ dxj "r" "i^"J> dxj где Η равно #i при оценивании параметров и состояний и Нг при вычислении оптимального управления; уравнения влияния параметров — η дифференциальных уравнений вида d I dxj \ _ dfi I дха \ , δ/; \ δβ ) dxa \ δβ ) и Система Модель х=-к,х3+кгц. х(0)=ос dt \ δβ δβ при dXj δβ dxi (ί0) = 0, если β = ρ& Фиг. 8.6. Блок-схема модели и системы (пример 4). -£ρ-(ί0) = 1, если β = α* = 0, если β = ο^ (8.79) Перечисленные выше Зп уравнений приведены в табл. 8.2. Таблица построена в предположении, что для выполнения итераций используется метод наискорейшего спуска или метод сопряженных градиентов. Пример 4 Рассмотрим процедуру оптимального управления и идентификации, показанную на фиг. 8.6. Задача Пусть при идентификации критерий ошибки равен J^^x-zf dt. Сопряженные уравнения имеют вид ~λ = 3Ιαχ*λ—2 (χ—ζ), λ (2) = О, dt уравнения чувствительности имеют вид градиенты по параметрам равны 2 дх "δα" (0) = 1. ι*Ηλ <-*·>*. dJ дк2 Δ ί Kudt, (8.80) (8.81) (8.82) (8.83) (8.84)
Применение теории оптимального управления 23* градиент по начальному состоянию равен 2 dJi Г л / \ дх j. Tt-№ При оптимальном управлении критерий ошибки равен 12 = х*(2)+\ x* + 0,01u*dt, (8.85) (8.86) (8.87) (8.88) При применении адаптивного оптимального управления различные вычисления требуется производить в строгой последовательности. Возможная схема вычислений приведена ниже. сопряженные уравнения имеют вид -^-λ = 3^2λ— 2х, λ (2) = Ах3 (2), градиент по управлению равен ^- = к2к + 0,02и. ди Реальное время τ -> S По реализациям за предыдущие Τ секунд оценить параметры и состояния при τ = 0. Получаем состояние χ (0) Используя χ (0) и ранее вычисленное управление на интервале 0<τ<5, предсказать состояние в конце интервала χ (S) Вычислить оптимальное управление на Τ секунд вперед, используя χ (S) и J = Q\x(T + S)\ + T + S Дождаться конца интервала и вернуться к τ = 0 + J „Й(х.и )dt. Начальной оценкой u С) будет управление, вычисленное на предыдущем интервале по периоду от S до Τ - Применить предварительно вычисленное управление - Здесь S — время вычисления, составляющее, например,. 1/10 времени затухания системы Т. В первой части периода вычислений мы можем оценить состояние и параметры. Эти значения используются затем для предсказания состояний в конце периода вычислений. Наконец, должно быть вычислено оптимальное управление от конца периода вычислений для интервала Т, и это управление подано на систему в конце периода вычислений. Процедура повторяется в указанной последовательности. Следует заметить, что если S мало по сравнению с Т, то оптимальное управление и оптимальные оценки параметров и состояний
238 Глава 8 будут мало отличаться от одного интервала вычислений к другому, так что число итераций, необходимых на каждом периоде вычислений, может быть небольшим, и, возможно, достаточно было бы одной итерации. С практической точки зрения это может означать, ■что имеется основание не производить оценивание непрерывно. Если бы в системе не имели места переходные процессы большой амплитуды, то, очевидно, информация была бы недостаточной для надежного оценивания параметров и могли бы возникнуть большие ошибки. Однако оценивание состояний можно было бы произво- •дить без затруднений. Привлекая внимание к понятию адаптивного оптимального управляющего устройства, мы намеревались показать сходство между оцениванием параметров и состояний и оптимальным управлением при использовании вариационного подхода к системам с нелинейными моделями и неквадрэтическими мерами ошибки. Однако следует подчеркнуть, что это направление находится на стадии исследований и, насколько нам известно, к моменту написания книги исследования были еще далеки от завершения. S.8. Субоптимальные управляющие устройства Поскольку методы оптимального управления нелинейными объектами с неквадр этическими мерами ошибки в реальном времени разработаны только для частных случаев, необходимо уделять больше внимания упрощенным субоптимальным методам управления, которые можно применять сразу же. В этом разделе кратко рассмотрены три подхода к задачам субоптимального управления и указано несколько способов решения этой задачи. Линеаризованные управляющие устройства Хотя система может быть нелинейной при работе во всем диапазоне входных сигналов, от оптимального управляющего устройства может потребоваться работа только в малом диапазоне. Типичный пример требований такого рода встречается в задаче об управляющем устройстве, когда должен поддерживаться заданный рабочий уровень. В этих условиях при описании системы могут оказаться удовлетворительными линейные уравнения состояний, причем возможна простая реализация оптимального управления. Другим возможным приложением линеаризованного управляющего устройства является адаптивное устройство, описанное в разд. 8.7. Допускается, что адаптивное управляющее устройство может непрерывно строить линейную модель, которая описывает нелинейную систему в изменяющихся условиях работы. Линеаризованное управляющее устройство можно использовать также для регулирования в системе управления относительно разомкнутого управления. Если нелинейные уравнения состояний линеа-
Применение теории оптимального управления . 239 ризовать относительно номинальной оптимальной траектории и если в разложении критерия качества оставить только квадратический член, то для построения нестационарного управляющего устройства с обратной связью относительно оптимальной траектории можно использовать линейную квадратическую теорию и матричные уравнения Риккати. Таким образом возникают члены, описывающие обратную связь, которые могут компенсировать отклонения от оптимальной траектории разомкнутого управления. Этот подход широко используется в космических приложениях. Оптимальное управление Оптимальное по быстродействию управление, или достижение заданного конечного состояния за минимальное время, — это одна из ситуаций, в которых принцип минимума Понтрягина дает ценную информацию о типе управления, не синтезируя в действительности закощ управления. В задаче об оптимальном по быстродействию управлении мы стремимся минимизировать следующий критерий ошибки: / = (*,_*„) = ! Ш. (8.89) *0 Предполагается, что система описывается линейными уравнениями состояний вида х = Ах + Ви, (8.90) где и ограничена, т. е. имак0>и (ί) >имин при всех t. Гамильтониан Ш, как мы видим, равен 3ί = ί + λτ(Αχ + Βνι), (8.91) и сопряженные уравнения имеют вид λ=— Ατλ. (8.92) Из принципа минимума следует, что оптимальное управление получается из условия <Й*(х*, λ*, u*) = inf SB (χ*, λ*, u). (8.93) u Подставляя 3£ из уравнения (8.91), находим $?*(х*, λ*, и*) = Ш(1 + %*ТАх* + %*ТВи). (8.94) u Минимизируя в уравнении (8.94), получаем и* = и^ак0, если г-я компонента Βτλ* равна —'ve, uf = uMHH, если i-я компонента Βτλ* равна -{-'ve. (8.95) Если теперь линейная система, описываемая уравнением (8.90), имеет только действительные полюсы, то сопряженная система,
240 Глава 8 описываемая уравнением (8.92), также имеет действительные полюсы. Тогда каждая компонента Βτλ является комбинацией самое большее η действительных экспонент и может менять знак не более η — 1 раз. В этом случае уравнение (8.95) показывает, что оптимальное управление носит переключательный характер и имеет не более η — 1 переключений. Такая информация непосредственно применима для вычисления оптимального управления. Эта процедура требует просто прогонки уравнений состояний в обратном времени от желаемого конечного состояния при одном управлении, а затем переключения на другое управление, так что поверхности переключений строятся в пространстве состояний. Было предложено множество методов синтеза управлений, оптимальных по быстродействию, но мы рассмотрим только один из них. Этот подход рассматривается потому, что он отличается от других во многих отношениях и, кроме того, показывает, что фундаментальный подход часто может привести к интересным практическим результатам. Метод заключается в аппроксимации полиномом поверхности переключений с использованием уравнения регрессии [3]. Полином, используемый для аппроксимации, должен содержать только нечетные члены, поскольку поверхности переключений описываются нечетными функциями и поэтому полином должен проходить через начало координат. Полиномиальная форма поверхности переключений может быть реализована всего лишь на нескольких аналоговых элементах в контуре обратной связи по состоянию объекта. Управляющее устройство оказывается недорогим и практичным. Управляющее устройство должно быть субоптимальным из-за полиномиального представления поверхности переключений. Однако, поскольку это устройство является аналоговым и непрерывным, полученные результаты оказываются несколько лучше, чем при использовании других методов. Пример б1) В качестве примера рассмотрим объект со следующими уравнениями состояний: ' Xl' . ж2_ = гО 1 η ~ Xl' _ х2_ + "0" .1. Управление и ограничено значениями +10 и —10. Управляющее устройство должно переводить объект из любой заданной точки в пространстве состояний в начало координат за минимальное время. Это и есть задача регулирования, поскольку управляющее устройство должно поддерживать нулевое состояние. х) Этот пример был предложен и решен Дж. де Рооем, Университет Нового Южного Уэльса (Кенсингтон).
Применение теории оптимального управления 241 Решая уравнения состояний в обратном времени от начала с управлениями +10 и —10 соответственно, можно построить поверхность переключений (в данном случае линию переключений). Линия переключений показана на фиг. 8.7. Поскольку выход xi объекта в этом частном случае получают интегрированием х^, форма траектории не зависит от начального значения х1. При изменении начального' значения Χι траектория смещается вдоль оси х1т Следовательно, эту проблему регулирования можно просто свести к задаче, в которой ненулевое значение х{ должно быть конечным значением. С этой целью определим e = (zi—xr), (8.97) где хг — желаемое конечное состояние. Линии переключений Фиг. 8.7. Кривая переключений для системы управления, оптимальной по быстродействию. Аппроксимируем линию переключения полиномом от х2: х\— хТ = е таё = с^х2 + сгх\ + съх\. моменты времени, Тогда, оценивая (8.98) в различные иметь *(*ι) х2 (ij) х\ ft) х\ ft) J(h)A или в матричных обозначениях с Xz(tN) x\ (tN) x2 (tN). Ас. С! Сз (8.98) будем (8.99) (8.100) Для того чтобы ё было «наилучшим» приближением к действительной поверхности переключений, попытаемся минимизировать сумму квадратов ошибок /=(е—ef (е—е) = (Ас—е)т(Ас—е). (8.101) Условие минимума функции / имеет вид VCJ = 0. Используя (8.101), его можно записать следующим образом: = 0. (8.Ю2) VJ 2АгАс— 2AV Наконец, можно найти параметры с из системы линейных алгебраических уравнений (АгА)с = Аге. (8.103)
242 Глава 8 Следует отметить, что (8.103) — это известная формула приближения по методу наименьших квадратов и что приведенную выше процедуру можно обобщить на объекты более высокого порядка. УпраВление Компаратор и=+10 при е>е и=-10 при е >е Желаемое значение выхода\- Ф и г. 8.8. Управление, оптимальное по быстродействию, для объекта второго порядка. В этом примере уравнение (8.103) было использовано для построения приближенной линии переключений, которая описывается формулой е=— 0,213 (х2) — 0,1643.10-2 (^) + о,1548.10"·{х\). (8.104) Блок-схема субоптимального управляющего устройства, использующего приближенную поверхность переключений, показана на фиг. 8.8. Оптимальное по быстродействию управляющее устройство с поверхностью переключений для описанного в предыдущем примере объекта моделировалось на аналоговой машине. Реакция объекта
Применение теории оптимального управления 243 на изменение желаемого значения выхода на 60 в показана на фиг. 8.9. На этом графике мы видим единственное переключение управления при отсутствии перерегулирования в выходном сигнале. Частный случай оптимального управления Как уже отмечалось, вариационный подход к оптимальному управлению приводит к разомкнутому управляющему устройству, что нежелательно во многих случаях, когда имеются помехи. В связи с этим будет проиллюстрирован один метод, который можно использовать для получения оптимального унравления с обратной связью. Метод основан на том, что с самого начала предполагается, что закон управления является некоторой нелинейной функцией выходного вектора системы [5]. Таким образом, мы принимаем, что закон управления имеет вид u = u (у, s), (8.105) где u — q X 1-вектор управления; у — I X 1-вектор выхода, s^rX 1-вектор постоянных параметров. Примером такого закона управления может быть уравнение и = Siyi+s2y2+s3y]+Siyiy2+Siyl. (8.106) Мы хотим минимизировать критерий качества вида 4,6 6,0 Время, с Φ и-г. 8.9. Выход объекта второго порядка при оптимальном управлении. / = θ(χ(ί,)) + 5 Я(Х, XL) at, (8.107) ίο когда уравнение состояния системы имеет вид x = f (х, и, ρ, t), x (t0) = се, (8.108) где ρ — вектор параметров, который полагают известным, а выход системы может быть вычислен из соотношений у = у(х, и). (8.109) Поскольку предполагалось, что и — явная функция у и s [уравнение (8.105)], а у — явная функция χ и и, в уравнениях (8.107),
244 Глава 8 (8.108) u можно заменить функцией χ и s. Тогда получим / = θ (χ (tf)) + f Η (χ, s) at (8.110) ίο ■и x=f(x, s, p, t), χ(ί0)==α. (8.111) Задача сводится теперь к нахождению вектора s, минимизирующего критерий качества] (8.110). Принцип минимума Понтрягина можно использовать для перехода от этой задачи минимизации к некоторой двухточечной граничной задаче, а для отыскания решения можно использовать затем квазилинеаризацию (разд. 8.5). С другой стороны, мы видим, .что задача, определяемая формулами (8.110) и (8.111), аналогична задаче оценивания параметров, обсуждавшейся в гл. 6. В самом деле, методы, развитые в гл. 6, непосредственно применимы при условии запоминания частных производных от Я по 9 и соответствующего изменения граничных условий для сопряженных уравнений из-за наличия функции Q[x(tj)\. Легко можно проверить, что соответствующие граничные условия для сопряженных уравнений имеют вид ЫЧ)=-щЬ). (8.112) Это можно показать, видоизменяя надлежащим образом уравнения (6.10) и (6.11) и проверяя условия (6.69) и (6.77) соответственна (см. ниже задачу 6). В противном случае упомянутая задача сразу же описывается уравнениями влияния параметров и сопряженными уравнениями. Конечно, управляющее устройство в этом случае оказывается субоптимальным, и качество его будет зависеть от того, в какой степени справедливы предположения о форме закона обратной связи. К преимуществам такого использования схемы оценивания параметров для субоптимального управления относятся, во-первых, тот факт, что получается управляющее устройство с обратной связью; во-вторых, уменьшение размерности задачи управления до размерности вектора s, так как предполагается, что вектор s не зависит от времени; в-третьих, возможность использовать мощные методы второй вариации, описанные в разд. 6.5 и 6.7 для ускорения сходимости при оценивании коэффициентов. Вообще говоря, коэффициенты в законе управления зависят от начального состояния объекта. Однако если бы расчеты вне контура управления показали, что коэффициенты в некоторых областях пространства состояний приблизительно постоянны, то коэффициенты можно было бы вычислять вне контура управления, а затем просто устанавливать на аналоговом управляющем устройстве с обратной связью.
Применение теории оптимального управления 245 Этот метод расчета субоптимального управляющего устройства с обратной связью привлекателен сам по себе, и, кроме того, с его помощью еще раз можно продемонстрировать очень тесную связь между задачами идентификации и оптимального управления. На связь между этими двумя классами задач указывалось на протяжении всей книги. При этом мы видели, что любой метод или программу, разработанные для одной задачи, можно легко преобразовать для решения другой задачи. Задачи 1. Рассмотрим систему, описываемую уравнением i=_г* + ц> а;(0) = 100. Следует найти управление и (t), минимизирующее следующий критерий качества: ι /=[ (х2 + 0,01и*) dt. о а. Найдите условия, необходимые для оптимального управления. б. Используйте уравнения (8.6), чтобы исключить управление из уравнений состояний и сопряженных уравнений. в. Используйте квазилинеаризацию, как это показано в разд. 8.5 для решения двухточечной граничной задачи. г. Вычислите оптимальное управление и оптимальное значение критерия качества. 2. Определите оптимальное управление для-примера из предыдущей задачи с помощью описанного в разд. 8.13 метода релаксации, применяя для последовательных приближений метод наискорейшего спуска. 3. В этом примере рассматривается задача о запуске ракеты, разобранная Дрейфусом [4 , χι = χ2, ζι(0) = 0, x2~CAsinu-—32, £2(0) = 0, x3 = 64cosu, χ3(0) = 0· Цель состоит в максимизации х3 (100) при xt (100) = 105, х2 (100) = 0. а. Заметим, что этот критерий можно приближенно заменить максимизацией следующего критерия качества: / = — х3 (ЮО) + 0,0002 [χι (100) — 10»]» + 0,05 [х2 (100)]2. б. Для определения оптимального управления используйте методы релаксации и итерации сопряженного градиента.
246 Глава 8 4. Синтезируйте оптимальный по быстродействию регулятор для следующей системы: 1 1 Р + 0,1 х% —> 2 р + 2 а. -Запишите уравнения состояний. б. Запишите уравнения состояний в обратном времени (подставьте χ = Τ — t вместо переменной t). в. Найдите реакцию в обратном времени для и = + 10 и затем для и = —10, начиная с нулевых начальных условий до х\ = —50 и χι — +50 соответственно (это и есть линия переключений). г. Подберите полином со степенями х2 и х\ для аппроксимации множества из 25 равноотстоящих точек на линии переключений. д. Моделируйте оптимальное по быстродействию управление на аналоговой машине. 5. Для системы, описанной в примерах 2 и 3, задается оптимальный закон управления вида и — Ьх. Используйте метод сопряженных градиентов для нахождения Ъ, чтобы достигал минимума критерий, приведенный в примере 2. 6. Разработайте метод, намеченный в разд. 8.8, и покажите справедливость уравнения (8.112). ЛИТЕРАТУРА 1. Bellman R., Dynamic programming, Princeton University Press, 1957; русский перевод: Беллман Р., Динамическое программирование, ИЛ, 1960. 2. В е 11 m a n R. Ε., Kalaba R. E., Quasilinearisation and non-linear boundary value problems, Elsevier, N.Y., 1965. 3. De Rooy J. J., A method of realising quasi time optimal control by means of an approximate switching surface (будет опубликовано в International Journal of Control, 1969). 4. D г е у f u s S. E., Variational problems with state variable inequality constraints, Rand Report, P-2605-1, August 1963. 5. Ε i s e η b e r g B. R., S a g e A. P., Closed loop optimisation of fixed configuration systems, International Journal of Control, 3, № 2, 183 (1966). 6. J а с о b s ο η D. Η., New second order and first order algorithms for determining optimal control·, a differential dynamic programming approach, Techn. Rep. № 551, Division of Engineering and Applied Physies, Harvard University, Cambridge, Mass., February 1968. 7. К a l.a b a R. E., On non-linear differential equations, the maximum operation and monotone convergence, Journal of Mathematics and Mechanics, 519 (1959). 8. Kaplan W-, Advanced calculus, Addison Wesley Publishing Co., USA, 1959, p. 460. 9. LasdonL. S., Μ i 11 e r S. K., Waren A. D., The conjugate gradient method1 for optimal control problems, IEEE Transactions en Automatic Сcntrtl, AC-12, № 2 (April 1967). 10. Spang Η. Α., A review of minimisation techniques for non-linear functions, SI AM Review, 4, № 4, 343 (1962).
Применение теории оптимального управления 247 Дополнительная литература Athans М-, The status of optimal control theory and applications for deterministic systems, Survey Paper, IEEE Transactions on Automatic Control (July 1967). Bellman R. E., К а 1 a b a R. E., Dynamic programming, invariant imbedding and quasilinearisation: comparison and interconnections, Rand Memorandum, RM-4038-PR, March 1964. Bellman R. E., Kalaba R. E., S r i d h a r R., Adaptive control via quasilinearisation and differential approximation, Rand Corp., Memorandum RM-3928-PR, November 1963. Lapidus L., Luus R., The control of non-linear systems, AIChE Journal, 13, № 1, 101; 13, № 5, 973 (1967). Larson R. E., A survey of dynamic programming computational techniques, IEEE Transactions on Automatic Control, 767 (December 1967). Μ e r r i a m C. W., An algorithm for the iterative solution of a class of two point boundary value problems, Journal SI A M Control, Ser. A, 2, № 1 (1964). Ρ a g u г е к В., W о о d s i d e СМ., The conjugate gradient method for optimal control problems with bounded control variables, Automatica, Vol. 4, p^337, Pergamon Press, 1968. Zadeh L. Α., Desoer C. A·, Linear system theory, McGraw-Hill, 1963; русский перевод: Заде Л., Дезоер Ч., Теория линейных систем, изд-во «Наука», 1970. Приложение ОБОЗНАЧЕНИЯ ЭЙНШТЕЙНА ДЛЯ СУММ Когда буквенный индекс появляется дважды в одном и том же произведении, автоматически следует понимать, что производится суммирование по этому индексу. Например, KjXj следует понимать как ί=ι 7 — это немой индекс, и не имеет значения, какая буква используется для этой цели, при условии, что эта буква нигде не появляется в том же произведении. Аналогично можно записать Xi = AijPj вместо т xi^= J\ Aiipj, i = l, ..., п. Здесь i — «свободный» индекс.
Оглавление Предисловие переводчика Предисловие Глава 1. Введение Глава 2. Математическое описание физических систем Li 2.1. Математические модели (11). 2.2. Соотношение между входом и выходом (13). 2.3. Построение математической модели (14). 2.4. Понятие состояния (22). 2.5. понятия управляемости и наблюдаемости (26). 2.6. Процессы типа белого шума (Z/). 2.7. Аппроксимация систем с распределенными параметрами системами с сосредоточенными параметрами (29) Глава 3. Вычислительные методы "' 3.1. Численное дифференцирование и интегрирование (38). 3.2. Численное решение дифференциальных уравнений (41). 3.3. Вычислительные машины (45) Глава 4. Основные понятия минимизации 49 4.1. Вводные понятия для траекторий оптимального управления (49). 4.2. Вводные понятия. Оптимальные оценки состояний и параметров (52). 4.3. Линейный поиск (54), 4.4. Выводы (56) Глава 5. Оценивание параметров и состояний линейных систем ... 58 5.1. Оценивание параметров по методу наименьших квадратов (59). 5.2. Рекуррентное оценивание параметров по методу наименьших квадратов (84). 5.3. Рекуррентное оценивание состояний по методу наименьших квадратов (86). 5.4. Оценивание параметров по методу наименьших квадратов (88). 5.5. Рекуррентное оценивание параметров по критерию минимума среднеквадратнческой ошибки (95). 5.6. Рекуррентное оценивание по" методу наименьших квадратов (104). 5.7. Выводы (108) Глава 6. Оценивание параметров и состояний нелинейных систем . . : 116 6,1. Априорная информация (117). 6.2. Дифференциальная аппроксимация (119). 6.3. Вычисления градиента с помощью параметрических коэффициентов чувствительности (120)._6^4А1Итерацяонные алгоритмы, использующие направления градиента (123). 6.5. Процедура Гаусса — Ньютона (128). 6.6. Вычисление кривизны с помощью параметрических коэффициентов чувствительности (130). 6.7. Итерационные алгоритмы, использующие градиент и кривизну (132). 6.8. Улучшенные методы оценивания градиента и кривизны (135). 6.9. Сравнение методов (1391. 6.10. Влияние шума на точность оценивания (141) Глава 7. Оптимальное управление 153 7.1. Критерий ошибки (154). 7.2. Необходимые условия минимума (162). 7.3. Принцип минимума Понтрягнна (182). 7.4. Уравнение Гамильтона — Якобн (192). 7.5. Матричное уравнение Риккатн (201). 7.6. Выводы (209) Глава 8. Применение теории оптимального управления 216 8.1. Вычисление оптимальных управлений (217). 8.2. Вариационный подход (218). 8.3. Линейная квадратическая задача (218). 8.4. Нелинейная нли неквадратическая задача (225). 8.5. Квазнлинеаризацня (226). 8.6. Релаксация (230). 8.7 Адаптивное оптимальное управление (233). 8.8. Субоптимальные управляющие устройства (238) Приложение. Обозначения Эйнштейна для сумм 247 УВАЖАЕМЫЙ ЧИТАТЕЛЬ! Ваши замечания о содержании книги, ее оформлении, качестве перевода и другие просим присылать по адресу: 129820, Москва, И-110, 1-й Рижский пер., 2, издательство «Мир».