Text
                    К. СОТРЕМ
ВВЕДЕНИЕ
В СТОХАСТИЧЕСКУЮ
ТЕОРИЮ
УПРАВЛЕНИЯ


INTRODUCTION TO STOCHASTIC CONTROL THEORY KARL J. ASTROM Division of Automatic Control Lund Institute of Technology, Lund, Sweden Academic Press, New York, 1970
К. Ю. ОСТРЕМ ВВЕДЕНИЕ В СТОХАСТИЧЕСКУЮ ТЕОРИЮ УПРАВЛЕНИЯ Перевод с английского С. А. АНИСИМОВА, Н. Е. АРУТЮНОВОЙ, А. Л. БУНИЧА Под редакцией Н. С. РАЙБМАНА Издательство «Мир», Москва, 1973
УДК 62.505 Книга написана крупным специалистом в области автомати- ческого управления профессором Лундского технологического ин- ститута (Швеция) на основе курса лекций, прочитанных им во многих научно-исследовательских лабораториях в США и Шве- ции для аспирантов, научных работников и инженеров. В книге последовательно изложены основы стохастической теории управления: приведены основные сведения из теории слу- чайных процессов, сформулированы задачи анализа и синтеза си- стем управления, комплексно рассмотрены задачи идентификации, фильтрации, упреждения и оптимального управления. Книга представляет большой интерес для специалистов, ра- ботающих в области управления, а также как методическое посо- бие по курсу стохастической теории управления для преподава- телей, аспирантов и студентов старших курсов. Редакция литературы по новой технике 3314-152 О ----------- 041(01)-73 (g) Перевод на русский язык, «Мир», 1973 г.
ПРЕДИСЛОВИЕ РЕДАКТОРА Проблемы идентификации и управления стохастическими системами занимают в настоящее время значительное место в теории и практике управления. Поведение реального объекта, функционирующего в условиях естественных, промышленных и других «шумов», характеризуется некоторой неопределенностью. Кроме того, в автоматизированных системах управления слож- ными объектами обычно участвуют люди, для которых также характерна некоторая неопределенность поведения. Описание таких систем при помощи хорошо известных детерминирован- ных подходов не всегда плодотворно и не отражает действитель- ной картины функционирования объекта. Не приспособлены так- же к решению задачи оптимального управления этим классом объектов разработанные методы для детерминированных си- стем. Таким образом, необходимость разработки стохастиче- ской теории систем вызвана насущными потребностями практики управления, и эта теория максимально приближает формализо- ванное представление к действительным условиям функциони- рования. Отличительная особенность любого стохастического объекта заключается в неоднозначном отклике на одни и те же входные воздействия. Даже для простейшего одномерного объекта и при детерминированном входном воздействии выходная переменная стохастического объекта не является детерминированной. Для выходной переменной этого класса объектов рассеивание тем больше, чем сильнее влияние «шумовых» свойств объекта, по- этому стохастические объекты относятся к классу «шумящих»; влиянием шума и объясняется неопределенность поведения объ- екта. Поскольку выходной сигнал объекта в замкнутых систе- мах является входным сигналом системы обратной связи, то на входе стохастической системы управления всегда действует сиг- нал, природа которого случайна. Стохастическая теория управления основана на статистиче- ском подходе к решению задач идентификации, прогнозирова- ния, фильтрации и оптимизации. Возможность разработки этой теории связана с возникновением и интенсивным развитием тео- рии вероятностей. Наметившийся в 40-х годах статистический подход в решении задач анализа и синтеза систем управления
6 Предисловие редактора способствовал возникновению новых подходов, теоретических и практических результатов, расширению представлений о процес- сах управления. В 60-х годах развитие статистического подхода естественно привело к постановке новых задач управления, ко- торые были связаны с поиском закона управления в условиях неопределенности (отсутствие полного описания объекта, ста- тистическая природа входного сигнала в цепи обратной связи и др.). Полученные результаты послужили основой возникнове- ния стохастической теории управления, которая находится еще в начальном состоянии, но бурно развивается и находит все больше и больше областей применения. Тесная связь между стохастической теорией управления и по- лучившими в последние годы широкое распространение адап- тивными, обучающимися системами, системами дуального управ- ления и другими очевидна и определяется отсутствием полной априорной информации о системе. Изменение внешних воздейст- вий, а также характеристик объектов управления в условиях их нормального функционирования, принципиальная невозмож- ность учета всех воздействий и другие реальные факторы предо- пределяют необходимость постоянного уточнения законов функ- ционирования и управления объектом. Уточнение закона функци- онирования объекта позволяет уменьшить степень априорной не- определенности и выбрать закон управления, обеспечивающий выполнение заданной цели. В связи с этим функции, выполняе- мые системой управления, расширяются и усложняются. Так, в стохастических системах предусматривается осуществление про- цессов идентификации и управления. Оба процесса осуществля- ются в замкнутой системе в реальном масштабе времени. Опыт показывает, что практическая реализация таких систем перспек- тивна. Предлагаемый перевод книги известного шведского ученого, заведующего кафедрой теории автоматического управления Лундского технологического института, представляет собой си- стематическое изложение основ стохастической теории управле- ния, в создание и развитие которой он внес значительный вклад. На основании рассмотрения недостатков детерминированной теории управления автор обосновывает необходимость стоха- стического подхода, определяет его характерные особенности. Краткие сведения по теории случайных функций знакомят чи- тателя с результатами построения понятий случайного про- цесса, видами случайных процессов, стохастическими интеграль- ными и дифференциальными уравнениями. В книге с единой точки зрения рассмотрены задачи стохастической теории управ- ления: идентификация, фильтрация, прогнозирование (упрежде- ние) и оптимальное управление. Представление системы мо- делью состояния является основой общего подхода.
Предисловие редактора 7 В доступной форме автору удалось в небольшой по объему книге изложить основные современные понятия и результаты стохастической теории управления. Большое число примеров и упражнений, а также подробное рассмотрение реальной систе- мы управления стохастическим объектом значительно облегча- ют понимание основных результатов. При переводе книги в ос- новном были сохранены обозначения автора, которые отличаются от общепринятых в нашей литературе, например Е — математиче- ское ожидание (среднее значение), var — дисперсия, cov — ко- вариация, tr — след матрицы и т. д., а также была сохранена нумерация разделов и теорем. При переводе были внесены ис- правления, любезно присланные автором. В конце каждой главы автор приводит литературные источ- ники и сопровождает их небольшими комментариями. В конце книги редактором перевода дан краткий перечень литературы, имеющейся на русском языке по рассматриваемым в книге воп- росам. Книга представляет интерес для читателей, работающих в области управления. Она может быть также использована пре- подавателями, аспирантами и студентами старших курсов как ме- тодическое пособие по курсу стохастической теории управления. Н. Райбман
ПРЕДИСЛОВИЕ АВТОРА Цель книги — изложение стохастической теории управления (анализ, параметрическая оптимизация и оптимальное стоха- стическое управление). Обсуждение ограничено линейными си- стемами и квадратичным критерием. Рассмотрены дискретные и непрерывные системы. В первых трех главах изложены постановка задачи и основы теории стохастических процессов. Гл. 4 посвящена анализу ди- намических систем, входными сигналами которых являются слу- чайные процессы. В гл. 5 показано, как можно использовать методы анализа динамических систем для синтеза систем управ- ления. В гл. 6 на простом примере рассмотрена проблема управ- ления стохастическими системами. В гл. 7 изложена теория про- гнозирования и фильтрации. Постановка общей задачи стоха- стического управления для линейных систем при квадратичном критерии дана в гл. 8. В каждой главе сначала рассматривается дискретный ва- риант задачи. Затем осуществляется переход к непрерывному варианту той же проблемы. Для пользования книгой необходимо предварительное озна- комление с курсом математического анализа, теорией вероятно- стей (включая и элементы теории случайных процессов) и тео- рией динамических систем с дискретным и непрерывным време- нем (в частности, частотный подход и подход, основанный на использовании пространства состояний). Читателю, хорошо знакомому с детерминированной теорией оптимального управле- ния линейными системами при квадратичных критериях, гораздо легче понять обсуждаемые проблемы, хотя знание этой теории и не требуется для чтения книги. Предлагаемая книга представляет собой обработку курса лекций, прочитанных автором в Америке и Швеции работникам промышленности и студентам в 1962—1969 гг.
ВВЕДЕНИЕ В книге изложена теория анализа, параметрической оптими- зации и оптимального управления стохастическими объектами управления. Рассмотрены только линейные системы с дискрет- ным и непрерывным временем. Отметим, что на практике, когда для осуществления стратегии управления используются цифро- вые вычислительные машины, достаточно рассматривать случай систем с дискретным временем. В гл. 2 дан очень краткий обзор общих представлений и не- которых выводов теории случайных процессов. Рассмотрены от- дельные виды стохастических процессов, такие, как стационар- ные процессы, марковские процессы, процессы второго порядка и процессы с независимыми приращениями. Введены ковариа- ционные функции и спектральные плотности. Особое внимание уделено понятию белого шума. Изложены методы проведения анализа процессов с непре- рывным временем, например дифференцирование и интегриро- вание. Основой методов является понятие сходимости. Так называемые стохастические модели состояния рассмот- рены в гл. 3. Определено понятие состояния для стохастических объектов. Для детерминированных систем состояние определя- ется как минимальное количество информации об истории систе- мы, которое требуется для предсказания поведения системы в будущем. Оказывается, для стохастических систем невозможно точно предсказать это поведение. Поэтому состояние стохасти- ческой системы определяется как минимальное количество ин- формации, которое требуется для предсказания функции распре- деления состояния в будущем. Подробно рассмотрены стохасти- ческие линейные разностные уравнения. Для систем с непрерывным временем получение модели со- стояний приводит к понятию стохастических дифференциальных уравнений, которые находят интуитивное объяснение и методы решения которых известны. Однако некоторые ключевые теоре- мы еще не доказаны. В гл. 4 сформулированы основные теоремы, необходимые для анализа динамических систем, входными переменными кото- рых являются случайные процессы. Рассмотрены системы с
10 Введение дискретным временем, описываемые соотношениями вход-вы- ход, такими, как весовые и передаточные функции. Входными сигналами этих систем служат случайные процессы второго по- рядка. Теоремы представления позволяют значительно упростить исследование, так как в этом случае большой класс задач мож- но свести к анализу линейных систем с белым шумом на входе. Даны аналогичные результаты для систем с непрерывным вре- менем. Предметом обсуждения в гл. 5 является расчет квадратич- ных функций от переменных состояния для линейных систем. Используя результаты теории аналитических функций, получа- ют рекуррентные формулы для вычисления квадратичной функ- ции потерь. Выявлена связь между анализом устойчивости и вычислением квадратичной функции потерь. В качестве иллюст- рации параметрической оптимизации объектов, зависящих от времени, рассматривается задача восстановления переменных состояния динамической системы с использованием математиче- ской модели. Гл. 6 посвящена самому простому классу задач стохастиче- ского управления: линейным системам с одним входом и одним выходом и с критерием минимального среднеквадратического отклонения на выходе в устойчивом состоянии. Эта частная за- дача дает хорошее представление о структуре оптимальных ре- шений, так как теорема разделения может быть доказана без особых математических трудностей. Решение иллюстрирует яв- ную связь между оптимальной фильтрацией и оптимальным уп- равлением. При этом получают новый алгоритм решения зада- чи фильтрации для объектов с дробно-рациональными спект- ральными плотностями. В этой главе даны также приложения рассмотренной теории. В гл. 7 изложена теория фильтрации и упреждения. Дана по- становка задачи и описаны общие свойства решения. Рассмот- рены необходимые свойства гауссовых процессов и выведены рекуррентные формулы Калмана. Дана геометрическая интер- претация результатов и анализ свойств ошибок упреждения. До- казана дуальность задач оптимального упреждения и управ- ления. Общая проблема квадратичного управления обсуждена в гл. 8. Двумя способами доказана теорема разделения для си- стем с дискретным временем.
Глава 1 СТОХАСТИЧЕСКОЕ УПРАВЛЕНИЕ 1. ВВЕДЕНИЕ В данной главе сделана попытка изложить основы стохасти- ческой теории управления. В разд. 2 кратко рассмотрены основы теории управления. Особое внимание уделяется обсуждению де- терминированной теории управления, основной недостаток ко- торой состоит в том, что в ней не обеспечивается необходимое различие между разомкнутыми и замкнутыми системами. Это обусловлено в основном тем, что в рамках детерминированной теории управления пренебрегают помехами. В разд. 3 обсужда- ются некоторые трудности, возникающие при описании помех. В разд. 4 изложены основы стохастической теории управления и приведены наиболее важные выводы из нее. 2. ТЕОРИЯ УПРАВЛЕНИЯ С ОБРАТНОЙ СВЯЗЬЮ Теория управления возникла как средство для анализа и син- теза систем управления. Ранние разработки были связаны с центробежными регуляторами, простыми схемами регулирова- ния для промышленных объектов, электронными усилителями и системами управления стрельбой. По мере развития теории ока- зывалось, что ее методы применимы к целому ряду разных си- стем, как технических, так и не технических. В теории управле- ния использовались результаты различных ветвей прикладной математики. Задачи управления в свою очередь приводили к но- вым результатам в прикладной математике. На ранних этапах развития теории большое внимание уделя- лось теории устойчивости, построенной на теореме Рауса—Гур- вица. Эта теорема является наглядным примером взаимодей- ствия между теорией и практикой. Действительно, задачу об ус- тойчивости Гурвицу предложил Стодола, который столкнулся с этой проблемой на практике при разработке регуляторов для паровых турбин. Для анализа усилителей с обратной связью использовались методы теории аналитических функций, что привело в результа- те (помимо всего прочего) к знаменитому критерию Найквиста. После второй мировой войны специалисты по управлению столкнулись с некоторыми задачами, для решения которых тре-
12 Глава 1 бовались очень точные характеристики объектов. Кроме того, многие из подлежащих исследованию объектов управления ока- зались очень сложными. Это привело к новой формулировке за- дачи синтеза как задачи оптимизации и дало возможность не только использовать вариационные методы, но и улучшить их. В результате была создана детерминированная теория опти- мального управления, которая в совокупности с цифровыми вы- числительными машинами представляет мощный метод решения задач управления. При использовании теории оптимального уп- равления нередко оказывается, что проблемы устойчивости не представляют особого интереса, ибо часто оптимальная система устойчива при довольно общих условиях. В детерминированной теории оптимального управления не вводится различие между программным управлением (разомк- нутая система) и управлением с обратной связью '(замкнутая система); оптимальная обратная связь есть просто функция, которая отображает пространство состояний в прост- ранство переменных управления (следовательно, переходные процессы в цепи оптимальной обратной связи не принимаются во внимание); при постановке и решении задачи никогда явно не вводится информация, достаточная для вычисления истинно- го значения сигнала управления. Проиллюстрируем эти особенности на примере. Пример 1 Рассмотрим систему с начальным условием х(0) = 1. (2.2) Предположим, что управление этой системой желательно осуществлять таким образом, чтобы характеристики системы удовлетворяли критерию минимума значения функционала I = J [х«(0 + и* (0] di. (2 3) о Легко показать, что минимальное значение критерия (2.3) равно 1 и что это значение получается как для программного управления u(t) = — ё~1, (2.4) так и для стратегии управления вида = (2.5)
Стохастическое управление 13 Уравнение (2.4) описывает управление без обратной связи, так как значение сигнала управления определяется только апри- орными данными, т. е. независимо от того, как протекает про- цесс. Уравнение (2.5) представляет закон управления с обрат- ной связью, так как значение сигнала управления в момент t зависит от состояния объекта в этот момент. Таким образом, приведенный пример показывает, что разомк- нутая система (2.4) и замкнутая система (2.5) эквивалентны в том смысле, что функция потерь (2.3) для них имеет одно и то же значение. Однако их характеристики устойчивости раз- личны. Система (2.1) с управлением (2.5) с обратной связью асимп- тотически устойчива, в то время как система (2.1) с програм- мным управлением (2.4) просто устойчива. Таким образом, на практике управление с обратной связью (2.5) и управление без обратной связи (2.4) сильно различаются. Это можно обнару- жить, например, если ввести помехи или считать, что управление осуществляется по модели, коэффициенты которой определены с ошибками. Некоторые указанные выше особенности детерминированной теории управления весьма нежелательны в теории, предназна- ченной для применения в управлении с обратной связью. При разработке детерминированной теории оптимального управле- ния серьезной критике подвергался тот факт, что в ней не раз- личаются разомкнутые и замкнутые системы и не учитываются динамические характеристики цепи обратной связи. Например, с помощью этой теории невозможно было получить стратегию, которая соответствовала бы хорошо известным регуляторам, используемым в промышленных установках. Эти ограничения детерминированной теории управления объясняются тем, что в ней используются нереальные модели для помех. Если даже так называемые помехи и вводятся, то всегда предполагается, что они описываются априорно известной функцией. В этом случае для системы, управление которой пред- ставляется дифференциальным уравнением с единственным ре- шением, знание начального состояния очевидно эквивалентно знанию состояния системы в произвольный момент времени. По- этому не различаются между собой разомкнутые и замкнутые системы, и предположение о заданном начальном условии при- водит к тому, что истинное значение состояния известно в любой момент времени. Кроме того, когда известно состояние системы, оптимальное управление будет функцией, которая отображает пространство состояний системы в пространство состояний пере- менных управления. Как показано ниже, проблема учета дина- мических характеристик цепи обратной связи возникает в том
14 Глава 1 случае, когда состояние системы неизвестно и оно должно быть восстановлено по измерениям выходных сигналов. Тем, кто занимался практическими работами в области уп- равления, было известно с самого начала развития теории уп- равления, как важно учитывать влияние помех. Многие класси- ческие методы синтеза также давали возможность эвристически оперировать с помехами. Приведем выдержку из книги А. К. Холла ь. «Я хорошо помню то время, когда МТИ1 2 и фирма «Сперри» совместно работали над системой управления авиаци- онного радиолокатора. В воскресенье, 7 декабря 1941 г. двое из нас проработали весь день в лаборатории Гардн Сити и, следо- вательно, не слышали о нападении на Пирл-Харбор до поздне- го вечера. Мы были обескуражены, потому что хотя мы и созда- ли хорошую систему для испытаний, но совершенно забыли о важности шумов, и в результате наша система была нестабиль- на и совершенно неудовлетворительна. Попытки найти решение проблемы привели нас к использованию частотных методов. Ме- нее чем через три месяца у нас была усовершенствованная си- стема, которая была устойчива, имела удовлетворительные пе- реходные характеристики и на порядок меньшую величину раз- броса. У меня этот случай породил большое доверие к частот- ным методам». Упражнения 1. В примере 1 показать, что сигнал управления (2.4) и за- кон управления (2.5) оптимальны. Замечание. Доказать сначала следующее тождество: т т Г [х2 (/) + х2 (/)] dt = х2 (0) - х2 (Т) + [ [х (I) + х (012 di. о б 2. В примере 1 предположить, что оптимальный сигнал уп- равления и оптимальный закон управления определяются мо- делью вида где а имеет значение, близкое к 1, когда управление действи- тельно осуществляется по уравнению (2.1). Определить значе- ние критерия (2.3) для систем, получаемых при регулировании по разомкнутому циклу и регулировании по замкнутому циклу. 1 Hall А. С., «Frequency Response» (R. Oldenburger, ed.), Macmillan, New York, 1956. 2 Массачусетский технологический институт в США. — Прим. ред.
Стохастическое управление 15 3. Сравнить характеристики регулирования по разомкнутому (2.4) и замкнутому циклам (2.5), когда система фактически опи- сывается уравнением dx . — = и 4- v, dt где v — неизвестная помеха. В частности, пусть v — неизвест- ная константа. 3. ПРЕДСТАВЛЕНИЕ ПОМЕХ Необходимость введения более реальных моделей помех тре- бует соответствующих методов их представления. Особенности реальных помех состоят в том, что невозможно точно предска- зать их значение. Поэтому нелегко построить математическую модель, обладающую таким свойством. Например, нельзя моде- лировать помехи аналитическими функциями, ибо если известно значение аналитической функции на произвольно малом интер- вале, то значение этой функции для всего интервала можно опре- делить ее аналитическим продолжением. Попытаемся использовать статистические понятия для пост- роения моделей помех. Например, можно попытаться моделиро- вать помехи в следующем виде: п х(1) = £агж, (3.1> i=l где 0i(/), a2(t), ..., an(t) —известные функции, а — случайная величина. Тогда, если линейные уравнения X (4) = (/j) + ^2 (^1) * * • ~Ь ап (4) > х(/2) = а1(/2)?1 + а2(/2)^2 + ...+ ая(/2)^, (3.2) * (U = aL (tn) + а2 (U g2 + • • • + ап (/„) имеют решение, частные реализации стохастических величин £2, .. • Лп можно точно определить из наблюдений х(6), х(/2), ... ..., x(tn) и, таким образом, точно предсказать значения х. По- этому помехи, описываемые уравнением (3.1), называются пол- ностью детерминированными стохастическими процессами или вырожденными (сингулярными) случайными процессами. Более удачной может оказаться попытка моделировать поме- хи в виде последовательности случайных величин. Простым при- мером служит процесс, авторегрессии {%(/)}, определяемый сле- дующим выражением: х (t + 1) = ах (t) 4" £(/)» t = /о, /0 4- 1, •••, (3.3)
16 Глава 1 где х(/0) = 1, |а| <1 и {e(t), t=t0, fo+L •••} есть последова- тельность независимых нормальных случайных величин с пара- метрами (0, о). Предполагается также, что e(t) не зависит от x(t) для всех t. Допустим, например, что на основании наблюде- ний x(t) надо предсказать значение xfZ-J-1). Естественно х(7-Ь + 1) представить величиной ax(t). Тогда ошибка предсказания равна e(t), т. е. случайной величине с нулевым средним значе- нием и дисперсией о2. Еще один подход к задаче моделирования помех состоит в том, чтобы описывать их случайными процессами. Теория слу- чайных процессов фактически частично выросла из попыток мо- делирования флуктуаций, наблюдаемых в физических системах. Эта теория достигла совершенства благодаря вкладу таких вы- дающихся ученых, как Крамер, Хинчин, Колмогоров и Винер. Задачи прогнозирования имеют большое значение в теории случайных процессов. В дальнейшем будет показано, что они тесно связаны и с задачами управления. Упражнения 1. Помехи описываются выражением х (/) = a cos (О, где а — случайная переменная. Каким образом можно предска- зать значения х? 2. Помехи описываются выражением (3.3). Показать, что про- л гноз вида x(t-\-\)—ax(t) оптимален в том смысле, что миними- зирует среднеквадратическую ошибку предсказания Е[х(/4-1) — л -х(/+1)]2. 4. СТОХАСТИЧЕСКАЯ ТЕОРИЯ УПРАВЛЕНИЯ В этом разделе рассмотрены основные задачи и результаты стохастической теории управления, а также кратко изложена история ее развития. Стохастическая теория управления изучает динамические системы, описываемые разностными или дифференциальными уравнениями с учетом действующих помех, которые рассматри- ваются как стохастические процессы. Эта теория разработана для того, чтобы получить ответы на следующие вопросы: Каковы статистические свойства параметров системы? (Ана- лиз.) Как подстраивать параметры (если, например, имеем систе- му и регулятор с заданной структурой, но неизвестными пара-
Стохастическое управление 17 метрами), чтобы оптимизировать систему относительно заданно- го критерия? (Параметрическая оптимизация.) Как при заданных системе и критерии найти такой закон управления, который минимизирует заданный критерий? (Стоха- стическое оптимальное управление.) Методы решения подобных задач были разработаны относи- тельно недавно. Во время второй мировой войны в Массачу- сетском технологическом институте в США стохастическая тео- рия управления применялась для синтеза систем управления стрельбой. В работе [11] рассмотрена схема следящего радио- локатора, использующего параметрическую оптимизацию. Одним из краеугольных камней стохастической теории уп- равления является теория фильтрации и упреждения, разрабо- танная Винером и Колмогоровым. Эта теория дает возможность выделять сигнал на фоне помех. Однако в теории Винера—Кол- могорова необходимо решать интегральное уравнение (уравне- ние Винера — Хопфа), что сужает область ее применения. В реальных задачах уравнение Винера — Хопфа редко имеет ана- литическое решение, а решение численными методами представ- ляет собой громоздкую трудоемкую процедуру. Большое влияние на развитие стохастической теории управ- ления оказало использование цифровых вычислительных ма- шин как для анализа, так и для синтеза. Значительный вклад в решение проблемы фильтрации сделали Калман и Бьюси. В их теории задачи упреждения и фильтрации решаются рекур- рентными методами, что позволяет использовать цифровые вы- числительные машины. Результаты Калмана и Бьюси распрост- раняются и на нестационарные процессы. На основании теории Калмана — Бьюси прогноз дается в виде выходной переменной линейной динамической системы, когда управление осуществля- ется по наблюдениям. Чтобы определить коэффициенты этой динамической системы, необходимо решить уравнение Риккати с заданными начальными условиями. Уравнение Риккати анало- гично уравнению, которое рассматривали в теории оптимально- го управления линейными детерминированными системами с квадратичным критерием. Действительно, задача прогнозирова- ния и проблема управления по квадратичному закону представ- ляют собой математически двойственную задачу. Этот вывод представляет большой интерес как с теоретической, так и с практической точек зрения. Если одна из задач решена, то, об- ращаясь к принципу двойственности, легко решить и другую задачу. Для решения задач фильтрации и детерминированного -управления могут быть использованы также одни и те же прог- раммы для вычислительных машин. Стохастическое оптимальное управление в значительной сте- пени базируется на основных положениях динамического про- 2—403
18 Глава 1 граммирования. Для линейных систем с квадратичным крите- рием решение дается так называемой теоремой разделения, ко- торая позволяет составлять оптимальную стратегию из двух частей (рис. 1.1): оптимального фильтра, который вычисляет оценки состояния в виде условного среднего при заданных на- блюдениях выходных сигналов, и линейной обратной связи (от оцениваемого состояния к сигналу управления). Рис. 1.1. Блок-схема, иллюстрирующая теорему разделения. л и — сигнал управления; у — выходная переменная; х — оценка переменной состояния. Оказывается, что при этом линейная обратная связь такая же, какой она получалась бы при отсутствии помех и точной? измерения состояния системы. Линейная обратная связь может быть найдена путем решения задачи детерминированного управ- ления. Условное среднее значение состояния характеризует вы- ходную переменную фильтра Калмана, который по существу представляет математическую модель системы, когда управле- ние осуществляется по наблюдениям. Характеристики фильтра зависят от помех и динамических свойств системы, но не зави- сят от критерия. Таким образом, теорема разделения обеспечивает связь меж- ду теорией фильтрации и теорией стохастического оптимального’ управления. Впервые теорема разделения была опубликована в работе [18]. Подобный результат известен в эконометрике под. названием принципа определенной эквивалентности. Таким образом, оптимальная стратегия решения задачи сто- хастического управления для линейных систем с квадратичным критерием состоит из линейной динамической системы с возмож- но зависящими от времени параметрами. К этому классу стра- тегии относятся стратегии, которые на протяжении многих лет
Стохастическое управление 19 уже использовались на практике, но их получение осуществля- лось частными методами. Поскольку переход к системам с многими входами и выхода- ми не вызывает трудностей, то линейная стохастическая теория управления представляет собой мощное средство решения за- дач управления. Результатом этой теории является решение в «замкнутой форме» в том смысле, что параметры оптимальной стратегии получаются при решении уравнения Риккати с задан- ными начальными условиями. Для решения подобных уравне- ний известны численные алгоритмы. Иногда эти задачи могут быть не удобны для численного решения. Линейная стохастическая теория управления обладает осо- бенностями, которые необходимы для теории регулирования с обратной связью. Например, в ней проводится различие между разомкнутыми и замкнутыми системами; работа системы кри- тически зависит от информации, получаемой в тот момент, ког- да определяется сигнал управления (так, задержка измеряемо- го сигнала ведет к ухудшению работы системы). Оптимальная обратная связь представляет собой линейную динамическую систему. 5. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА Список ранних работ и полный обзор разработок в теории управления даны в работе [1]. Обзор классической и современ- ной теории управления приведен в работе [2]. Вводные главы по детерминированной теории управления можно найти в книгах [3—5]. Более сложный анализ проведен в работах [6, 7]. Стохастическая теория управления изложена в работах [8-10]. Ранние примеры применения стохастической теории управ- ления даны в работе [И]. Трудности первых попыток модели- рования помех показаны в работах [12—14]. Теорию фильтрации можно найти в работе [15]. Теория Калмана — Бьюси изложена в работах [16, 17]. Теорема разде- ления доказана в работе [18]. Принцип эквивалентности осве- щен в работах [19, 20]. 1. Bellman R., Kalaba R. (eds.), Mathematical Trends in Control Theory, Dover, New York, 1963. 2. Astrom K. J., Reglerteori, Almqwist and Wiksell, Uppsala, 1968 (in Swe- dish). 3. Athans M., Falb P., Optimal Control, McGraw-Hill, New York, 1966. -- 4. Bellman R., Introduction to the Mathematical Theory of Control Processes, 1, Academic Press, New York, 1967. 5. Bryson A. E., Jr., Ho, Iu-Chi., Applied Optimal Control, Blaisdell Waltham. Massachusetts, 1969.
20 Глава 1 6. Markus L., Lee E. B., Foundations of the Theory of Optimal Control, Wiley, New York, 1967. 7. Понтрягин Л. С., Болтянский В. Г., Гамкрелидзе Р. В., Мищенко Е. Ф., Математическая теория оптимальных процессов, изд-во «Наука», М., 1969. 8. Bellman R., Dynamic Programming, Princeton Univ. Press, Princeton, New Jersey, 1957. Русский перевод: Веллман P., Динамическое программиро- вание, ИЛ, 1960. 9. Bellman R., Adaptive Control Processes: A Guided Tour, Princeton Univ. Press, Princeton, New Jersey, 1961. Русский перевод: Беллман P., Про- цессы регулирования с адаптацией, изд-во «Наука», М., 1964. 10. Aoki М., Optimization of Stochastic Systems, Academic Press, New York, 1967, Русский перевод: Аоки M., Оптимизация стохастических систем,, изд-во «Наука», М., 1971. 11. James Н. М., Nichols N. В., Phillips R. S., Theory of Servomechanisms, McGraw-Hill, New York, 1947. Русский перевод: Джеймс X., Никольс Н., Филипс Р., Теория следящих систем, изд-во «ИЛ», 1951. 12. Yule G. U., «On a Method of Investigating Periodicities in Disturbed Se- ries with Special Reference to Walter’s Numbers», Phil. Trans. Roy. Soc. A226, 267—298 (1927). 13. Wax N. (ed.), Collected Papers on Noise and Stochastic Processes, Dover, New York, 1954. 14. Wold H., Stationary Time Series, Almqvist and Wiksell, Uppsala, 1938. 15. Wiener N., The Extrapolation, Interpolation, and Smoothing of Stationary- Time Series with Engineering Applications, Wiley, New York, 1949. 16. Kalman R. E., «А New Approach to Linear Filtering and Prediction Prob- lems», ASME J. Basic Eng., 82, 34—45 (1960). 17. Kalman R. E., Bucy R. S., New Results in Linear Filtering and Prediction- Theory, ASME J. Basic Eng., 83, 95—107 (1961). 18. Joseph P. D., Tou J. T., On Linear Control Theory, Trans. AIEE (Appli- cations and Industry), 80, 193—196 (1961). 19. Simon H. A., Dynamic Programming under Uncertainty with a Quadratic- Criterion Function, Econometrica, 24, 74—81 (1956). 20. Theil H., A Note on Certainty Equivalence in Dynamic Planning, Economet- rica, 25, 346—349 (1957).
Глава 2 СЛУЧАЙНЫЕ ПРОЦЕССЫ 1. ВВЕДЕНИЕ В главе кратко изложены те элементы теории случайных: процессов, которые необходимы для понимания материала сле- дующих глав. Более подробное изложение этой теории можно найти в работах [1—7]. Понятие случайного процесса дано в разд. 2. Несколько* примеров конкретных случайных процессов (нормальные про- цессы, марковские процессы, процессы второго порядка и про- цессы с независимыми приращениями) рассмотрено в разд. 3. Свойства ковариационной функции обсуждаются в разд. 4. В разд. 5 вводится понятие спектральной плотности. Особое вни- мание уделяется понятию белого шума с дискретным непрерыв- ным временем. Разд. 6. посвящен методам, необходимым для’ анализа случайных процессов с непрерывным временем. 2. ПОНЯТИЕ СЛУЧАЙНОГО ПРОЦЕССА Случайный процесс (стохастический, вероятностный процесс или случайная функция) можно определить как семейство слу- чайных переменных {x(t), teT}, которые зависят от параметра, или индекса /, принадлежащего соответствующему множеству Т (множеству параметров или множеству индексов). Параметр t часто будем интерпретировать как время и будем рассматри- вать два разных множества индексов. Если Т={...,— 1, 0, 1...} или Т = {0, 1, 2,...}, то случайный процесс называется процессом с дискретным параметром или процессом с дискретным време- нем. Если Т={/, 0^/<оо} или T—{t\ — оо</<оо}, то про- цесс называется процессом с непрерывным параметром или про- цессом с непрерывным временем. Мы будем предполагать так- же, что случайные переменные x(t) принимают значения на действительной оси или в n-мерном евклидовом пространстве. Случайный процесс {x(t), teT} есть функция двух аргументов {х(/, со), teT, coeQ}, где Q называется выборочным пространст- вом. Следовательно, для фиксированного teT функция х(/, •) есть случайная переменная, а для фиксированного со функция' х(-, со) есть функция времени, которая называется реализацией процесса, выборочной функцией, траекторией. Выборочные функ-
22 Глава 2 ции можно рассматривать как элементы пространства X, кото- рое называется пространством выборочных функций. Основной трудностью теории случайных процессов является определение вероятностной меры на подмножествах выборочно- го пространства Q (или пространства выборочных функций X), поскольку меру можно определить не на всех подмножествах Q, а только на борелевском поле В подмножеств. Определение вероятностной меры Р на борелевском поле под- множеств Q требует привлечения теории меры. Для обычных •случайных переменных, пространствами выборочных функций которых служат евклидовы пространства, вероятностную меру можно определить по обычной функции распределения. Колмо- горов показал, что аналогичным образом можно определять ве- роятностную меру на борелевском поле подмножеств бесконеч- номерного выборочного пространства случайного процесса. Пусть {x(t); t еТ} —случайный процесс. Предположим, что рас- пределение вероятностей многомерной случайной величины x(/i), ..., x(tk) для любого k и произвольного t^T можно пред- ставить функцией распределения *(/2)<|2,...,*(/л)<^, (2.1) удовлетворяющей условиям симметрии и согласованности. Рас- пределение (2.1) называется конечномерным распределением процесса. Условие симметрии означает, что F — симметричная функ- ция для всех пар ti). Условие согласованности определяется следующим соотношением: F (?1> ^2» 1*> ^1> ^2» > h-l) ~ = limF(gU2,...,^; ^J2,...,^). (2.2) Из теории Колмогорова следует, что вероятностная мера может быть определена на борелевском поле подмножеств Q и что существует стохастический процесс {x(t); teT}, такой, что сов- местное распределение значений х в моменты t\, ..., th имеет функцию распределения F(gb g2, t2, ..., tk). Вероятност- ная мера обозначается Р. Таким образом, вероятность по тео- реме Колмогорова единственным образом определяется конеч- номерными распределениями. Итак, случайный процесс {x(t, w), teT} есть функция, которая отображает выборочное пространство Q в пространство выбо- рочных функций X. Мера Р, определенная на подмножествах Q, и функция x(t, со) будут порождать меру на X следующим об- разом. Рассмотрим множества А'еХ, такие, что множества
Случайные процессы 23 {ю; х(-, со)б А'} ей измеримы. Тогда можно определить р {хеА'} = Р{со; х(-, со) еД'}- Сучайный процесс можно также описать, представив х как функционал от известного случайного процесса. Рассмотрим, например, процесс с дискретным временем при Т= {...,—1, 0, 1,...}. Пусть случайный процесс {e(t), teT} есть просто последователь- ность нормальных случайных величин с параметрами (0,1). Введем случайный процесс {x(t), teT}, определяемый соотно- шением x(t) = e(t) + cte(t— 1) Н--\-cne(t— п), t£T. (2.3) Этот процесс называется процессом скользящего среднего по- рядка п. Если все корни полинома zn Н- • • • ~Ь ап = 0 находятся внутри круга единичного радиуса, можно ввести так- же процесс {x(t), teT}, описываемый выражением x(t) + сцхЦ — 1) 4---h anx(f — n) — e(t), t£T. (2.4) Этот процесс называется процессом авторегрессии порядка п. Выше было отмечено, что невозможно определить вероят- ностную меру на всех подмножествах й, а только на тех множе- ствах, которые принадлежат борелевскому полю подмножеств й,. т. е. на множествах, которые получаются бесконечным пересече- нием и объединением интервалов. Что касается приложений, то это в общем не сильное ограничение для процессов с дискрет- ным параметром. Однако оно существенно для процессов с не- прерывным временем, так как, например, множество {со; x(t, со)<с для всех t£(a, b)) не есть борелевское множество. Можно показать, что на таких множествах мера по конечно- мерным распределениям процесса определяется не единствен- ным образом. Следовательно, для процессов с непрерывным временем, определяемых только конечномерным распределени- ем, невозможно вообще найти такие вероятности, чтобы все вы- борочные функции были ограничены, непрерывны, дифферен- цируемы и т. д. Среднее значение процесса, определяемое выражением m(f) = Ex(t) = j* х (/, со) Р (dco) = J IdF&t), (2.5) Q —oo есть функция времени. Аналогичным образом определяются мо- менты высших порядков. Ковариация x(s) и x(t), например, оп- ределяется соотношением
24 Глава 2 cov [х (s), х (0] = Е [х (s) — т (s)] [х (0 — т (0] = = J [х (s, со) — т (s)] [х (0 со) — т (0] Р (dco) = а = J J &-m(s)]&-m(0]d‘F&,^;M). (2.6) Упражнения 1. Пусть Й — сегмент [0, 1] на действительной оси и мера Р— равномерное распределение. Пусть множество Т есть ин- тервал [0, 1]; рассмотреть случайные процессы {х(0, teT} {y(t), t€T}, определяемые соотношениями х (0 со) = 0 для всех t и со, ,, . (1 для /=со, у (0 со) = { |0 в противном случае. Локазать, что случайные процессы имеют одинаковые конечно- мерные распределения и что Р {со; х(0 со) < 0,5 для всех 0 = 1, Р {со; y(t, со) < 0,5 для всех 1} — 0. 2. Для процесса скользящего среднего первого порядка х(0 = е(0 + се(/—1), >где {е(0; / = ...,— 1, 0, 1,...} есть последовательность независи- мых нормальных случайных величин с параметрами (0,1), оп- ределить ковариацию х(0 и x(s). 3. Для процесса авторегрессии х(0 + ax(t~ 1) = e(t), где |а| < 1 и {е(0, t=...,—1, 0, 1,...} есть последовательность не- зависимых нормальных случайных величин с параметрами (0,1), найти ковариацию х(0 и x(s). 3. НЕКОТОРЫЕ ТИПЫ СЛУЧАЙНЫХ ПРОЦЕССОВ В разд. 2 дано слишком общее определение случайного про- цесса. Для разработки приемлемой теории необходимо его кон- кретизировать. Особенно привлекательны такие построения тео- рии, которые позволяют получить распределение х(0), х(0),..., x(tk) простым путем. В этом разделе мы рассмотрим некоторые типы случайных процессов, которые представляют особый инте- рес для теории управления.
Случайные процессы 25 Стационарные процессы Случайный процесс {x(t), t еТ} называется стационарным, если распределение x(t\), x(ti),..., х(1к) тождественно равно рас- пределению х(/1+т), х(^+т), x(/fe+r) для всех т, таких, что ti еТ и (fi+т) еП=1, 2, k. Если равны только первые и вторые моменты распределения, то процесс называется стационарным в широком смысле1. Стационарный процесс называется эргодическим, если сред- нее по ансамблю равно среднему выборочной функции по време- ни, т. е. т Ex (t) = f х (t, со) Р (da) = lim — f x (t, co) di (3.1) J 2Г J й — т почти для всех co. Нормальные процессы Случайный процесс называется нормальным или гауссовым* если совместное распределение x(^i), х(/2),..., к (th) является нормальным для каждого k и всех е Л f= 1, 2,..., Нормаль- ный процесс полностью определяется средним значением = Ex (ti), i = l,2,..., k, и ковариациями Гц = cov [х (/,), х (/;)] = Е[х (/,) — mJ [х (/,) — mJ т, ij = 1,2,... ,k. Если ввести вектор m и матрицу R: m = ru Г12* ’ •rik m2 , R = Г12 r22 * ’ -rik "Ч- _rlk r2k* ’ rkk- где R — невырожденная матрица, то совместное распределение х(^), х(/2),..„ x(/fe) можно охарактеризовать плотностью рас- пределения f(g) = (2n)-A/2(det/?)-1/2 exp[--^(g-m)r/?-1(g-m)]. (3.2) 1 Автор пользуется термином «стационарный», подразумевая стационар- ность в узком смысле; для процессов, стационарных в широком смысле, ис- пользуется термин «слабо (weakly) стационарный процесс». — Прим. ред.
26 Глава 2 Из теоремы Колмогорова следует, что нормальный процесс можно определить, если известны среднее значение и ковариа- ция для всех возможных Л, tk * Т. Таким образом, нормаль- ный процесс полностью определяется двумя функциями: т (/) = Ех (/) и г (s, f) = cov [х (s), х (/)] = Е [х (s) — т (s)] [х (/) — т (/)]Т, которые называются функцией среднего значения и ковариаци- онной функцией соответственно. Для стационарного нормально- го процесса среднее значение постоянно, а ковариационная функция зависит только от (s—t). Марковские процессы Пусть ti и t есть элементы множества Т, такие, что Случайный процесс {x(t), teT} называется марков- ским процессом, если x(t2),...,x(tk)} =P{x(/)<g|x(/ft)J, (3.3) где через Р{- |х(/а)} обозначена условная вероятность при фик- сированном x(tk). Если даны функция распределения x(ti), на- чальная функция распределения Р&; 4) = РН1)<М (3.4) и функция распределения вероятностей перехода F&J\%s,s) = P{x(t)^t\x(s) = ^, (3.5) то по правилу Байеса функция распределения случайных пере- менных x(/i), х(/2),..., x(tk) определяется соотношением Bi L &>-1 XdF(ti„_p | П„_2. М • • dF (ПР (3.6) Таким образом, марковский процесс определяется двумя функ- циями: абсолютной функцией распределения F(ry, s) и вероят- ностями перехода Е(|, t|т), s). Процессы второго порядка Случайный процесс {х(£), teT} называется процессом второ- го порядка, если Ex2(t)<oo для всех teT. Функция среднего значения и ковариационная функция для таких процессов опре- деляются соотношениями
Случайные процессы 27 tn (!) = Ех (/), г (s, t) = Е [х (s) — т (s)] [х (!) — т (/)]Т. Для распределения данного типа характеристики второго по- рядка могут быть выражены через эти две функции. Процессы с независимыми приращениями Случайный процесс {x(i), i е Т} с U е Т для 1=1, 2,..., k и — называется процессом с независимыми прираще- ниями, если случайные величины x[^k} x{^k—i)’ x{^k—i) х (h—2)’ •••»х (^2) взаимно независимы. Если переменные только не коррелированье то процесс {x(t), i е Т} называется процессом с некоррелирован- ными или ортогональными приращениями. Процесс с независимыми приращениями определяется рас- пределением приращений х(!)—х(з) для произвольных t и s и распределением x(ii). Если распределение х(!)—x(s) зависит только от !—s, то говорят, что процесс называется процессом со стационарными приращениями. Если {х(!)—х(з)} имеет нор- мальное распределение, то {х(!),!еТ} называется процессом с независимыми нормальными приращениями. Для {x(Z), ! еТ} — векторного процесса с независимыми ор- тогональными приращениями — можно найти функции F, такие, что F (/) — F (з) = cov [х (/), х (/)] — cov [х (s), х (з)]. (3.7) Выражение (3.7) можно записать также в виде cov [dx, dx] = dF (i). Дифференциал dF называется ковариацией приращений про- цесса. Если процесс {x(i), ieT} имеет стационарные приращения, разность F(i)—F(s) зависит только от з — !. В этом случае разность обозначают через F\(t— з), з<А Следовательно, Ft (i + s) = Ft (!) + Л (s), s>0, />0. (3.8) Для процесса с непрерывным параметром непрерывная функ- ция, удовлетворяющая условию (3.8), имеет вид Fr(i) = Ai. (3.9) Рассмотрим свойства ковариационной функции для процесса с ортогональными приращениями. Для з>/ имеем г (з, !) — cov [х (з), х (0] = cov [х (!) + х (з) — х (/), х (/)], г (s, !) = COV [X (0, х (/)] + cov [x (s) — X (/), X (/)] ,
28 Глава 2 г (s, t) = cov [x (/), X (/)] , где третье равенство следует из определения ковариации, а по- следнее— из того, что процесс {х(/), teT} имеет некоррелиро- ванные приращения. Итак, мы нашли, что ковариационная функция процесса с •ортогональными приращениями имеет следующие свойства: / (г (5, $), если r(s, t) v n I = U (/, /), если J = cov [x (min (s, /)), x (min (s, /))]. (3.10) Винеровский процесс Винеровский процесс, или процесс броуновского движения, является нормальным процессом. Он имел большое значение для разработки теории случайных процессов. Как показано в последующих главах, многие распределения, используемые в системах управления, можно моделировать процессами, порож- даемыми винеровскими процессами. Английский ботаник Броун в 1827 г. заметил, что маленькие частицы (диаметром —0,001 мм), погруженные в жидкость, на- ходятся в движении. В 1905 г. Эйнштейн показал, что это дви- жение можно было бы объяснить, если считать, что оно вызыва- ется столкновениями частиц с молекулами жидкости. Эйнштейн дал также математическую модель этого движения и определил число Авогадро. Строгий математический анализ этого процесса был дан Винером в 1923 г. Эвристически броуновское движение можно объяснить следующим образом. Рассмотрим отдельную части- цу, погруженную в жидкость. Обозначим через х(£) одну из ко- ординат частицы с начальными условиями, выбранными так, что х(0)=0. Движение этой частицы на достаточно большом ин- тервале времени есть результат изменения импульса вследствие многих столкновений. Поэтому разумно считать, что применима центральная предельная теорема и распределение нормально. Также естественно допустить, что статистические свойства рас- пределения на интервале (/, /+т) такие же, как и на интервале (s, s+т), т. е. что распределения на непересекающихся интер- валах времени независимы и что трение при движении отсутст- вует. Аксиоматически винеровский процесс можно определить следующими условиями: 1) х(0)=0; 2) x(f)—нормальный процесс; 3) Ex(t) =0 для всех />0; 4) процесс имеет независимые стационарные приращения.
Случайные процессы 29 Поскольку винеровский процесс нормальный, он может быть полностью охарактеризован функцией среднего значения и ко- вариационной функцией. Третье условие означает, что т (/) = Ех (/) = 0. Так как винеровский процесс имеет независимые стационар- ные приращения и х(0)=0, то из выражений (3.9) и (3.10) со- ответственно следует, что ,-vaf %(/) = ct (З.П) и r(s,/)= соv [x(s); х (/)] = cmin (s, i), (3.12) Обычно с называется параметром дисперсии. Допуская некото- рую неточность в выражении, векторный процесс с нулевым средним значением и независимыми нормальными приращения- ми также называют винеровским процессом. Выборочные функ- ции винеровского процесса имеют интересные свойства. Можно показать, что они непрерывны с вероятностью 1, не имеют про- изводных, а их траектории имеют бесконечную длину. Сингулярные, или чисто детерминированные, процессы Понятие вырожденного процесса представляет интерес для теории упреждения (прогнозирования). Оно также иллюстриру- ет тот факт, что не совсем тривиально получить модель случай- ного процесса. Пусть вектор-столбец х есть n-мерная случайная перемен- ная. Распределение х называется сингулярным, или, более точ- но, линейно-сингулярным, если существует n-мерный вектор а, такой, что Р[ш;атх(й)^0)=0. (3.13) Аналогично случайный процесс {x(t, со), t е Т} называется син- гулярным (линейно-сингулярным), если существует линейный оператора, такой, что Р {«>,=0. (3.14) Процесс х (I, со) = а (со) для всех/, (3.15) где а — случайная переменная, есть простой пример сингуляр- ного процесса. Очевидно, что х(/ь со)—х(/0, ®)=0 для всех t и со. Это означает, например, что процесс может быть представ- лен точно на любом интервале времени. Поэтому он называется чисто детерминированным процессом. Процессы вида
30 Глава 2 x(t)= Yaibiit), i=l (3.16) где at — случайные переменные, а —известные функции, которые часто использовались при первых попытках описать случайные процессы, представляют более общий пример чисто детерминированных процессов. Упражнения 1. Пусть {*(0, —нормальный процесс с нулевым средним значением. Показать, что Е [х (4) х (4) х (4) х (4)] = г (4, /2) г (t3, tt) + + г (tu 4) г (t3, Q + г (4, 4) г (t3, 4). 2. Пусть {%(<), t *Т} — нормальный процесс с нулевым сред- ним значением. Показать, что Е [х (4)х (4) ’ ’ "х (4п)] ~ [Ех (4,) х (4-2)] • • • [£x(42/l_1)x(42f!]], / оп \ где сумма берется I ] раз. 3. Пусть х и у — вектор-столбцы произвольной размерности и допустим, что —нормальный вектор со средним значени- ем тх и ковариацией ту J Rx Rxy Ryx Ry _ Показать, что условное распределение х при заданном у явля- ется нормальным со средним значением т = tnx + RxyRy 1 (у — ту) и ковариацией R = Rx Rxy Ry Ryx. 4. Пусть x есть n-мерный вектор-столбец, имеющий нормаль- ное распределение со средним значением т и ковариацией Ro. Пусть S — симметрическая матрица и v — квадратичная форма v—xTSx. Показать, что £v = тТ Sm + tr R3 S.
Случайные процессы 31 5. Является ли процесс скользящего среднего первого по- рядка х(/) = e(t) + ce(t — 1), где —1, 0, 1, ...} —последовательность независимых нормальных случайных величин с параметрами (0, 1), стацио- нарным, нормальным, марковским, эргодическим и сингуляр- ным? Имеет ли он независимые приращения? 6. Рассмотреть процесс авторегрессии первого порядка х (t + 1) + ах (/) = е (/), t = /0, /0 + 1, •••, где |а| <1, {e(Z)}—последовательность независимых нормаль- ных случайных величин с параметрами (0, 1), а начальное со- стояние x(Z0)—нормальное с параметрами (0, а). Последова- тельность независима от x(tQ). Является ли процесс ста- ционарным, нормальным, марковским, эргодическим или вы- рожденным? Имеет ли он независимые приращения? 7. Рассмотреть процесс авторегрессии из упражнения 6, но считать, что x(Z0) и е(/0) —совместно нормальные процессы с корреляцией р. Будет ли этот процесс марковским? 8. Рассмотреть вырожденный случайный процесс {х(7), 0^/<оо}, определяемый соотношением — = о, di где начальное состояние —нормальное с параметрами (0, о). Будет ли он эргодическим? Найти упредитель для процесса, который будет предсказывать x(t-\-h) на основании измерений x(t). 9. Рассмотреть стохастический процесс dx ~di О 1 — 1 О где начальное состояние — нормальное с нулевым средним зна- чением и ковариацией cov[x(0), *(0)]=^q Является ли процесс эргодическим? Найти упредитель, который будет пред- сказывать x^t-ph) на основании наблюдений {*i(s), 10. Пусть {x(t), teT}—винеровский процесс с единичным значением параметра дисперсии. Показать, что Р (со; max х (t, со) > а) = 2Р (со; х (7\) > о) = = —^fexp(- ^/27\)d£. У2л7\ J
32 Глава 2 4. КОВАРИАЦИОННАЯ ФУНКЦИЯ В разделе кратко изложены свойства ковариационных функ- ций. Пусть {%(/), и {z/(0, teT} —случайные процессы вто- рого порядка. Их ковариационная функция была определена выше соотношением Г XU (s> 0 = cov [х ($), у (0] = Е [х (s) — Ex (s)J [у (0 — Еу (0]т. (4.1) В частности, если rxy(s, t) есть функция разности аргументов s—t, то эти процессы совместно стационарны в широком смыс- ле. Следовательно, ?ху (5» 0 “ Гху (s 0* (4*2) Если процессы {*(/), teT} и {#(/), t еГ} одинаковы, то rxx(s9 t) называют автоковариационной функцией. Для простоты rxx(s9 t) обозначают иногда через rx(s9 t). Взаимная корреляционная функция процессов {%(/), teT} и {//(0, it?} определяется выражением • \ 7 г-------------- ’ У ГХХ (S> S) ryy t) Автокорреляционная функция процесса {x(t)9 teT} определяет- ся выражением ГXX (S* 5) ГXX (t > 0 В частности, для стационарных процессов Рху (т) = Гху (т) V Гхх (0) гуу (0) Рхх С1) гхх (т) гхх (0) Поскольку нормирование является трудоемкой операцией, кор- реляционные функции используются редко. Отметим, что иногда в литературе термин «автокорреляционная функция» использу- ется для обозначения Ex(t)x(t+x) I Если х и у—векторные величины (например, n-мерные векторы), ковариационная функ- ция определяется следующим выражением: 1 В отечественной литературе по теории вероятностей и ее применениям обычно rxy(s, t) называется взаимной корреляционной функцией случайных функций x(t) и y(t), а Гхх(з,1)—автокорреляционной функцией случайной функции х(0; функция pXJ/(s, t) называется нормированной взаимной корре- ляционной функцией и y(t), а рхх($, 0 —нормированной автокорреляци- онной функцией x(t). — прим. ped.
Случайные процессы 33 Rxy («> О = cov [х (s), у (/)] = Е [х (s) — Е х (s)j [у (t) — E у (/)]т = "COV [хх (з), ух (0] COV [хх (S), у2 (/)] • • • cov [Xi (з), уп (01 - = cov (x2(s), #,(/)] cov [х2(з), г/2(/)]••• cov [x2(s), yn(t)] - cov [x„ (s), y± (/)] cov [x„ (s), y2 (/)] • . . cov [xn (s), yn(t)] - Заметим, что все определения справедливы для процессов как с непрерывным временем, так и с дискретным. Рассмотрим свойства ковариационной функции. Теорема 4.1. Пусть {x(t), teT} —действительный случайный процесс второго порядка с ковариационной функцией rx(s, t). Тогда 1) rx(s,f)~rx(t,s)- (4.3) п 2) J] ZiZjrx(ti, tj) —квадратичная форма zit неотрицательно i./=l определенная для всех чисел п и для каждого выбора точек от- счета titT, i=l, 2, ..., п; 3) (s, /)|2 < rx (s, s) rx (t, t)\ (4.4) 4) если rx(s, t) непрерывна вдоль диагонали s — t, то она непрерывна для всех t. Доказательство. Первое утверждение следует непосредствен- но из определения ковариационной функции Гх (s> 0 — COV [X (S), X (/)] =cov [х (/), X (з)] = rx (t, s). Для доказательства второго утверждения предположим, что £х=0, и составим выражение п п п Е 11 S х (Oj21 2 Zi Zj Е[х (tt) х (//)] = £ zt Zi rx (ti, tj). Так как в левой части записано математическое ожидание неотрицательной величины, то оно неотрицательно, и утверж- дение 2 доказано. Утверждение 3 следует из неравенства Шварца ЕI -Ч/К VЕх2 Еу2, (4.5) для доказательства которого допустим, что а — действительная постоянная величина, и рассмотрим неравенство 3-403 (W + Л| г/1)2>0.
34 Глава 2 Взяв среднее от обеих частей, получим Ех* + 2аЕ |х//| + а2 Еу* = (Ew2) Га + £М]2 + Ех* — (—!?у|)2 > 0. L Еу2 J Е</2 Так как левая часть должна оставаться неотрицательной для всех а, то получим [Е\ху\\2 ^ Ех2Еу\ что и требовалось доказать. Чтобы доказать утверждение 4, рассмотрим | rx (s + h, t + k) — rx (s, t) I = | cov [x (s + h), x(t + k) —x (/)] + + cov [x (s + h) — x (s), x (/)] | < < {r, (s + h, s-\-h) [r* (t + k, t + k) — 2rx (t + k, t) + + rx (t, tJ} l/2+ {[rx (s + h, s + h) — 2rx (s + h,s)-T- + rx(s,s)]rx(t,t)}l\ (4.6) Неравенство в этом выражении следует из неравенства (4.4). Пусть Л, &-И), тогда rx(t+k, t)-+rx(t9 t) и rx(t-]-k)-+rx(tf t), так как rx(s, t) —непрерывная функция для s = t. В этом слу- чае правая часть выражения (4.6) сходится к нулю, и утвержде- ние 4 доказано. Ковариационная функция стационарных в широком смысле процессов имеет следующие свойства: gW = г Л—т), s Zi Zjrx (ti — tj) > 0, \rx (т)1<Л(0). Если rx(x) непрерывна для т=0, то гх(т) непрерывна для всех т. Упражнения 1. Могут ли следующие функции быть ковариационными функциями стационарных случайных процессов: г (т) = const, г (т) = cos т, /ч Р, М<1, Г(Т) = 1о. М<1. |о, |т!>1,
Случайные процессы 35 1 + 2g |т| + т* ’ 2. Пусть {е(0, t = —, —1, О, 1,...} —последовательность неза- висимых нормальных случайных величин с параметрами (0,1). Рассмотреть случайный процесс x(t) + ax(t — 1) = e(t) + ce(t -— 1), где |а|<1. Определить ковариационную функцию данного про- цесса. 3. Случайный телеграфный сигнал есть непрерывный случай- ный процесс {x(t}, —оо^г^оо} со следующими свойствами: х может принимать только значения 4-1 или —1; вероятность того, что х изменит свое значение на интервале (t, есть Kh-\-O(h). Определить ковариационную функцию этого про- цесса. Указание. Вероятность того, что процесс изменяется п раз на интервале длины t, есть (М)п/п! ехр(—М). 4. Пусть X—линейный оператор, коммутативный с операци- ей нахождения математического ожидания. Показать, что не- обходимым условием того, что стационарный процесс {%(/), teT} сингулярный, или чисто детерминированный, т. е. X х=0, являются следующие свойства ковариационной функции r(s, t} этого процесса: <27(-,/) = 0, t — const, . Xr (s, •) = 0, s = const. 5. Доказать, что cov [Ax 4- a, By + b]=A {cov [x, y]) BT. 5. ПОНЯТИЕ СПЕКТРАЛЬНОЙ ПЛОТНОСТИ Рассмотрим стационарный в широком смысле случайный процесс {x(t), teT} со средним значением т и ковариационной функцией гж(т). Найдем другую характеристику этого процесса, которая позволит дать иную физическую интерпретацию и упро- стить некоторые формулы. Этой характеристикой в сущности является преобразование Фурье для ковариационной функции. По теореме 4.1 ковариационная функция имеет следующие свойства: г(т) = г(—т), (5.1) ZztZjrtli—1})>0. (5.2) з*
36 Глава 2 Таким образом, ковариационная функция есть неотрицательно определенная функция, которую по теореме Бохнера всегда можно представить в виде г(т) = J el®x dF (а) (для процесса с непрерывным временем) (5.3) или л г(т)= j el<i,xdF(<s>) (для процесса с дискретным временем), (5.4) —Л где F — неубывающая функция. Функция F называется спект- ральной функцией распределения случайного процесса. Она мо- жет быть разложена на три компоненты: F (со) - Fa (со) + Fd (со) + Fs (со), (5.5) где Fa — абсолютно непрерывная функция, Fd — ступенчатая функция и Fs— непрерывная почти везде постоянная функция. Функция Fs называется сингулярной частью. Функции Fa и Fd можно записать в следующем виде:. Ра (®) = J ф («') (5.6) Frf(a>)= S (5.7) © <© V где <p(<jd) называется функцией спектральной плотности, или просто спектральной плотностью. Если предположить, что син- гулярная часть Fs и ступенчатая функция Fd равны нулю, то можно найти уравнения, связывающие спектральную плотность и ковариационную функцию: Г 1 ф (о) = -L С е~м г (/) dt (5.8) _оо (для процесса с непрерывным временем), /•(/) = J’ е‘аЧ(®)</® (5.9) J ' .00 л (для процесса с дискретам временем). (5.10) г (п) = J е1пи> <р (со) d® —Л (5.П)
Случайные процессы 37 Если считать, что спектральная плотность есть распределение, или обобщенная функция, то эти уравнения будут справедливы также при Fd=#0. Заметим, что var х = г (0) = J dF (со), (5.12) где интеграл берется по интервалу (—л, л) для процесса с ди- скретным временем и по (—оо, оо) для процесса с непрерыв- ным временем. Таким образом, сумма элементарных дисперсий, распределенных по всему диапазону частот, дает дисперсию слу- чайного процесса. Аналогично сумма j dF (®)+ J dF (©) + J dF (со) при со2 > сог > 0 (5.13) —й)2 ©1 ©1 может быть интерпретирована как общая дисперсия случайного процесса в диапазоне частот (coi, ©2). Таким образом, функция F(a>) дает представление о распределении дисперсии по частоте. Отсюда и возникло название «спектральная функция распре- деления». В литературе иногда можно встретить множитель 2л в пре- образовании Фурье. Рассмотренная выше физическая интерпре- тация дает простое правило [выражение (5.2)] для запомина- ния принятого в данной книге фурье-преобразования. В литературе часто используется следующая пара преобра- зований: S(D= j e-^l,xr(x)dx, г(т)= J e+^,,xS(f)df. Если ввести Ф (со) d® = S (/) df, (А = 2л/, то можно найти связь между ф(®) и S(f): ф(®) = — 3 (—) . 2л ( 2л / (5.14) (5.15) (5.16) Используя единицы измерения радиан в секунду и герц, найдем, что как ф, так и 3 обладают одним свойством: для процессов с Fd=0 и Fs=0 площадь под кривой спектральной плотности равна общей дисперсии процесса.
38 Глава 2 Разложение стационарных процессов Существует разложение стационарных процессов {x(t), teT}, которое соответствует разложению спектральной функции рас- пределения [выражение (5.5)]. Можно показать, что стацио- нарный случайный процесс {x(t), teT} можно разложить на три независимых процесса: {xa(t), teT}, {xd(t}, teT} и {xs(/), teT}., имеющие соответственно спектральные функции распределения Fa, Fd и Fs, так, что ^(0 = xfl(0 + ^(0 + xs(0. (5.17) Если функция Fd имеет конечное число скачков, то процесс Хд состоит из конечной суммы гармоник. Следовательно, процесс Xd есть процесс, определяемый соотношением (3.16), где bi(t) — синусоидальные функции. Следовательно, этот процесс чисто детерминированный. В общем случае процесс Xd будет иметь счетное число разрывов. Однако и в этом случае можно пока- зать, что он является детерминированным. Можно показать, что процесс xs также чисто детерминированный. Процесс ха может быть как детерминированным, так и недетерминиро- ванным. Колмогоров показал, что для дискретного параметра процесс является чисто детерминированным, если интеграл л / = J [ log г; (®)| Ао (5.18) —л бесконечен, и процесс является недетерминированным, если интеграл (5.18) конечен. Соответствующий критерий для процессов с непрерывным параметром определяется интегралом f I log f' (<в)| /= j ' 1+ам2 1 d®. (5.19) — оо Этот критерий предложен Винером. Критерий того, что интеграл (5.19) конечен, называется условием Винера—Пэли. Понятие белого шума Используем введенную выше спектральную функцию распре- деления F(&) для определения характеристик частного вида случайного процесса — белого шума. Рассмотрим стационарный в широком смысле случайный процесс {x(t), teT}. Без потери общности можно считать, что среднее значение этого процесса равно нулю. Поскольку спектральная функция распределения
Случайные процессы 39 характеризует распределение дисперсии процесса по частоте, можно дать следующее определение: Определение 5. 1. Стационарный в широком смысле процесс с функцией F((d) =const-(o называется белым шумом. Отметим, что для белого шума сингулярная часть Fs и дискретная часть Fd разложения спектральной функции распределения обраща- ются в нуль. Таким образом, белый шум имеет постоянную спектральную плотность ф(со) =const. Сделаем теперь некото- рые выводы из данного определения отдельно для процессов с дискретным и непрерывным временем. Белый шум с дискретным временем Для анализа свойств белого шума с дискретным временем вычислим сначала его ковариационную функцию. Подставляя в выражение (5.11) формулу ф(со) —const = c, находим г (п) = j = — sin tin, (5.2U) —л Таким образом, для белого шума с дискретным временем , . [2лс, и = 0, , '•(«) = L (5-21) (О, п = ± 1, ±2, • • • . Это означает, что значения этого процесса в различные моменты времени не коррелированы, а для нормального белого шума также независимы. Таким образом, белый шум с дискретным временем есть процесс, который состоит из последовательности некоррелированных (в нормальном случае также независимых) случайных переменных. Поэтому белый шум с дискретным вре- менем называют иногда полностью некоррелированным процес- сом, или чисто случайным процессом. Белый шум с непрерывным временем В введении отмечалось, что анализ непрерывных процессов намного сложнее анализа дискретных процессов. На примере белого шума с непрерывным временем можно проиллюстриро- вать некоторые трудности, с которыми приходится сталкиваться при анализе непрерывных процессов. Из определения 5.1 следу- ет, что Ф (со) = const = с. Поскольку дисперсия процесса есть интеграл от ф (со) по (—оо, оо), обнаруживаем, что белый шум с непрерывным временем не имеет конечной дисперсии. Следовательно, белый шум с непре-
40 Глава 2 рывным временем не является случайным процессом второго порядка. Так как преобразование Фурье от постоянной величины оз- начает распределение всей массы в начале (координат), или яв- ляется 6-функцией Дирака, то формально ковариационная функция белого шума имеет вид г (т) = 2лс6 (т). Следовательно, и белый шум с непрерывным временем обладает свойством некоррелированности х(£) и x(s) для £#=s, что явля- ется полной аналогией дискретного случая. Заметим, однако, что белый шум с непрерывным временем не имеет конечной дис- Персии. Если попытаться обойти эту трудность, построив слу- чайный процесс с конечной дисперсией так, что x(t) и бу- дут не коррелированы для /=#$, то такой процесс в некотором смысле не существует. Более подробно этот вопрос рассмотрен в гл. 3 (теорема 3.4). Так как белый шум имеет конечную дисперсию, можно попы- таться. получить другие процессы, которые имеют постоянную спектральную плотность, но конечную дисперсию. Это можно выполнить многими способами, например ограничением по ча- стоте белого шума, т. е. получением белого шума со спектраль- ной плотностью вида ф(со) = с, 0, | со f < Й, |®| >Й. Этот процесс имеет ковариационную функцию Q г (т) = J celax da = sin йт. —о (5.22) Выбирая й достаточно большим, можно получить произвольно малую корреляцию между двумя значениями процесса x(t) и x(s), разделенными заданным интервалом |/—s| >б. Однако заметим, что для заданного Й значения процесса в моменты t и s коррелированы всегда, когда t и s выбраны достаточно близко. Найдем предел ковариационной функции (5.22) при й-*оо. Для т#=0 значение этой функции стремится к нулю. Поскольку г(0)=2сй, то г(0) стремится к бесконечности. Для определе- ния поведения ковариационной функции при Й-^-оо более удобно рассмотреть интеграл от г: т t Йт Я(т)= Jr(s)ds = 2c ds = 2с f dx.
Случайные процессы 41 Находим lim R (т) = я-*00 о, ле, 2лс, т т т <0, = 0, >0, так как f de = л. J X 0 Таким образом, интеграл от ковариационной функции есть ступенчатая функция. Формально в пределе ковариационная функция становится б-функцией Дирака г (т) -> 2лсб (т). Помимо ограниченного в некоторой полосе шума, часто исполь- зуется случайный процесс с ковариационной функцией а2 со2 + а2 и спектральной плотностью ф(ю) В этом случае имеем lim <р (©) = 1, lim г (т) = 2л6 (т). d —> <50 Несмотря на трудности, естественно возникающие вследствие бесконечности дисперсии, понятие белого шума очень важно в теории случайных процессов и ее приложениях. Белый шум ча- сто используется для моделирования случайных процессов, име- ющих постоянную спектральную плотность в определенной поло- се частот в тех случаях, когда несущественно поведение спек- тральной плотности вне интересующего диапазона частот. Некоррелированность (и независимость для гауссова процес- са) значений белого шума в различные моменты времени — ос- новная причина его широкого применения. При использовании ограниченного по полосе шума мы все же получаем корреляцию между значениями процесса в соседних точках, что часто за- трудняет анализ. Использование белого шума в теории случай- ных процессов во многом аналогично использованию б-функции Дирака при анализе линейных систем.
42 Глава 2 Упражнения 1. Стационарный стохастический процесс имеет ковариаци- онную функцию г(т) = е-а|т|, г(т) = е-а2т; г (т) = А + В cos со0 т, г (т) — е~а1г> cos рт. Определить соответствующие спектральные функции распреде- ления и их разложения. 2. Найти спектральные плотности и ковариационные функ- ции для следующих стохастических процессов: x(t) = e(t) + ce(t — 1), x(t) — 1) — е (t — 1), x (t) -f- ax (t — 1) = e (t) + ce (t — 1), где t—...,—1, 0, 1,...}—последовательность независимых нормальных случайных величин с параметрами (0,1) и а<1. 3. Более точное описание броуновского движения дается сле- дующей моделью (уравнение Ланжевена): du , /j\ — + av = е (t), где v — скорость частицы и {е(/)} —ограниченный по полосе белый шум с ковариационной функцией (5.22). Определить ко- вариационную функцию скорости и показать, что ковариацион- ная функция сходится к г(т) = const -exp (—ат), если полоса шу- ма стремится к бесконечности. 6. АНАЛИЗ СТОХАСТИЧЕСКИХ ПРОЦЕССОВ Для анализа динамических систем, входными переменными которых являются стохастические процессы, необходимо разра- ботать методы их анализа. Необходимо рассмотреть такие понятия, как непрерывность, производная и интеграл стохасти- ческого процесса. В этом разделе даны основы анализа стохасти- ческих процессов, начиная с понятия сходимости случайных ве- личин. Оказывается, что теория в этом случае имеет больше возможностей, чем для действительных переменных, ибо имеет- ся более богатый выбор топологий. После понятий сходимости определены понятия непрерывно- сти, производной и интеграла для стохастических процессов.
Случайные процессы 43 Сходимость Рассмотрим последовательность случайных переменных {xn(to), п=1,2...}. Что понимать под пределом такой последо вательности? Здесь возможно определение предела нескольки- ми способами. Позже будет рассморено наиболее общее понятие предела. Определение 6.1. Последовательность {хп(со)} сходится с вероятностью 1 к стохастической переменной х(со), если хп(®)-> —-х(ы) для всех и, за исключением, возможно, множества зна- чений со, имеющего вероятностную меру 0. Математически это можно записать следующим образом: Р {со; х„ (©)^х(®)} = 1. (6.1) Определение 6.2. Последовательность {хп(®)} сходится к х((о) по вероятности, если для каждого е>0 limZMco; |х„ (со) — х(со)| е! = 0. (6.2) Определение 6.3. Последовательность {хп(со)} сходится к х((о) в среднеквадратическом, если lirn Е | хп — х |2 = lim J | хп (со) — х (со) |2 Р (dco) = 0. (6.3) П-+оо П-*<х> Данные определения понятия сходимости связаны между собой, о чем утверждает теорема 6.1. Теорема 6.1. Из сходимости с вероятностью 1 следует сходи- мость по вероятности. Из среднеквадратической сходимости следует сходимость по вероятности. Понятия сходимости Теперь определим такие понятия, как непрерывность, диф- ференцируемость и интегрируемость. Можно сказать, например, что процесс непрерывен в t с вероятностью 1, если x(t-\-h) схо- дится к х (t) с вероятностью 1, когда h стремится к 0. Посколь- ку мы рассмотрели три возможных определения сходимости, ес- тественно возникает вопрос: какое понятие сходимости наиболее приемлемо для применения в стохастической теории управле- ния? В приложениях было бы весьма желательно, например, ус- танавливать, что все выборочные функции непрерывны. Это оз- начает равномерную сходимость с вероятностью 1 по t. В разд. 2 отмечено, что для процессов с непрерывным време- нем множества {со; х (/,со) с для всех t£(a,b)}, {go; х(/,со), непрерывные для всех
44 Глава 2 не есть борелевские множества. Следовательно, таким множест- вам нельзя приписать вероятностную меру, используя конечно- мерные распределения. Заметим также, что непрерывность с вероятностью 1 не озна- чает, что все выборочные функции непрерывны. Рассмотрим, на- пример, случайный телеграфный сигнал — процесс, принимаю- щий только два значения -Н или —1. Вероятность его измене- ния на интервале [/, t-j-h] есть Mi+o(h). Выборочные функции этого процесса не являются непрерывными, так как вероятность непрерывности на интервале длины Т равна ехр (—ХГ) и стре- мится к нулю, когда Т стремится к бесконечности. Однако для фиксированного t=tQ этот процесс непрерывен, так как Р {со; х (tQ + й, со) — х со) =/= 0} = 1 — e~Kh и правая часть сходится к нулю, когда h стремится к нулю. Часто трудно установить критерии для сходимости с вероят- ностью 1. В дальнейшем мы будем пользоваться понятием сред- неквадратической сходимости, так как оно упрощает анализ. Ни- же показано, что для процессов второго порядка существуют простые критерии для непрерывности, дифференцируемости и интегрируемости в среднеквадратическом. Введя понятие преде- ла, можно перейти непосредственно к введению понятий непре- рывности, интеграла и производной, создавая таким образом ос- новы для анализа стохастических процессов. Однако следует подчеркнуть, что во многих приложениях предпочтительнее ис- пользовать равномерную сходимость по t с вероятностью 1. Свойства среднеквадратической сходимости Для исследования среднеквадратической сходимости исполь- зуем критерий Коши. Пусть {хп}—последовательность случай- ных переменных, таких, что хп—>х в среднеквадратическом. Имеем \xn~xm\2 = \xn — x — (xm — x)\2^\xn — x\2 + \xm — x\2 + + 21 хп — х 11 xm — XI < 21 хп — х I2 + 21 хт — X |2, так как 2|а||й| ^Za2-\-b2. Взяв математическое ожидание от обе- их частей неравенства, получим Е I хп — хт I2 < 2ЕI хп — х I2 + 2Е | хт — X |2. (6.4) Первый член этого неравенства сходится к нулю при п, т—>оо, так как хп-+х при п->оо. Обратно, можно показать, что если Е\хп— хт\2—И) при т->оо, то существует х, такое, что хп->х в среднеквадратиче- ском при п->оо. Это известная теорема Фишера — Рисса. Мы получаем также следующий важный результат.
Случайные процессы 45 Теорема 6.2. Пусть {хп} — последовательность случайных пе- ременных. Предположим, что Ех2<°° и что хп-+х в средне- квадратическом при п—>оо. Тогда lim Ехп = Е lim хП = Ех. (6.5) Доказательство. Имеем \Е(хп~ х)\^Е\хп — х\^УЕ12-Е\х„ — х|2, (6.6) где первое неравенство следует из условия J |f(x)|dx, а второе — неравенство Шварца (4.5). Так как хп-^х в среднеквадратическом, то правая часть неравенства (6.6) сходится к нулю, и таким образом получаем соотноше- ние (6.5). Непрерывность Понятие непрерывности стохастического процесса определя- ется следующим образом. Определение 6.4. Стохастический процесс {х(/), t еТ} второго порядка непрерывен в t в среднеквадратическом, если Пш£[х(/ + Л) —х(/)]2-0. h-*0 Анализируя ковариационную функцию случайного процесса, легко установить, непрерывен ли процесс в среднеквадратиче- ском. Для доказательства последующих теорем докажем лемму. Лемма. Пусть хп—^х и уп-+у в среднеквадратическом. Ех2 и Еу2— ограниченные величины. Тогда lim Exnym = Exy. П,ГП-+оо Доказательство. Имеем xnym~ ху = (хп — х) (ут — у) + хпу + хут— 2ху = = (хп — х) (ут — у-) + (хп — X) у + X (ут — у). Однако 1£(*п — х)(ут — у) |2<£(х„ — х)2Е(ут — г/)2-* 0 при n,m->oo, | Е (хп — х) у |2 < Е (х„ — х)2 Eif -* 0 при/г-* оо, ЕI (Ут — у) I2 < Ex2 Е (ут — у)2 ->0 при/П->ОО. Здесь первое неравенство и его сходимость к нулю следует из неравенства Шварца и сходимостей хп и уп. Следовательно, Е(хпут—ху)-+0 при n,m->oo, и лемма доказана.
46 Глава 2 Теорема 6.3. Стохастический процесс {x(Z), Z второго по- рядка непрерывен в среднеквадратическом в моменты t е Т тогда и только тогда, когда функция его среднего значения непрерывна в t и ковариационная функция непрерывна в (/, t). Доказательство. Имеем [х (/ + h) — х (Z)]2 = (t + ft) — m (t + Л) — х (/) 4- tn (Z)]2 + + 2[х(/ + й) — х(/)] [m(t ±h) — \m(t + h) — m(fW Возьмем математическое ожидание от обеих частей и найдем Е [х(/ + ft)— х (Z)]2 = = cov [х (t + h) — х (/), х (t + ft) — x (/)] + + [m(t + h)~ m(/)]2 = = r (t 4- ft, t + ft) — 2r (t + ft, t) + r (t, t) 4- + [m(t + ti) — m(/)]2. (6.6a) Если r(s, t) nm(t) — непрерывные функции, то limE{x(/ 4- h) — x(f)}2 = 0. h-+0 Таким образом, доказана необходимость заданных условий. До- кажем их достаточность. Из теоремы (4.1) (утверждение 3) сле- дует, что r (t Л, t -J- h) — 2г (t 1) r (ttt) 0. Таким образом, правая часть выражения (6.6а) есть сумма двух неотрицательных величин. Если левая часть равенства сходится к нулю, то каждый член правой части также сходится к нулю. Отсюда следует, что непрерывность процесса в среднеквадрати- ческом означает непрерывность его функции среднего значения. Для доказательства второй части достаточного условия — непре- рывности корреляционной функции — рассмотрим г (4, t2) = Е [х (tj) — m (4)] [х (4) — m (4)]. Так как хит — непрерывные функции, имеем х (4) — tn (4) -+х (s) — т (з) и х (4) — m (4) - > х (t) — т (4 в среднеквадратическом при ti—>з и t2-+t. Из леммы следует Е [х (4) — m (4)] [х (4) — m (4)] ->Е (х (/) — m (Z)] [х (s) — m (з)]. Итак, установлено, что непрерывность процесса в среднеквадра- тическом означает, чю его функция среднего значения и кова- риационная функция непрерывны.
Случайные процессы 47 Пример 1 В качестве примера^ исследуем непрерывность винеровского процесса. Для этого процесса E[x(t + h)~ х(/)]2 = Ah. Итак, по определению этот процесс непрерывен. Ковариацион- ная функция винеровского процесса составит r(s,t) = Л min ($,/). Так как она непрерывна, то из теоремы 6.3 также следует непре- рывность винеровского процесса. Можно также показать, что траектории винеровского процесса непрерывны с вероятностью 1. Дифференцируемость Перейдем к определению дифференцируемости и производ- ной. Определение 6.5. Стохастический процесс {*(/), teT} второго порядка дифференцируем в среднеквадратическом в точке to е Т9 если lim.x«.+*)-*W =у(/о) h-o h существует в смысле среднеквадратической сходимости, т. е. если limЕ р«,+А)-х(Ц х, = 0 ft-o I h J Если процесс дифференцируем для всех teT, то говорят, что это дифференцируемый стохастический процесс. Рассмотрим критерий дифференцируемости. Теорема 6.4. Стохастический процесс {%(/), teT} второго по- рядка дифференцируем в среднеквадратическом в точке t^eT тогда и только тогда, когда его функция среднего значения m(t) дифференцируема в точке to и в точке s = t = tQ существует сме- шанная производная второго порядка от ковариационной функции д2г (s,t) dsdt Доказательство. Докажем сначала необходимость заданных условий. Смешанная производная второго порядка определяется как предел выражения г ($ -{- ft, / -{- #) — /•($,/-{-#) — г (s + /г, г (s,/) hk при /г, А->0.
48 Глава 2 Чтобы доказать существование предела, сформируем после- довательность Коши ~ х (/0 + Я) — х (;0) X{tQ + k)—x (/0) у _ h k = x(tQ + h)—x (/р) . х (/0 + ft) — х (/р) h h _ 2 х (/0 + ft) — х (/0) X (Zp + A?) — x (/p) h ‘ k Ф x (/0 + ft) — x (Zo) x (/0 + A?) — x (/0) k ’ k Возьмем математическое ожидание от обеих частей равенства. Получим г х (/0-j-ft) — х (/0) х (/0 + ft) — х (/0) _ h k _^Jx(zo + ft)~x(W х (/0ft) — х(/р) 1 , L ft ft j . m{tQ+h) — m (/p) « m (/p + ft) — m (/0) _ h k = r (^o+ft>zo+ ft) — r (/0 +ft,/0) — r (Wo+ft) + r (/q,/q) . h-k ~Г । ffl (/0 + ft) m (/p) m (/0 + ft) — m (/0) ? Согласно принятым допущениям, среднее значение функции дифференцируемо и существует смешанная вторая производная функции r(s, t). Следовательно, lim£ х (/0 + ft) — х (/0) h,k-+O h + т’ f/0). x (/о + fe) — x (t0) _ d2r (s,t) l k dsdt I s=z=z<, Таким образом, правая часть выражения (6.7) конечна. Вычис- лив все три члена, найдем, что ' х (Zo + Л) — х (z0) h x(Z0+fe)~x(Z0) 12 Q k J при h, й->0. Итак, доказана необходимость условий. Для дока- зательства достаточности положим h = k и отметим, что правая часть выражения (6.7) есть сумма двух неотрицательных членов. Если левая часть сходится к нулю, каждый член правой части будет также сходиться к нулю. Следовательно, мы имеем про- стой критерий для дифференцируемости. Приведем некоторые
Случайные процессы 49 результаты, которые могут оказаться полезными при проведе- нии формальных процедур над случайными процессами. Пусть случайный процесс {%(/), teT} дифференцируем на teT. Тогда из теоремы 6.2 и леммы следует, что £[^-z(Z)] = A£x(Z) =^L1 (6,8) L at J at at COV X (s), — X(/)l — . — COV [% (s), X (/)] — д r , (6.9) L ds ' dt V 'J ds dt L v V 7J dsdt v ’ COV [— X (s), x(/)l = — cov [x (s), X (/)] = — - , (6.10) L ds J ds ds Для стационарных в широком смысле процессов, для кото- рых r(s, t) — г (s — /), имеем dsdt ds dt v v Итак, доказано, что стационарный процесс дифференцируем в среднеквадратическом, если его ковариационная функция дважды дифференцируема в начале координат. Более того, из соотношения (6.9) следует, что продифференцированный про- цесс является стационарным в широком смысле с ковариацион- ной функцией —г"(т). Пример 2 Исследуем дифференцирумость винеровского процесса. Сна- чала используем непосредственно определение производной h->o h Если {*(/), t е Т} —винеровский процесс, то Е[х (t+h) — x(t)]* = h и £ |2 = h~\ (6.11) Очевидно, при /i—>-0 выражение (6.11) расходится, т. е. вине- ровский процесс недифференцируем. .. Получим теперь тот же результат, используя теорему 6.4. Ви- неровский процесс имеет ковариационную функцию г (s,t) = min(s,/). 4—403
50 Глава 2 Найдем dr (sj) 11, S <Z t, ds |0, S>t. Следовательно, смешанная вторая производная не существу- ет. Согласно теореме 6.4, винеровский процесс недифференциру- ем. Однако формально можно вычислить dsdt v 7 где 6(г) есть 6-функция Дирака. Таким образом, формально’ найдено, что производная винеровского процесса есть белый шум. Винеровский процесс был введен как математическая модель броуновского движения частицы, и поэтому может казаться странным, что винеровский процесс не имеет производной. Это означает, согласно физической интерпретации, что невозможно- найти скорость броуновской частицы. Чтобы обойти эту труд- ность, рассмотрим процедуру получения данной модели. Урав- нение движения частицы, погруженной в жидкость, имеет вид d2x . т-ч dx т------h D----= F, dt2 dt где т — масса частицы, D — коэффициент вязкого трения и F — результирующая сил, действующих на частицу. Эйнштейн счи- тал, что т = 0, т. е. он пренебрегал весом частицы по сравнению с силами вязкости. Тогда уравнение движения принимало вид D — = F. dt ( При постоянной силе пренебрежение массой означает, что ча- стица приобретает постоянную скорость мгновенно. Обращаясь к идеализированной теории удара, можно вычислить только из- менение импульса вследствие толчка и нельзя проанализировать детально изменение скорости во время удара. Если предполо- жить теперь, что интервал времени между ударами бесконечно* мал, то окажется естественной невозможность определения ско- рости частицы. Интегрируемость Введем теперь интегралы стохастических процессов. Пусть {x(Z), te Т}—стохастический процесс второго порядка. Рас- смотрим интервал [а, Ь] еТ. Пусть a=tQ<Zti<Z.. .<tn = b — разбиение [а, 6]. Рассмотрим сумму
Случайные процессы 51 4 — |А ^-1]» (6.12) где tk-\^Tk^tk. Говорят, что процесс {%(/), t еТ} интегрируем по Риману, если 1п сходится к пределу в среднеквадратическом при п-^оо таким образом, что 1/г п Этот предел называется среднеквадратическим интегралом от х по [я, 6] и обозначается ь I=\x(t)dt. (6.13) а Теорема 6.5. Пусть {*(/), t еТ}— случайный процесс второго порядка со средним значением m(t) и ковариационной функци- ей r(s, t). Этот процесс интегрируем по Риману, если существу- ют следующие интегралы: ь У m (0 dt, а b l\r(s,f)dsdi. а В этом случае имеем ь ь ь E$x(f)dt = Ex (Z) dt = .1 m (t) di, (6.14) a a a b b E f J x (t) x (s) dsdt — И {Ex (/) x (s)} ds dt — a a b b = [J m (0 dt]2 + УУr (s,t) dsdt. (6.15) a a В разд. 5 гл. 3 приведен другой вид интеграла. Упражнения 1. Являются ли стационарные случайные процессы с ковариа- ционными функциями г(т) = е-а|т', [2, т = 0, 'W-U-|T|, т=/=0, непрерывными в среднеквадратическом?
52 Глава 2 2. Дифференцируемы ли в среднеквадратическом стационар- ные случайные процессы со следующими ковариационными функциями: Г(т) = е-а|т|, z ч sin ат ~ г СО = ---- ?| т 3. Рассмотреть случайный телеграфный сигнал. Дифферен- цируемы ли его выборочные функции с вероятностью 1? Диффе- ренцируем ли телеграфный сигнал с вероятностью 1 или в сред- неквадратическом? 4. Показать, что нормальный стационарный процесс с кова- риационной функцией г(т) = (1 + |т|)е-,т| дифференцируем в среднеквадратическом, и доказать, что х и dx/dt независимы. 5. Пусть {x(Z), t^G} —винеровский процесс с единичной дис- персией. Показать, что этот процесс интегрируем в среднеквад- ратическом. Найти ковариационную функцию процесса z(t), яв- ляющегося интегралом от x(s), т. е. t z (/) = J х (s) ds. о (Ответ: Ez (s) z (/) = - -3- \ 6 6. Рассмотреть случайный процесс {x (t), —oo</<oo}, вы- борочные функции которого принимают только значение +1 или — 1. Вероятность изменения х в интервале (t, есть Ответить на следующие вопросы: Непрерывны ли выборочные функции? Непрерывен ли процесс в среднеквадратическом? Непрерывен ли процесс с вероятностью 1? Дифференцируем ли процесс в среднеквадратическом? Интегрируемы ли выборочные функции? Указание. Вероятность изменения выборочной функции п раз на интервале (0, t) есть рп= ((M)n/nV) ехр (—V). 7. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА Имеется несколько хороших книг по стохастическим процес- сам. Введением в теорию стохастических процессов может слу- жить работа [1].
Случайные процессы 53 На элементарном уровне теория случайных процессов изло- жена в работах [2—4]. В работах [5—7] изложение основ тео- рии случайных процессов дано на значительно более высоком уровне; кроме того, работа [6] является хорошим справочни- ком, в котором подчеркиваются особенно теоретико-вероятност- ные аспекты. Легко читается оригинальная работа по теореме Колмогорова [8]. В работе [9] описан способ преодоления трудностей, обсуж- даемых в гл. 2, и введено понятие непрерывности выборочных функций с вероятностью 1. Известно также много работ, в которых обсуждаются стоха- стические процессы различных видов, например работы [10—13]. 1. Karlin S., A First Course in Stochastic Processes, Academic Press, 1966. Русский перевод: Карлин С., Основы теории случайных процессов, изд-во «Мир», 1971. 2. Сох D. R., Miller Н. D., The Theory of Stochastic Processes, Methuen, Lon- don, 1965. 3. Parzen E., Stochastic Processes, Holden-Day, San Fransisco, 1962. 4. Prabhu N. U., Stochastic Processes — Basic Theory and Its Applications» MacMillan, New York, 1965. 5. Гихман И. И., Скороход А. В., Введение в теорию случайных процессов,, изд-во «Наука», 1965. 6. Doob J. L., Stochastic Processes, Wiley, New York, 1953. Русский перевод: Дуб Дж. Л., Вероятностные процессы, ИЛ. 1956. 7. Loeve М., Probability Theory, Van Nostrand, Princeton, New Jersey, 1963. Русский перевод: Лоэв M., Теория вероятностей, ИЛ, 1962. 8. Колмогоров А. Н., Основные понятия теории вероятностей, ОНТИ, 1936. 9. Cramer Н., Leadbetter М. R., Stationary and Related Stochastic Processes, Wiley, New York, 1967. Русский перевод: Г. Крамер, М. Линдбеттер, Ста- ционарные случайные процессы, ИЛ, 1962. 10. Ягло^ А. М., Введение в теорию стационарных случайных функций, УМН, 7, № 5 (1955). 11. Bharucha-Reid А. Т., Elements of the Theory of Markov Processes and Their Applications, McGraw-Hill, New York, 1960. 12. Ito K., McKean H. P., Diffusion Processes and Their Sample Paths, Sprin- ger-Verlag, Berlin, 1965. Русский перевод: Ито К., Маккин Г., Диффузион- ные процессы и их траектории, изд-во «Мир», 1968. 13. Levy Р., Processus Stochastiques et Mouvement Brownian, Gautier-Villars» Paris, 1948. Русский перевод: Леви П., Стохастические процессы и броу- новское движение, изд-во «Мир», 1972.
Глава 3 СТОХАСТИЧЕСКИЕ МОДЕЛИ СОСТОЯНИЯ 1. ВВЕДЕНИЕ Модели состояния, т. е. системы разностных или дифферен- циальных уравнений первого порядка, используются для анали- за детерминированных объектов. В данной главе обсуждается вопрос о том, как понятие состояния можно перенести на стоха- стические системы. Это приводит к введению стохастических разностных и стохастических дифференциальных уравнений. Процессы, определяемые такими уравнениями, являются мар- ковскими процессами. Случай систем с дискретным временем (разд. 2 и 3) являет- ся наиболее простым, так как можно получить стохастическую модель состояния добавлением помехи к правому члену обыкно- венного дифференциального уравнения. В данном случае помехи можно представить последовательностью независимых случай- ных величин. Случай систем с непрерывным временем (разд. 4) более сло- жен. Сначала обсуждается эвристический подход. Прямая по- пытка обобщить результаты, полученные для системы с дискрет- ным временем добавлением помехи к правому члену обыкновен- ного дифференциального уравнения, не приводит к успеху. Дело в том, что непрерывный случайный процесс, такой, что x(t) и -x(s) независимы при равен нулю в среднеквадратическом. Поэтому добавление помехи такого типа к обыкновенному диффе- ренциальному уравнению не дает эффекта. Для преодоления этих трудностей естественно ввести понятие стохастического дифференциального уравнения. В разд. 5—8 разработаны мето- ды, необходимые для решения стохастических дифференциаль- ных уравнений. Дано точное определение таких уравнений и по- казано, как их интерпретировать и использовать. Моделирова- ние физических процессов с помощью стохастических моделей •состояния описано в разд. 9. В разд. 10 рассмотрена аппрокси- мация стохастического дифференциального уравнения разност- ным уравнением. 2. СИСТЕМЫ С ДИСКРЕТНЫМ ВРЕМЕНЕМ В основе понятия состояния лежат причинно-следственные отношения классической механики. Например, движение систе- мы частиц однозначно определяется действующими силами,
Стохастические модели состояния 55 а также координатами и моментами всех частиц. Для движения системы в будущем несущественно, каким образом было достиг- нуто начальное положение. Интуитивно состояние можно пред- ставить как минимальное количество информации о предысто- рии системы, которое необходимо для предсказания движения системы в будущем. Для детерминированной системы свободное движение в будущем однозначно определяется значением ее со- стояния в настоящем. Естественно, нельзя требовать, чтобы движение стохастиче- ской системы в будущем определялось однозначно ее состояни- ем х'в настоящем. Для обобщения понятия состояния на стохас- тические системы потребуем, чтобы вероятностные распределе- ния переменной состояния х в будущем определялись бы одно- значно значением ее состояния в настоящем. Потребуем также; чтобы система описывалась марковским процессом (разд. 3 гл. 2). Рассмотрим пока только системы с дискретным временем. В этом случае множество индексов Т будет представлять собой множество целых чисел {...,— 1,0, 1, ...}. Детерминированная л-мерная система с дискретным временем описывается разност- ным уравнением x(/+l) = g(x(O, t£T, (2.1) где х есть n-мерный вектор состояния, a t — время. Таким обра- зом, движение системы в будущем однозначно определяется значением х в момент времени t и не зависит от предыстории x(t). Теперь выясним, каким образом модель (2.1) может быть представлена как стохастическая модель состояния. Для этого предположим, что х(/+1) не определяется однозначно х(/), как в уравнении (2.1), а что х(/+1) —случайная величина, которая зависит отх(0 и t. Тогда можем написать х(* + 1) = g(x(f}U)-r v(x(t), t), t£T, (2.2) где g— условное среднее от x(Z-4-l) при заданном x(t), a v — случайная величина с нулевым средним. Если уравнение (2.2) представляет собой стохастическую* модель состояния, необходимо потребовать, чтобы условное ве- роятностное распределение х(/+1) при заданном x(t) не зави- село от прошлых значений х. Отсюда следует, что условное рас- пределение v(t) при заданном x(t) также не должно зависеть от x(s) для Модель (2.2), обладающая этим свойством, на- / зывается стохастическим разностным уравнением. Процесс {%(/), te Т}, определяемый выражением (2.2), также является марковским.
•56 Глава 3 Если дополнительно предположить, что условное распреде- ление v(t) при заданном x(t) нормально, то случайная величи- на v всегда может быть нормирована таким образом, что и(^)/о(х, t) распределено нормально с параметрами ’-('О, 1), где <у2(х, t) —дисперсия x(t). Таким образом, получим v =-• v(x, t) = о(х, /)е(/), (2.3) где е(^) и х — стохастически независимы. Следовательно, {е(/), teT} можно рассматривать как последовательность не- зависимых одинаково распределенных случайных величин с па- раметрами (0, 1). Уравнение (2.2) можно представить в виде X (t + 1) - g (х (t),t) + о (х (/),0 е (/), t С Т. (2.4) Если предположить еще, что g линейно зависит от х и что о не зависит от х, получим линейное стохастическое разностное уравнение х(/+ 1) = Ф(/+ 1;/)х(0 + Г(0^(0, t£T. (2.5) Заметим, что нетрудно повторить аналогичные выкладки для случая, когда х есть n-мерный вектор. Тогда получим уравнение (2.5), где х—n-мерный вектор, а {е(/), t еТ}—последователь- ность независимых одинаково распределенных гауссовых слу- чайных векторов с нулевыми средними значениями и ковариаци- онной матрицей /?0. Уравнение (2.5) можно также записать следующим образом: х (/ + 1) = Ф (/ + 1; 0 х (/) + v (0, (2.6) где teT}—последовательность независимых гауссовых векторов с нулевыми средними значениями и ковариационными матрицами /?1 = Г(/)/?0Гт(/). Если уравнение (2.6) является ли- нейной моделью состояния, то необходимо потребовать, чтобы вектор {v(t), teT} не зависел от начального состояния. В одномерном случае уравнение (2.6) можно записать как разностное уравнение порядка п: МО + МО*!# — ОН----------— = — c1(t)e (t — 1) + — 2) + — п). (2.7) Таким образом, для систем с дискретным временем стохасти- ческую модель состояния можно представить стохастическим разностным уравнением. В линейном случае уравнение (2.6) приводит к линейному разностному уравнению, в котором вы- нуждающей функцией является белый шум с дискретным вре- менем. Уравнение (2.7) представляет большой интерес, так как из него легко получить процесс авторегрессии Xi (/) + а1х1 (t — 1) Н-\-anxr (t — n) = e (/)
Стохастические модели состояния 57 и процесс скользящего среднего хг (t) = схе (t — 1) + с2е (t — 2) 4-F спе (t — ri), рассмотренные в разд. 2 гл. 2. 3. РЕШЕНИЕ СТОХАСТИЧЕСКИХ РАЗНОСТНЫХ УРАВНЕНИЙ Обыкновенное разностное уравнение решено, если известны значения х для всех t. Так как обыкновенное разностное уравне- ние-рекуррентно определяет каждое x(t) через предыдущие зна- чения, то разностное уравнение можно рассматривать как алго- ритм для получения решения. Аналогично будем считать, что разностное стохастическое уравнение решено, если известно сов- местное вероятностное распределение значений состояний в про- извольные моменты времени. Рассмотрим, например, разностное вероятностное распреде- ление (2.2) и определим совместное распределение x(t0) и х(/о+ 4-1). Так как х(/0Ч-1) задано как функция x(t0) и у(х(/о), t)9 то» можно найти условное распределение х(/о4-1) при заданном x(tQ), используя обычные правила вычисления функции распре- деления случайной переменной. Если распределение x(t0) изве- стно, то совместное распределение x(tQ) и x(Z04-^) можно полу- чить по правилу Байеса. Допустим, что существуют плотности вероятности. Совместная плотность распределения последова- тельных значений переменных состояния может быть записана в виде f(x(t),x(t — 1х (/0)) = f(x(t)\x(t~ 1)) X X f (х(/ — 1) I х (t — 2)) • • -f (х (t0 + 1) I x О f (x где f (x(^+l) |x(0) —условная плотность x(/+l) при заданном x(Z) (вероятность перехода), f(x(/0))—плотность распределе- ния начального состояния x(tQ). Из этого выражения видно, что решением стохастического разностного уравнения является мар- ковский процесс. В общем случае выполнение приведенных вы- числений далеко не тривиально. Ограничимся рассмотрением ли- нейных нормальных систем, так как в этом случае можно легко выполнить все вычисления аналитически. Линейные уравнения Рассмотрим линейное нормальное стохастическое разностное уравнение х(/4- 1) = Ф(/+ 1; t) х (t) 4- е(/), (3.1} где х—ц-мерный вектор состояния, {е(/), teT}— последователь- ность n-мерных нормальных независимых случайных векторов,
58 Глава 3 Ф—^Х^-матрица с изменяющимися во времени элементами. Векторы e(t) и e(s), следовательно, независимы, если t=£s. Векторы e(t) и x(t) также независимы. Нормальное распределение определяется моментами первого и второго порядка £е(/) = "О’ О П1(0 r12(t)---rln(t) Ее (/)/(/) = = Rdt). (3.2) О _rt п (О г2п(О ' ' ’гпп(£)_ Начальное состояние x(tQ) также предполагается нормальным с математическим ожиданием т0 и ковариационной матри- цей Ro. Стохастический процесс {%(/), ^0 является нормальным, так как значения х в каждый момент времени являются линей- ными комбинациями нормальных переменных. Таким образом, ^стохастический процесс можно полностью охарактеризовать ма- тематическим ожиданием и ковариационной функцией, опреде- ление которых дано ниже. Среднее значение Для определения среднего значения функции возьмем мате- матическое ожидание от обеих частей уравнения (3.1) и по- лучим m(t+ i) = Ex(t + 1) = £[Ф(/+ 1;/)х(0 + *(/)] = = Ф(/ + 1;0^, (3.3) m(/0) = Ex(t0) =mQ. (3.4) Таким образом, среднее значение функции задается линейным разностным уравнением (3.3) с начальным условием (3.4). Ковариационная функция Чтобы найти ковариационную функцию, предположим, что т0 равно нулю. Это предположение не ограничивает общности, так как всегда можно ввести переменные z(/)==x(Z)—m(Z). Допустим, что s^t. Тогда X (s) = Ф ($; /) X (/) + Ф (s; t 4- 1) е (0 4-h 4-Ф($;$— l)e(s— l)4-e(s— 1), где Ф($;/) = Ф (s; s — 1) Ф(s — 1; s — 2),..., Ф (/ 4~ 1; /). (3.5)
Стохастические модели состояния 59* Следовательно, Ex (s) хт (t) = E{ [Ф (s; /) х (/) + Ф (s, t + 1) е (t) + Так как среднее значение e(s) равно нулю и x(t) не зависит от е($) при s^st, то все члены правой части, за исключением первого, равны нулю. Тогда = = s>t, (з.б> Теперь определим ковариацию х: Р (/) = cov [х (0, х (/)] = Ex (t) хт (/), откуда x(t+ 1)хг(/+ 1)= [Ф(/+ !;/)%(/)+е(/)| [ф(/ + + 1; t)x(t) + e(t)\T = = Ф(/+ 1;/)х(0хг(/)ФГ(/+ 1;/) + Ф(/ + 1; ОХ X х (/) ет (0 + е (/) хт (/) Фг (/ + 1; t) + е (t) ет (t). Взяв математическое ожидание и учитывая, что x(t) и е(/)‘ независимы, получим следующее разностное уравнение для ?(/): Р(/+1) = Ф(г+1;0Р(0Фг(* + 1;0 + #1(0 (3.7> с начальным условием P(t0) = Ex(t0)xT (t0)=P0. (3.8) Дадим физическую интерпретацию уравнения (3.7). Первый член правой части представляет преобразование дисперсии Р(1) состояния в момент t при движении системы. Второй член /?1 представляет увеличение дисперсии, вызванное помехой e(t). Сформулируем теорему 3.1, которая является итогом прове- денных выше обсуждений. Теорема 3.1. Решением нормального линейного стохастиче- ского разностного уравнения является нормальный процесс со средним значением т(/+1) = Ф(/+1;/)т(/), (3.3) начальным условием Щ (/0) = т0 (3.4) и ковариационной функцией /?($,/) = Ф(5;0/Р(/), (3.6)
’60 Глава 3 где P(t) удовлетворяет условию P(t + 1) = Ф(/+ 1;/)Р(/)ФГ(/ + l;0 + ₽i (3-7) с начальным условием = (3.8) Если матрицы Ф и постоянны, то из условий (3.7) и (3.8) следует, что t—1 Р (/) = ф% (фгу + £ ф’я, (фг)’. (3.9) s-0 Если все собственные значения матрицы Ф строго меньше единицы, то ряд в выражении (3.9) сходится и существует предел P^limPtf). (ЗЛО) /~*оо Перейдя к пределу в уравнении (3.7), найдем, что Р^ удовлет- воряет следующему уравнению: Р„ = ФР.^ФТ + рг. Таким образом, для линейных стохастических разностных урав- нений условные распределения будущих состояний при задан- ном x(t) нормальны. Средние значения и ковариации распреде- ления легко вычисляют при помощи рекуррентных уравнений. Упражнения 1. Динамическая система описывается разностным урав- нением X(/ + 1)=( c?st sinSV(O. ' 7 sinh cosh/ где h = nl^m. Начальное состояние х(0) нормально со средним значением Ех (0) = ( 1 ) \0/ и ковариационной функцией cov [x(0),x(0)]= ’Определить наименьшее значение I*, такое, что компоненты лд и х2 независимы при £=#/*. Найти распределение х(£*). 2. Управление динамической системой осуществляется сто- хастическим разностным уравнением 1 1
Стохастические модели состояния 61 x(/+i) = f 1,5 1 ;*(/) + (1,0'Ь (О, v 0,7 0/ <0,5/ где {е(/), —последовательность независимых нормальных случайных величин с параметрами (0, 1). Найти ковариацию распределения для устойчивого состояния. 3. Случайный процесс определяется разностным стохасти- ческим уравнением х (t + 1) = ах (/) + е (/), | а | < 1, где {е(/), teT}—последовательность независимых нормальных случайных величин с параметрами (0, о). Начальное состояние x(t0) нормально с параметрами (0, о0), а переменные {е(0, независимы от x(tQ). Найти дисперсию x(Z) и предел дисперсии при t-^oo или при /0->оо. Показать, что если о0 выбрана так, что a2 = lim P(t) и если множество Т={/0, /1+1,.-}, то процесс {x(t), teT} стационарен. Найти ковариационную функцию и спектральную плотность для данного стационарного процесса. 4. Рассмотреть стационарный случайный процесс, который удовлетворяет стохастическому разностному уравнению x(t + 1) = Фх(/) + е(0, где {е(0, t еТ} —последовательность независимых одинаково распределенных векторов с нулевыми средними значениями и ковариационной матрицей Пусть характеристический много- член для Ф имеет вид det [V — Ф] = V + . •. +а„. Показать, что ковариационная функция r(t) произвольной линейной комбинации компонент состояния удовлетворяет соот- ношению г (/) + arr (t — 1)4-\~anr (t — п) = 0, t>n. 4. СИСТЕМЫ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ В этом разделе мы рассмотрим системы с непрерывным вре- менем. Так же, как и для систем с дискретным временем, попы- таемся построить модель состояния прибавлением случайной помехи к обыкновенному дифференциальному уравнению. По- следовательное проведение этой аналогии встречает ряд труд- ностей. Для их преодоления мы введем (пока только эвристиче- ски) понятие стохастического дифференциального уравнения. Точное определение этих уравнений и их решение даны в по- следующих разделах данной главы.
62 Глава 3 Неудачная модель По аналогии с системами с дискретным временем (разд. 2) мы начнем с детерминированной модели состояния, описывае- мой обыкновенным дифференциальным уравнением (4.1) at которое означает, что скорость изменения состояния однознач- но определяется его текущим значением. Для получения стоха- стической модели состояния мы предположим, что вероятност- ное распределение случайной величины dxfdt однозначно опре- деляется временем и текущим значением вектора состояния. Следовательно, -%- = f(x,t) + v(x,i), (4.2) at где {v(x, /), teT}—случайный процесс с нулевым математиче- ским ожиданием. Последнее условие не ограничивает общности рассуждений и всегда может быть выполнено за счет выбора функции f. Теперь остается определить соответствующие свойст- ва случайного процесса {v(x, /'), teT}. Чтобы уравнение (4.2) было моделью состояния, необходимо потребовать независимо- сти v(x, t) и v{y, $)для любого х и у при /=/=$, в противном слу- чае вероятностное распределение dxldt будет зависеть не толь- ко от текущего состояния, но и от его предыстории. Чтобы урав- нение (4.2) имело смысл, необходимо наложить условие регу- лярности. Если пользоваться среднеквадратической нормой, то естественно потребовать, чтобы случайная величина dx/dt обла- дала конечной дисперсией, т. е. чтобы случайная величина v имела конечную дисперсию. Необходимо также наложить некото- рые условия непрерывности, например чтобы v была непрерыв- на в среднеквадратическом. Проанализируем структуру случай- ного процесса, обладающего этими свойствами. Теорема 4.1. Пусть {v(t), teT}—непрерывный случайный процесс с конечной дисперсией, обладающий следующими свой- ствами: 1. v(t) и y(s) независимы при t=£s. 2. v(t) непрерывен в среднеквадратическом для всех / еТ и имеет конечную дисперсию. 3. £у(/)=0. Тогда Ev2(t)—0. Доказательство. Так как процесс {у (/), t еТ} непрерывен, то для него можно определить интеграл в среднеквадратиче- ском t u(t) = j* v (s)ds. (4.3) б
Стохастические модели состояния 63 (s) ds = 0. Еи (t) =Е j •Отсюда следует, что t t * v (s) ds = J Ev о о Второе равенство вытекает из теоремы 6.2 гл. 2. Далее имеем Ей? (t) = £( j v (s) ds)2 = E (limX v(^) — ^))]2 = 0 = Elim £$>(<,)»((,) (li+l- ;,) (</+,-<,)= * / = lim S S Ev v (/.) (Z.+1 - /.) (t/+1 - = i j =limSEv2«.)(Zw-^, i где (O=^o, t\ tN=i)—разбиение интервала (0, t). Последнее равенство следует из свойства 1. Так как {и(/)} имеет ограни* ченную дисперсию, то Ev2^c. Пусть теперь max (^+i—стре- мится к нулю таким образом, что шах (^-н—ti) ^a/N. Тогда Ей' (1) = lim ((,) (f,+1 - у’СП™ с (у= °’ откуда Eu2(t) =0. Из уравнения (4.3) вытекает, что средний квадрат производной существует, поэтому Е& ~-= е( — \ = Е lim lim ц (^ + А> ~ “..<0 u V +.^_~ u W = \ dt ) /i->o h k = lim lim — E [u (t + h) — и (/)] [и (t + k) — и (/)] = 0, Л-0 /г-O hk где последнее равенство следует из неравенства Шварца | Ей (t) и (s) |2 Ей2 (s) Ей2 (/) = 0. -Сравним этот результат с формулой (4.5) гл. 2. Получим, что v(t) равно нулю в среднеквадратическом, и теорема доказана. Обсудим следствия этой теоремы, относящиеся к рассматри- ваемой модели (4.2). Так как процесс {v(x, t), teT} равен нулю в среднеквадратическом, то его можно не учитывать при реше- нии уравнения (4.2). Проинтегрировав предложенную стохасти- ческую модель состояния и сравнив ее с детерминированной моделью (4.1), найдем, что решения совпадают в среднеквадра- тическом. Таким образом, попытка построить стохастическую модель состояния с желаемыми свойствами оказалась не- удачной. Для получения корректной стохастической модели состояния системы с непрерывным временем необходимо изменить требо-
64 Глава 3 вания, предъявляемые к процессу {v(t)> teT}. Кроме предполо- жения о нулевом среднем, которое несущественно, остаются два условия: 1. u(s) и v(t) независимы 2. v имеет конечную дисперсию. Тогда, чтобы получить модель состояния, условие 2 необходимо ослабить. Это естественно приводит к вопросу о справедливости уравнения (4.2), так как, если v не имеет конечной дисперсии, то и dxfdt не имеет конечной дисперсии. Следовательно, при по- строении стохастической модели состояния мы не можем ожи- дать существования процесса dxfdt. Продолжение анализа Таким образом, первая попытка построить стохастическую модель состояния для систем с непрерывным временем не уда- лась. Предпримем следующую попытку. Сначала заметим, что обыкновенное дифференциальное уравнение можно получить с помощью предельного перехода. Начав с разностного урав- нения х (t 4- fi) — х(t) = f(x,t)h + o(fi)9 (4.4) получим выражение (4.1), разделив на h и перейдя к пределу при й->оо. Так как соотношение (4.4) является разностным уравнением, то можно легко получить стохастическое разност- ное уравнение, добавив помеху к правой части. Пусть {v(t)9 teT}—случайный процесс с независимыми приращениями. Рас- смотрим модель х(t + h) — x(t) = f(x9t)h + v (x, t) — v(t) + о(Л). (4.5) Так как {u(t)9 teT}—процесс с независимыми приращениями, то модель (4.5) является, очевидно, моделью состояния для всех h. По аналогии с предыдущим предположим, что условное рас- пределение v(t-\-h)—v(t) при заданном х(/) нормально, по- этому v (t + fi) — v (t) = о (х, t) [w(t + ft) — w (/)], (4.6) где {t<y(/), teT}—винеровский процесс с единичной дисперсией. Таким образом, получим следующую стохастическую модель состояния: х (t + h) — х (t) = f (x, t) h + a (x, /) О (t + h) — w (/)] + о (h). (4.7) Имеем E [x (/ + h) — x (/)] = f (x, t) h + о (Л), (4.8) var [x (/ + ft) — x (/)] — o2 (x, t) E[w(t~\-h) — w (Z)]2 + 4- о (fi) = he2 (x, t) + о (h). (4.9)
Стохастические модели состояния 65 Заметим, что дисперсия приращения пропорциональна Л, а не И2. Таким образом, мы не можем разделить уравнение (4.7) на /г, допустив, что /г->0, так как производная винеровского про- цесса не существует (см. также разд. 6 гл. 2). Однако мы мо- жем формально допустить, что h стремится к нулю в уравнении (4.7), и тогда получим следующее выражение: dx = f (х9 t)dt + а (х, t) dw9 (4.10) которое называется стохастическим дифференциальным уравне- нием. Модель (4.7) означает, что приращение переменной состо- яния представляет собой сумму двух членов. Первый член — детерминированный и равен произведению функции состояния на временное приращение. Второй член — стохастический и равен произведению функции состояния на приращение винеров- ского процесса. Стохастическое дифференциальное уравнение называется линейным, если функция f линейна по х и если о не зависит от х. Это уравнение можно легко написать в векторной форме dx = Axdt + dv, (4.11) где х—n-мерный вектор, {у(0, —n-мерный винеровский процесс с ковариацией приращений R^dt. Элементы матриц А и /?1 могут быть непрерывными функциями времени. Заметим, что в уравнении (4.10) Е (dw)=dt. Это означает, что dw имеет раз- мерность dt в среднеквадратической метрике, поэтому сле- дует соблюдать осторожность при формальных преобразованиях выражений, включающих dw. Отметим также, что если принять понятие белого шума с непрерывным временем, то уравнение (4.10) можно представить в следующем виде: -%- + (4.12) at где {е(0> t —белый шум с непрерывным временем. При сравнении уравнения(4.12). с тем, что говорилось в на- чале этого раздела, обнаруживаем, что если мы хотим полу- чить нетривиальную стохастическую модель состояния добавле- нием помехи к правой части обыкновенного дифференциального уравнения, то помеха не должна иметь конечную дисперсию и должна быть подобна белому шуму. Используя понятие стохастического дифференциального уравнения, можно придать точный смысл дифференциальному уравнению, в которое входит белый шум. Следует отметить, что формальные преобразования уравнения (4.12) могут легко при- вести к неправильным результатам. 5—403
66 Глава 3 Прежде чем приступать к изложению следующего материа- ла, рассмотрим кратко использование стохастического диффе- ренциального уравнения как модели физических процессов. Про- изводная dxldt в уравнении (4.10) не существует в обычном смысле, поэтому использование уравнения (4.10) как модели физического процесса выглядит странным. Однако имеется мно- го практических задач как в управлении, так и в теории связи, где предпочтительно не иметь дела с производными некоторых сигналов. Поэтому моделирование таких сигналов стохастиче- скими дифференциальными уравнениями допустимо. Обратные разности Необходимо соблюдать осторожность при интерпретации стохастического дифференциального уравнения (4.10) как пре- дела в среднеквадратическом разностного уравнения. Выше уравнение (4.10) рассмотрено как предел выражения х (t + h) — x(t) = f(x (t), t)h + c(x (/), t) [w (t + h) — w (/)] + о (h). (4.13) Однако мы получим совсем другие результаты, если рассматри- вать уравнение (4.10) как предел выражения х (/) — х (/ — h) — f (х (t), t)h + <j(x (/), t) [ay (t) — — wit — ft)]+o(ft) (4.14) (даже, если f и о непрерывны). Для доказательства вычислим первые два момента приращения процесса (4.14) в случае, когда функция f непрерывно дифференцируема и функция о дважды непрерывно дифференцируема. Разность {ау(0—w,(t—ft)} не за- висит от x(t—h), но зависит от x(t). Разложим правую часть выражения (4.14) в ряд Тэйлора в окрестности точки (x(t—h), t—ft) и получим х (/) — х (t — h) — f(x(t — h), t — ft) ft + a (x (t — h),t — ft) [w (t) — — w(t — h)\ + oA (x (t — h),t — ft) [w (/) — — w(t — ft)] [x (t) — x(t — ft)] + о (h). (4.15) Третий член в правой части появляется потому, что _как [х(^)—x(t—ft)], так и [ау(/)—w(t—ft)] имеют порядок |/h в среднеквадратической метрике. Так как только член о [w(t)—w(t—ft)] в правой части вы- ражения (4.14) имеет порядок y^ft , то х (t) — x(t — h) = f(x(t — h),t — ft) ft 4- о (x (t — h),t — ft), [ay (t) — w(t — ft)] + cx(x (t — h),t — h)a(x(t — h), t — h)[w it) — —w(t — ft)]2 +o(h).
Стохастические модели состояния 67 Перейдя к математическому ожиданию, получим Е [х (/) — х (I — /г)] = f(x(t — h),t — h)h + ох (х (t — h), t — h)o(x(t— h),t— h)h + o(h), (4.16) var [x(t) — x(t — Л)] = o2(x(t — h),t — h)h +o(h). (4.17) Сравнение выражений (4.8) и (4.16) показывает, что среднее приращение процесса зависит от типа используемой' разности E(lx _ (f(x> & (прямая разность),(4 [ f (х, t) dt + (x, t) о (x, i) dt (обратная разность). Если использовать смешанную разность Дх (f) = (1 — А.) [х (/+/г) — х (/)] +%[х(0 — x(t — А)], (4.19) то Edx = f (х, t) dt + ХоЛ (х, t) о (х, t) dt. (4.20) Аналогично можно найти дисперсию приращения var (dx) = о2 (х, t) dt. (4.21) Хотя полученные результаты сходны, очень важно при опре* делении стохастического дифференциала учитывать тип исполь- зуемой разности. В эвристическом доказательстве, которое при- вело к стохастическому дифференциальному уравнению, мы фак- тически ввели f(x, t)h как среднее значение приращения. Для сохранения этого интуитивного представления мы должны ин- терпретировать стохастическое дифференциальное уравнение как предел прямого разностного уравнения типа (4.13). Уточним эвристическую мотивировку стохастического диф- ференциального уравнения. Используя теорию обыкновенных дифференциальных уравнений, можно получить желаемый ре- зультат по крайней мере двумя разными способами: либо пере- ходом к пределу в разностном уравнении, либо преобразовани- ем дифференциального уравнения в интегральное, которое мож- но решить методом последовательных приближений. При этом можно попытаться определить уравнение (4.10) как предел раз- ностного уравнения или доказать существование и единствен- ность решения интегрального уравнения t t x(t) = x (/0)+ J f (x (s), s) ds + о (x (s), s) dw (s). (4.22) /о to Первый метод был использован Бернштейном, Леви и Гихма- ном. Интегральное уравнение изучалось Ито. Для решения Уравнения (4.22) необходимо сначала придать точный смысл ин- тегралам в правой части уравнения. Это сделано в следующих Разделах.
68 Ллава 3 Упражнения 1. Пусть {w(/), teT} — винеровский процесс с единичным па- раметром дисперсии и (/) = w (t + h) — w (/). Показать, что л j* (dw)2 = lim S [tiy (/.+1) — w (Л)]2 = h 6 с вероятностью 1. 5. СТОХАСТИЧЕСКИЕ ИНТЕГРАЛЫ В предыдущем разделе введен интеграл типа (5.1) где {y(t), teT}—процесс с независимыми нормальными при- ращениями. Этот интеграл необходим для придания точного смысла стохастическому дифференциальному уравнению. В частных случаях у может быть винеровским процессом. Такой процесс непрерывен с вероятностью 1, однако почти все выборочные функции имеют неограниченную вариацию. Инте- грал (5.1) нельзя интерпретировать как обычный интеграл Стиль- тьеса. В этом разделе мы подойдем к определению интеграла (5.1), а также рассмотрим некоторые его свойства, которые пред- ставляют интерес для задач управления и моделирования. Мно- гие результаты приведены без доказательства. Более подробно эти вопросы освещены в работе [11] (раздел 11 данной главы). Сначала рассмотрим случай, когда f — детерминированная функция, а затем случай, когда f — случайный процесс. В пос- леднем случае интеграл (5.1) имеет некоторые свойства, кото- рые существенно отличаются от свойств интеграла Стильтьеса. Интеграл от детерминированной функции Если f— детерминированная функция, то существует по крайней мере два способа определения интеграла (5.1). Если f — достаточно гладкая функция, то интеграл можно определить следующим' образом: ъ ь J f (0 dy (/) = f fb) У(Ь) — f (а) у (а) — J у (/) df (/). (5.2) о . . а Так как выборочные функции процесса {у(/), t еТ} непрерывны с вероятностью 1, то интеграл в правой части существует почти
Стохастические модели состояния. 69 для всех выборочных функций, если f имеет ограниченную вари- ацию. Особенность такого определения интеграла состоит в том, что его можно интерпретировать как интеграл от выборочных функций. Однако это определение нельзя обобщить на случай, когда f — случайный процесс (например, винеровский процесс). Это определение также не сохраняет интуитивного представле- ния о том, что интеграл является пределом сумм независимых случайных величин. Поэтому дадим другое определение интеграла (5.1), исполь- зуя обычные методы интегрального исчисления. Сначала опре- делим интеграл для случая, когда f — кусочно постоянные функ- ции, а затем распространим это определение на более общий класс функций. Предположим, что f — постоянна в интервалах [ti, ^+1]. Тогда интеграл (5.1) можно определить следующим образом: / = J f (/) dy (t) = S f (tJ [y (Zw) - у (/.)], (5.3) где Интеграл обладает свойством El = S f (т/) Е \у - у (О] = J f (0 dmy (/), (5.4) где my (t) = Еу U). (5.5) Это следует из теоремы 6.2 гл. 2. Далее имеем var / = var £ f (rz) \y — у (/,)] = I = S Sf (T/) f (T/) cov {[y у (/,)], [у - у (I.)] } = i i = 12-Г (^z) [r (/£.+I) — r (//)] = ^/2(т) rfr (r). (5.6) i Пусть теперь функция f является пределом последовательно- сти кусочно постоянных функций {fn}, т. е. max [J (/„ — f)2dr, J\fn — f| dm 1 -> 0. Интеграл от функции f можно получить, используя обычный метод обобщения. Таким образом, интеграл от функции f опре- деляется следующим образом: / = lim [/„(0^(0. (5.7)
70 Глава 3 где предел берется в среднеквадратическом (t)dy (/)|2 -0. (5.8) Можно также определить интеграл как любую случайную вели- чину, которая равна / с вероятностью 1. Таким образом, можно распространить определение интеграла на случай, когда суще- ствуют интегралы J f2dr и \ .dm. При этом сохранятся свойства (5.4) и (5.6). Следовательно, Е f (t)dy(t)= \ f (t)dm(t), (5.9) varJf(/)dz/(/) = \P(t)dr(t). (5.10) Подробное доказательство приведено в работе [11] (разд. 11 данной главы). Интегралы от стохастических процессов Для случая, когда f — стохастический процесс, интеграл (5.1) можно определить как предел в среднеквадратическом. Если f не зависит от у, то обобщение очевидно, и в этом случае нельзя получить какие-либо интересные результаты. Если f зависит от у, то интеграл будет обладать необычными свойствами: напри- мер, он будет зависеть от выбора т*. Покажем это на примере. Пример 1 Рассмотрим интеграл t w(s)dw(s\ (5.11) о где {u>(/), t —винеровский процесс с единичным парамет- ром дисперсии. Пусть интервал (о, /) точками o=/i, t2, ..., tN, tN+i = t разделен на N подынтервалов. Используя рассмотрен- ный выше метод, интеграл (5.1) можно, например, определить любым из следующих выражений: N /0 = lim^ w(ti) [w (/1+i) — w (/,)], (5.12) N Л = lim£ а»(Л-н) k(^+0 — (5.13) <=i где предел берется в среднеквадратическом. Если бы интегралы можно было определить как обыкновен- ные интегралы Стильтьеса, то они были бы равны, так как опера-
Стохастические модели состояния 71 ция интегрирования непрерывна. Однако стохастические интегра- лы не обладают этим свойством, поскольку N /1 — /0 = lim Л [ПУ (/,+1) — w (/,)]2 = t. (5.14) 1=1 (Сравните этот результат с упражнением в разд. 4.) Таким образом, этот пример показывает, что выбор Тг в фор- муле (5.3) существен при определении стохастического интегра- ла. Учитывая это замечание, можно определить континуум сто- хастических интегралов следующей формулой: = (1 — Л)/О + Ц = = lim£ [(1 — 4-U(/,.+1)] [и»(/£+1) — w(M] (5.15) 1=1 при Некоторые из этих интегралов имеют особые названия. /0 назы- зывается интегралом Ито, а /0,5 называется интегралом Страто- новича. Рассмотрим свойства этих интегралов более подробно. Пусть {//(/), teT}—нормальный процесс с независимыми приращениями. Обозначим функцию среднего значения через ш(0, а ковариационную функцию через г(/). Интеграл Ито, определенный формулой J f (/) dy(t) = limS f ([y(tl+1 - У (Mb <5-16) обладает следующими свойствами: E f(f)dy(l)= {Ef(f)} dm(f), (5.17) cov (t)dy(t), jg(t)dy(t)] = J [Ef (t)g(t)] dr(t). (5.18) Строгое доказательство приведено в работе [И]. Уравнения (5.17) и (5.18) показывают, что операции математического ожи- дания и интегрирования перестановочны. Из примера 1 следует, что формула (5.17) неверна для инте- гралов /х, если Х=^0. Интегрирование по частям Для интегрирования по частям часто употребляется фор- мула ^f(s)dy(s) = f(s)y(s) |— f y(s)df(s), (5.19) о об
72 Глава 3 1 которую можно записать в следующем виде: f (О У (0 - f (0) У (0) = j f (s) dy (s) + j у (s) df (s). (5.19a) и о Найдем, существует ли соответствующая формула для стохасти- ческих интегралов. Пусть 0=6, 6, , tN+\ = t — подразбиение интервала (0, t). Рассмотрим равенство f (^+i) ) f У = = f [у (^+i) у । б)] у (А) 7 (^*+1) f (^)] ~ ~ у Р*4-1) |/ (^4-1) f ('*)] "Ь f (^4) [у (^*4-1) Суммируя по k и перейдя к среднеквадратическому' пределу при max 16-м — 6|->0, получим f (0 У (0 - f (0) у (0) = Л (f, dy} + /о (У, df) = = My,df) + I0(f,dy), (5.20) где Uf. dy) = lim f f (t.) [y (t,+1) - у (6)], (5.21) 4 (A <40= lim £ f (^+i) [У (ti+i 1 — ^(6']- (5-22) i=l Таким образом, аналогия между формулами интегрирования по частям существует. Отметим, однако, что если f — стохастиче- ский процесс с независимыми приращениями, то для получения искомой формулы требуется два интеграла /0 и Л. Кроме того, если ввести симметричный интеграл 4,5 = у(/о + /’)’ (5’23) то из соотношения (5.20) получим выражение f (0у (t) - f (0) у (0) = Zo 5 (/, dy) + /0>5 (у, df), (5.24) которое представляет собой хорошо известную формулу (5.19) для интегрирования по частям. Симметричный интеграл, опреде- ленный формулой N h-. = limyS [ПМ + ПW] [у (Ы-Ж)]> <5-25> 4=1 был назван интегралом Стратоновича. Таким образом, можно
Стохастические модели состояния 73 сделать вывод, что обычная формула интегрирования по частям полезна также й^для стохастических интегралов, если их интер- претировать как интегралы Стратоновича. Сравнение с формальным интегрированием Для понимания свойств стохастического интеграла проведем сравнение с формальным интегрированием в случае, когда это возможно. Сначала рассмотрим \wdw. Если w — обычная функ- ция, то получаем t ^w(s')dw(s) = -у-(г^2(/) — ^2(0)). о Если {w(/)}—винеровский процесс с единичным параметром дисперсии, то интеграл можно интерпретировать многими спосо- бами. Рассмотрим IJw,dw) = limS [Хда(/.+1] +(1 — Х)да(г.)] [да (/ж) — w [^)]. 1=1 Выражение под знаком суммы можно представить следующим образом: [Хда,/ж)+(1-Л)да(^)] [да(/.+1)-да(^)] = = w (*i) w (ZW) - w2 (M X [“* ~ w (^)]2== = у M - w2 (*<) ]+ - t) [“, (W - w W]2- Так как сумма 1=1 сходится к t с вероятностью I при М->оо, то (w, dw) = [w2 (/) — w2 (0)] + -. В данном примере стохастический интеграл совпадает с фор- мальным интегрированием, если интерпретировать стохастиче- ский интеграл как интеграл Стратоновича. Упражнение 1. Рассмотрим интеграл I = ^f(s)dy(s), о
74 Глава 3 где {у(0, t сТ}—процесс с независимыми нормальными при- ращениями со средним значением т и ковариацией приращений dr. Допустим, что г/(0)=0. Пусть f, т и г —непрерывно диффе- ренцируемые функции. Обозначим производные через f', т' и г'. Определим интеграл I формулой (5.2) I = flfiyUY- p'(s)y(s)ds. 6 Показать, что t El = f (s) т' (s) ds, о t var I = J f2 (s) rf (s) ds. о Сравнить этот результат с выражениями (5.9) и (5.10). 6. ЛИНЕЙНЫЕ СТОХАСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ В этом разделе дано точное определение линейного стоха- стического дифференциального уравнения, введенного в разд. 4. Рассмотрим dx = А (/) xdt + dv, (6.1) где х—n-мерный вектор, {v(t), teT}—n-мерный винеровский процесс с ковариацией приращений Ridt, А — квадратная мат- рица порядка пХп. Элементы матриц А и Rt— непрерывные функции времени. Предположим, что начальное значение х(/о) — нормальная случайная величина со средним значением т0 и ковариацией /?0- Сравнив эти условия с эвристическими рассуждениями в разд. 4, получим, что о=1 не зависит от х. Если выражение (6.1) интерпретировать как среднеквадратический предел раз- ностного уравнения, то несущественно, используем ли мы пря- мые или обратные разности. Сравните эти выводы с выражени- ем (4.15). Если значение v в уравнении (6.1) имело бы ограниченную вариацию, то решение уравнения (6.1) можно было записать в виде X (t) = Ф (t; /0) х (Q + J Ф (/; s) dv (s), to (6.2)
Стохастические модели состояния 75 где Ф удовлетворяет дифференциальному уравнению (6 3) dt с начальным условием Ф(/о;/о)=/. (6-4) Уравнение (6.1) часто используется для моделирования систе- мы, входной сигнал которой представляет собой белый шум с ограниченным частотным диапазоном. Чтобы сохранить эту Рис. 3.1. Блок-схема системы dx!dt = =Ах+и. Рис. 3.2. Блок-схема стохастиче- ского дифференциалы ого уравне- ния (6.1), при решении которого используется определение инте- грала (5.2). интерпретацию, желательно представить уравнение (6.1) в виде блок-схемы, подобной блок-схеме на рис. 3.1, где входным сиг- налом является производная от v. Но так как v не имеет про- изводной, такое представление невозможно. Однако если ин- теграл (6.2) определяется выражением (5.2), то решение урав- нения (6.1) можно интерпретировать как интеграл от выбороч- ных функций и его можно также представить в виде блок-схемы с входной переменной v (рис. 3.2). Отметим, что, строго говоря, такую блок-схему можно не давать, если уравнение (6.1) ин- терпретировать с использованием стохастического интеграла, так как интегральный блок в блок-схеме представляет собой интегрирование функции времени. Рассмотрим свойства решения (6.2). Так как переменная х является линейной функцией нормального процесса, то она также нормальна и может быть полностью описана средним значением и ковариационной функцией. Для их вычисления по- ложим t Ex (t) = Ф (/; 4) Ex (/0) + Е J Ф (/; s) dv (s). to Используя свойство (5.9) стохастического интеграла, получим.
76 Глава 3 что второй член в правой части равен нулю. Следовательно, mx(t) — Ex(t) = Ф(Л, /0)£х(/0) = Ф(/; /0)т0. (6.5) Дифференцируя, получим = -^0(z;Mmo=^(Z)°(Z;Z0)/n0=4(Z)/nx, (6.6) at at где второе равенство вытекает из условия (6.3). Решение (6.2) можно получить непосредственно переходом в уравнении (6.1) к математическому ожиданию с использова- нием теоремы 6.2 гл. 2. Начальное значение для уравнения (6.6) получено из выра- жения (6.5), т. е. mx(t0) = m0. (6.7) Для вычисления ковариации х предположим, что то = О. Это можно получить, вычитая тх из х. Тогда £х(/)=0. Для s^t получим 7? (s, f) = cov [х (s), х (/)] = Ex (s) xT (/) = = E [Ф (s; t) x (t) + J Ф (s; s') dv (s')] xT (t) = = Ф (s; t) Ex (/) XT (t) = Ф (s; t) R (t91) = Ф (s; t) P (t). (6.8) Первое равенство следует из £х(£)=0, а третье вытекает из того, что y(s) не зависит от x(t) при s^t. Аналогично получим R (s, t) = R (s, S) Фг (/; s) = Р (s) Фг (/; s), (6.8а) где s t. Для вычисления ковариации P(t) = /?(/; t) образуем следующеее выражение: cov [х (t), х (/)] = Ех (/) хт (/) = t = £-Ф(/;/0)х(/0) + у Ф(Z; s)do(s) j X о’ t X [t; tn) х (/0) + j Ф (/; s) dv (s)]T = о = Ф (t-10) Ex (t0) xT (t0) Фт (t-, t0) + f t + E [ j* Ф (/; s) dv (s)j [ J Ф (/; s) dv (s) jr= to to t = Ф (/; t0) Ro Фт (Z; Zo) 4- f ф (/; S) Ri (S) Фг (Z; s) ds. (6.9) to
Стохастические модели состояния 77 Третье равенство следует из того, что y(s) и x(t) независимы при s^t, а последнее равенство вытекает из свойства (5.10) стохастического интеграла. Дифференцируя выражение (6.9), получим ~ =- [4 ф ^фТ +ф4 фГ ы+ dt L dt J dt + Ф (/; t) Ri (/)ФГ (!, t) 4- f [4 Ф (t- s) 1(s) ФГ (/; s) ds 4- 1 L dt J t0 i + Сф(/;5)/?1(5)Г— ФГ(/;$)1(/5. (6.10) J L dt J to Из уравнения (6.3) следует, что ^ф\ш = фтыат((). (6.П) dt Из уравнений (6.10) и (6.11) получим =A(i)P+ PAT(i) + Rl[t), (6.12) P(to) = Ro- (6.13) Дифференциальное уравнение (6.12) можно также получить непосредственно из стохастического дифференциального урав- нения. Рассмотрим разность P(t+h) — P(t) = Ex (t + h) хт(t + h) — Ex (t) xT (t) = = E ([x (t + ft) — x (t>] [x it + h) — x (0]T + x(/) [x (t + ft)—x (/)] r+ 4 |x(Z +/i) — x(/)]xr(^)} = = E[(Axh + Au) (Axh + Av)r x (Axh + Au)r + + (Axh + Au) хг] + о (ft) = = Ryh 4- (£xxr) ATh 4- AhE (xxr) + o(ft) = = (PAT + AP+ Rt) h + o (h). Четвертое равенство следует из того, что х и Аи независимы и Е(Аи) (Au)T=7?ift4-o(ft). Разделив на ft и перейдя к преде- лу при ft->-0, получим выражение (6.12). Сформулируем теоре- му 6.1, которая является итогом приведенных выше рассуж- дений.
78 Глава 3 Теорема 6.1. Решением стохастического дифференциального уравнения является случайный процесс со средним значением тх(1) и ковариационной функции R(s, t), где dmx я и-, —f- = A(t)mx, at mx(t0) = m0, ям-!ф(М)гт s>t' I P (s) Ф?(/; s), s </, = AP + PAT + at P (4) — Ro- (6.6) (6.7) (6.8) (6.12) (6.13) Замечание. Аналогичные формулы для среднего значения и ковариационной функции можно получить, если предположить, что {о (0, t сО — процесс с некоррелированными приращени- ями с нулевым средним и ковариацией приращений Ridt. Возникает вопрос, стоит ли использовать этот метод для решения стохастического дифференциального уравнения в ли- нейном случае? Нельзя ли получить аналогичный результат формальным преобразованием равенства %- = Ах + е, (6.14) at где {е} — непрерывный белый шум с ковариационной функцией cov \е (t), е (s)] = 7^6 (t — s). Чтобы показать, как легко получить при этом неверный резуль- тат, проведем некоторые формальные преобразования равенст- ва (6.14). Рассмотрим, например, вычисления ковариационной матрицы P(t) = Ex (t)xT (t). Дифференцируя по времени, получим — = Е — хТ + Ех— = Е(Ах + е)хТ + Ех(Ах + е)Т = dt dt dt = АЕххт (Еххт) Ат = АР + РАТ. Очевидно, что это неверно, так как мы получаем только первые два члена выражения (6.12), т. е. для случая, когда е=0. По- лучение неверного результата объясняется тем, что производ- ная dxjdt не существует. Так как dx имеет размерность у dt ,
Стохастические модели состояния 79 то обычные правила дифференцирования в этом случае не при- менимы. Рассмотрим тождество &ххт = (х + Дх) (х 4- Дх)г —- ххт = х (Дх)г + (Дх) хт + (Дх) (Дх)г. Если Дх имеет размерность Д/, как при обычных вычислениях, то последний член имеет размерность (Дг)2, и он мал по срав- нению с хДхг. Если х является винеровским процессом, послед- ний член имеет размерность ДЛ Перейдя к математическому ожиданию, получим \Еххт = Ex (Ax&t + Ду)г + Е (АхЫ + Ду) хт + + Е (Ax\t + Ду) (ЛхД/ + Ду)т = = [(Еххг) Ат + АЕххт} Д/ + Е (Ду)г + о (ДО; следовательно, dP = (РАТ + АР + dt, что приводит к правильному результату. Упражнения 1. Изменение тяги ракетного двигателя приблизительно мо- жно описать белым шумом вектора угловой тяги. Предположим, что спектральная плотность М = 0,0004 рад2/Гц и ускорение ра- кеты равно 3 м/с2. Определить дисперсию горизонтального по- ложения и горизонтальной скорости после 100 с ускоренного движения. Замечание. Горизонтальное движение описывается уравне- нием х = а9, где 9 — угол вектора тяги. 2. Оценить ковариационную матрицу состояния системы dx = — а1 — а2 1 0 xdt + dv, ' 1 " 0 где ах>0, а2>0, a {v(t), teT} — винеровский процесс с единич- ным параметром дисперсии. 3. Скалярный случайный процесс удовлетворяет стохастиче- скому дифференциальному уравнению dx = axdt + dv, где {у(/), teT} —винеровский процесс с параметром дисперсии П. Начальное состояние хо нормально с математическим ожи- данием т0 и ковариацией г0. Процесс {v(t), teT} не зависит от x(to). Найти среднее значение m(t) и ковариационную функцию для х(0. Привести достаточные условия существования преде- ла Ex2(t) при /—>оо и —оо. Показать, что если то=О,
80 Глава 3 r0=lim£*2G), то процесс {x(t), /о^<°°} стационарен. Вы- t-+m числить спектральную плотность и ковариационную функцию для стационарного случая. 4. Стационарный случайный процесс описывается стохасти- ческим дифференциальным уравнением dx = Axdt + dv, (6.15) где характеристический многочлен матрицы А det [V — Л] = Г + а^-1 4----Н ап имеет нули только в левой полуплоскости, а {у(/), t еТ} — вине- ровский процесс с приращением ковариации R{dt. Показать, что ковариационная функция произвольной линейной комбина- ции переменных состояния уравнения (6.15) удовлетворяет дифференциальному уравнению dnr . dn-ir . ---------------h tZi---г dtn 1 dtn-i t>0. 5. Рассмотрим стохастическое дифференциальное уравнение dx = Axdt + bdv, где A — постоянная матрица порядка b — постоянный n-мерный вектор и {у (Z), teT} — винеровский процесс с единич- ным параметром дисперсии. Предположим, что действительные части всех собственных значений А отрицательны. Показать, что в установившемся состоянии ковариация х равна 7? = ^z(t)2T(t)dt, где z— решение дифференциального уравнения с начальным условием z(0) = b. 6. Рассмотрим стационарный случайный процесс dx = Axdt + bdv, У — xi> где A — постоянная матрица порядка b — постоянный n-мерный вектор и {о(0, teT}—винеровский процесс с еди- ничным параметром дисперсии. Показать, что для оценки кова- риационной функции rv(t) можно применить следующий метод с использованием аналоговой машины.
Стохастические модели состояния 81 Интегрируем дифференциальное уравнение с начальным условием z(0)=b и вычисляем компоненты век- тора г по формуле ri = j (/) zt (t) dt, i — 1,2,..., n. о Тогда ковариационная функция ry(t) определяется из следую- щих соотношений: ^ = Аг, dt г (0) = г, r y\t) — 7. Показать, что задача определения ковариационной матри- цы состояния (6.1) двойственна задаче вычисления квадратич- ной функции потерь V = °\xT(t) I^xtydt о динамической системы с начальным условием х(0)=Ь. 8. Движение свободной частицы в жидкости описывается уравнением Ланжевена +fv = K(t), где пг— масса частицы, f— коэффициент вязкого трения и К — флюктуационная сила, обусловленная столкновениями с молеку- лами жидкости. Сила К имеет нулевое среднее и ковариацион- ную функцию, которая быстро по сравнению с m/f стремится к нулю. Таким образом, силу К можно рассматривать как белый шум. Из закона о равномерном распределении энергии по сте- пеням свободы в статистической механике следует, что — тЕ (ц2) = _L kT, 2 ’ 2 где k—постоянная Больцмана и Т — температура окружающей среды. 6-403
82 Глава 8 Допустив, что в начальный момент частица находится в со- стоянии покоя, определить распределение вероятностей скорости как функцию времени. 9. Получить результат, соответствующий теореме 6.1, когда решение стохастического дифференциального уравнения (6.1) определяется выражением (6.2), в котором интеграл имеет вид t t f Ф (/; s) dv (s) = v (i) — Ф (/; tQ) V (t0) — i I — Ф (/; s)l v (s) ds. J J. ds | /о t0 7. НЕЛИНЕЙНЫЕ СТОХАСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ УРАВНЕНИЯ Рассмотрим стохастическое нелинейное дифференциальное уравнение dx = f (х, t) dt + о (х, t) dw, (7.1) где {w(t), teT} —винеровский процесс с ковариацией прираще- ний Idt. Формально выражение (7.1) означает, что х является решением стохастического интегрального уравнения to t x(t) — х (t0) + f (x (s), s) ds + ( о (x (s), s) dw (s). (7.2) to t0 Для интерпретации выражения (7.2) мы должны определить интегралы в его правой части. Как показано в разд. 5, их опре- деление возможно несколькими способами. Например, можно использовать интегралы Ито, интегралы Стратоновича или интеграл определенный формулой (5.15). Отметим, что не- зависимо от того, какое определение интеграла используется, интегралы в выражении (7.2) нельзя рассматривать как обыч- ные интегралы Стильтьеса от выборочной функции, так как почти все выборочные функции винеровского процесса имеют неограниченную вариацию. Независимо от того, какое определение интеграла использу- ется, необходимо выяснить, когда уравнение (7.2) имеет еди- ственное решение. Ответ на этот вопрос можно получить с по- мощью обычного метода последовательных приближений. Рас- смотрим последовательность случайных процессов t t (/) = хп (/0) + J f (xn (s), s) ds + Jo (xn (s), s) dw(s), (7.3) to to где x°(/)=x(/0) для всех t. В скалярном случае Ито показал, что если функции f и о удовлетворяют условиям
Стохастические модели состояния 83 +*2]. о о (х, t) к [ 1 + х2], \f (х, t) — f(y, 01</С|х — у\, |gf(x, /) — о 0/, /)|</<|х — у\, то существует случайный процесс {x(f), t^T}, выборочные функции которого непрерывны с вероятностью 1. Процесс {х(/), teT} также удовлетворяет уравнению (7.2) с вероятностью 1. Многомерный случай рассмотрен в работе [15]. Решение уравнения (7.2) будет, конечно, зависеть от исполь- зуемого определения стохастического интеграла. Заметим, что если использовать интеграл Ито, то t Ех (/) = Ех (/0) + Е j* f (х (s), s) ds, t0 что вытекает из свойства (5.17) интеграла Ито. Если уравнение (7.2) определено, то, используя интеграл Ито, получим Е [х (/ + Л) — х (/) | х (/)] = f (х, t) h + о (й). (7.4) Если же использовать интеграл /х, заданный уравнением (5.15), то получим Е [х (/ + h) — х (?) | х (/)] = [f (х, t) + Хо* (х, t) а (х, t)\h + о (й). (7.5) Во всех случаях ковариация приращений равна cov [х (t + й) — х (/) | х (/)] = о (х, t) от (х, t)h+ о (h). (7.6) При эвристическом подходе к стохастической модели состояния /(х, /)й введено как среднее значение приращения х(/+й) — —x(t). Для сохранения этого интуитивного свойства модели со- стояния стохастический интеграл необходимо определить как интеграл Ито. При анализе стохастических дифференциальных уравнений в разд. 6 установлено, что условные вероятностные распределе- ния будущего состояния x(t) при данном начальном состоянии х(/0) являются гауссовыми. Дифференциальные уравнения для среднего значения и ковариационной функции приведены в тео- реме 6.1. Для нелинейных систем соответствующие условные распределения не являются нормальными. Однако для условных распределений можно вывести дифференциальное уравнение в частных производных. Рассмотрим случайный процесс, описываемый уравнением 17.1). Обозначим через р(х, Z; х0, to) плотность вероятности со- стояния х в момент t при условии, что в момент to процесс на- ходится в состоянии Xq. При соответствующих условиях глад- 6*
84 Глава 3 кости можно доказать, что р удовлетворяет следующему диф- ференциальному уравнению в частных производных параболи- ческого типа: = + т (7-7» UL UXi Z лмж OXiOX] 1=1 i,j,k=l с начальным условием Р (.X, t-, х0, /0) = 6 (х — х0). (7.8) Это уравнение известно как уравнение Фоккера—Планка, или прямое уравнение Колмогорова. Оператор X называется прямым оператором Колмогорова, а оператор, ему сопряжен- ный, п п х'=Sf- £+т I i=l i,/,fe=l называется обратным оператором Колмогорова. Упражнения 1. Задано дифференциальное уравнение dxA — = е, dt с нулевым начальным условием. Пусть {е(/), teT}—стацио- нарный случайный процесс с нулевым средним и ковариацион- ной функцией г(т). Оценить среднее значение х2. Вычислить предел среднего значения, когда г(т) стремится к распределе- нию Дирака. 2. Решение стохастического дифференциального уравнения dx± = dw. dx2 = xrdw. где {w(t). teT} —винеровский процесс с нулевыми начальными условиями, имеет вид Xi (/) = w (/), t xz (О = J W (s) dw (s). О Вычислить среднее значение х2, если стохастический интеграл определяется как /х. Рассмотреть, в частности, случаи Х=0,5 и Х=1.
Стохастические модели состояния 85 3. Задано стохастическое разностное уравнение Дхх (/) = Аш(/), Дх2 (/) = хг (/) Да; (/). Вычислить средние значения Xi и Хг при 4. Пусть {е(/), t еТ} — стационарный случайный процесс с ковариационной функцией г(т) и xi (t + h) = (/) + he (/), x2(t + h) = x2(t) + hx1(t)e(t), I = О, Л, 2ft,..., — разностные уравнения с нулевыми начальными условиями. Оценить x{(Nh) и x2(Nh) и их средние значения. Вычислить пре- дел Ex2(Nh) при /г->0, если Nh = const, а также предел Ex2(Nh), когда r(yh-> рЛ)-> К V = |Л, V ¥= |Л, при й->0. 8. СТОХАСТИЧЕСКОЕ ИСЧИСЛЕНИЕ. ПРАВИЛО ДИФФЕРЕНЦИРОВАНИЯ ИТО Как показано в предыдущем разделе, стохастические интег- ралы и стохастические дифференциальные уравнения не под- чиняются правилам обычного исчисления. Основная причина этого заключается в том, что_приращение винеровского процес- са dw имеет размерность Vdt в среднеквадратической метрике. Это означает, что, когда вычислены дифференциалы процессов, являющихся функциями винеровского процесса, необходимо учесть все члены, квадратичные по dw, так как они имеют раз- мерность dt. Учитывая это, можно развить стохастическое ис- числение на основе следующей теоремы Ито. Теорема 8.1 (правило дифференцирования Ито). Пусть х — п-мерный вектор, который удовлетворяет стохастическому диф- ференциальному уравнению dx = f (х, t)dt 4-о (х, /) dw, (8.1) где {w(/), teT}— винеровский процесс с ковариацией прира- щений Idt. Пусть функция y(x,t) непрерывно дифференцируема по t и дважды непрерывно дифференцируема по х. Тогда у
86 Глава 8 удовлетворяет следующему стохастическому дифференциаль- ному уравнению: п п 3 dt s^dxi 1 2 dxidxj ,k lk i=l irf,k=l X dt + V (odw)i. (8.2) d xi i=l Если ввести соответствующие обозначения, то уравнение (8.2) можно записать в более компактной форме. Обозначим через yt частную производную dyldt, через ух— градиент и ухх — матрицу второго порядка из частных производных. Тогда урав- ние (8.2) принимает вид1) dy=\t!t + yTxf + tr (ухх сюгdtу? о dw. (8.3) Покажем сначала, как можно получить результат формаль- но. Ряд Тэйлора для у приводит к следующему выражению: Д«/ = yt At + г/J Ах + —-(Ах)г Ухх + 0 №)’ <8-4) где 2 Ах = f (х, t) At + ст (х, t) Aw. Следовательно, (А х)т ухх Ах — (Aw)T <зт ухх ст Aw + о (At) = tr (Ада/ стг ухх g Aw + + о (At) = tr ухх cAwAwr от -f- о (At). (8.5) Таким образом, ЕАу = + утх f (х, t) т у tr ухх ост7"] At + о (At), var (Ay) = у? ск>т yx.At + о (At), поскольку E||Aw||4^ (AO2- Отметим, что в обычном исчислении член — (Ах)тухх Ах име- ет порядок (А/)2- Приведем несколько примеров применения правила дифференцирования Ито. 1 Здесь и далее в тексте через tr (trace) обозначен след матрицы, приве- денной в скобках. — Прим. ред.
Стохастические модели состояния 87 Пример 1 Пусть {w(t),teT}—винеровский процесс с единичным па- раметром дисперсии. Рассмотрим функцию У (о = ew{t\ (8.6) Применив теорему 8.1, получим dy=ewli)dw + -^ ew{t} dt. Функция у удовлетворяет следующему стохастическому диф- ференциальному уравнению: dy—yl — dt + dw\, < У\ 2 ) (8.7) И0) = 1, или, обратно, стохастическое дифференциальное уравнение (8.7) имеет решение (8.6). Пример 2 Рассмотрим стохастическое дифференциальное уравнение dx — Axdt + dv, где {г?(0> t СГ\ — винеровский процесс с ковариацией прираще- ний Ridt. Положим у (х, /) = хт S (/) х. Теорема 8.1 приводит к следующей формуле: dy — d {хт Sx) = Г хт — х+хт ATSx 4- хт S/lx+tr ST?,! dt + L dt J + dvT Sx + xT Sdv. (8.8) Оценка функции потерь При оценке характеристики системы, управление которой описывается стохастическим дифференциальным уравнением, необходимо проанализировать выражения вида ti V (х, t) = Е [J G (х (s), s)ds\x (t) = xj, (8.9) где случайный процесс удовлетворяет условию (8.1) и О — скалярная функция. Если G дважды непрерывно диф- ференцируема, то можно вывести дифференциальное уравнение в частных производных для V:
88 Глава 3 f+ h V (x, t) = E J G(x (s), s) ds + V (x (t + h), t + h)\x (t) — xj = = E [G (xx t) h + V (x, t) + dV (x, t) + о (h) | x (/) = x]. (8.10) Оценивая dV с помощью теоремы 8.1 и переставляя члены, по- лучим ^+С+И1/ + Х(|Ллпг_о. (8.11) Граничное условие получается непосредственно из выражения (8.9): V(x,tJ = 0. (8.12) Таким образом, оценку функции потерь (8.9) можно свести к решению дифференциального уравнения в частных производ- ных (8.11) с граничным условием (8.12). Заметим, что уравнение (8.11) можно написать в виде —+ G + £*V=0, (8.13) dt где^*—обратный оператор Колмогорова, определенный фор- мулой (7.9). В квантовой механике этот результат использован для полу- чения численных решений дифференциальных уравнений в ча- стных производных типа (8.11). Итак, траектории уравнения (8.1) с начальным условием х0 найдены, а значение V в точке х0 получено путем оценки (8.9) вдоль траектории и усреднением по методу Монте-Карло. Упражнения 1. Пусть {w(t), t еТ} — винеровский процесс с единичным па- раметром дисперсии. Показать, что стохастическое дифферен- циальное уравнение dx = ]/х dw + --- dt, х (0) = 1 имеет решение х(/) = (1 + у 2. Пусть {w(t),ttT}—винеровский процесс с единичным параметром дисперсии. Показать, что стохастическое дифферен- циальное уравнение
Стохастические модели состояния 89' dX) = x2dw---------l- Xj^dt, xt (0) = 0, dx2 = — xtdw-----------X—x2dt, x2(0) = l имеет решение xx(Z) — sin w (t), x2 (t) = cos w (Z). 3. Найти решение стохастического дифференциального урав- нения (dxl = х2 dt, \dx2 = dw с начальными условиями (0) = 1, х2 (0) = 0, где {w(t), teT}—винеровский процесс с единичным парамет- ром дисперсии. 4. Использовать правило дифференцирования Ито для до- казательства теоремы 6.1. 5. Дифференциал Ито обладает свойством Е [x(t + h) — х (t) — dox (Z)]2 — о (h). Сравнить это свойство с тем, что говорится в разд. 4, и пока- зать, что можно ввести другие дифференциалы, например обрат- ный дифференциал di со свойством Е [х (Z) — х (t — h) — diX(t)]2 = о (h) или х = (1 — A.) d0 х + Xdj x. Вывести формулы для дифференциала dKx, аналогичные прави- лу дифференцирования Ито. 6. Вычислить функцию потерь ц V (a, t) = Е | J' хт (s) Qx (s) ds | x (t) = a J t для линейного стохастического дифференциального уравнения dx — Axdt + dw, где {^(Z), teT} — винеровский процесс с ковариацией прираще- ний Rdt. Вывести дифференциальное уравнение в частных про- изводных для V и показать, что оно имеет решение
90 Глава 3 tx V (a, t) = ат S(t)a + J tr S (s) R (s) ds, t где — + AT S + 5Л + Q = 0, S (/J = 0. dt 7. Пусть dx = Axdt + dv линейное стохастическое дифференциальное уравнение, где {v(0, teT}—винеровский процесс с ковариацией приращений Rdt, и пусть y(t,x) = хт Sx. Показать, что условие (8.8) выполняется в том случае , когда решение стохастического дифференциального уравнения опреде- ляется выражением (6.2), в котором интеграл определяется формулой (5.2). 9. МОДЕЛИРОВАНИЕ ФИЗИЧЕСКИХ ПРОЦЕССОВ СТОХАСТИЧЕСКИМИ ДИФФЕРЕНЦИАЛЬНЫМИ УРАВНЕНИЯМИ О практическом значении стохастического дифференциаль- ного уравнения можно судить по тому, насколько оно пригодно для моделирования физических процессов. Так как результаты такого моделирования можно оценить только путем эксперимен- тального сравнения, то в общем случае можно сказать очень ма- ло. В качестве примера рассмотрим моделирование броуновско- го движения. Движение малой частицы, погруженной в жидкость, описывается уравнением d^x , dx г .л ,. + = I9-1 at2 at где х— координата, m — масса, с — коэффициент вязкого тре- ния, a f — сила, действующая на частицу. Для удобства введем переменные состояния Х[ = х и X2=dxldt. Тогда уравнение (9.1) можно записать в виде $ = х2, (9-2) at Силы, действующие на частицу, обусловлены ее столкновениями с молекулами жидкости, находящимися в тепловом движении. Если частица велика по сравнению со средней величиной сво-
Стохастические модели состояния 91 бодного пробега молекул жидкости и если время столкновения считается бесконечно малым, то силу можно считать белым шу- мом. Среднее время между столкновениями в жидкости при комнатной температуре приблизительно равно 10~21с. Таким об- разом, это движение можно промоделировать стохастическим дифференциальным уравнением dxr — x2dt, с 1 dx2 ------х2 di Н--dw, m m где teT} — винеровский процесс с параметром дисперсии г. Уравнение (9.3) представляет собой так называемое уравне- ние Ланжевена. Применяя теорему 6.1, получим ковариационную функцию процесса для s^t: (9.3) R (з, /) = Ф (s — t)P (t), (9.4) где и Ф (t) = exp 'О О t ' — ct]m_ m с (1 — exp (—с/ m))' ехр (—ctjm) (9.5) 1 О Р2 Рз. р = Г1 \Р2 — решение уравнения (6.12). Перепишем это уравнение по ком- понентам (9.6) = 2р„ dt ™ dpn с . -*7 =------Рз + Рз, dt т dp3 __ 2с г Рз । dt т т* Предположив, что распределение скоростей стационарно и по- ложение частицы в момент /=0 точно известно, получим следу- ющее начальное условие: Pi (0) = 0, Рг(0) = °, Рз(0) = ~~ 2тс Коэффициент г определяется из закона равномерного распреде- ления энергии по степеням свободы в статистической механике (9.7) (9.8)
92 Глава 3 (при равновесии средняя энергия на каждую степень свободы равна 4zkT, где k — постоянная Больцмана, Т — абсолютная температура): — mExl= — = — kT 2 2 2 2mc 2 (9.9) И r = 2kTc. (9.10) Решив уравнение (9.7) с начальными условиями (9.8), по- лучим Pl (/) = J- — (1 _ = Г/_ Л (J _ , с2 L с J С L с J р2 (0 = [1 - e~ctlm] = ~ [1 - Ковариационные функции координаты и скорости равны Гц (8,0 = Pi (0 + у [1 - р2 (/), $ > t, (9.12) r22(s,/) = —e-(c(s-0/m), s>/. (9.13) m Адекватность модели (9.3) можно проверить, например, путем наблюдения за движением частицы и за тем, можно ли считать закон смещения частицы нормальным с ковариационной функ- цией (9.12). Рассмотрим порядок используемых’величин. Для частиц кол- лоидной платины в воде радиусом 2,5-10-8м имеем т=2,5Х ХЮ-18 кг, <?=7,5-10-12 кг/с. Следовательно, dm—ЗХЮ6 с-1! Если частицы наблюдаются в интервале времени, не меньшем чем 1 с, то корреляция между скоростями в наблюдаемые мо- менты времени меньше е~300 000. Из выражения (9.12) следует также, что ковариационная функция смещения хорошо описыва- ется следующей формулой: ru(s, t) — г (s, t) = min (s, t). (9.14) c Ошибка этого приближения не превышает 10-6! Функция r(s,t) в выражении (9.14) представляет собой кова- риационную функцию винеровского процесса с параметром дис- персии 2kT/c. Заметим, что можно было бы получить точно ту же ковариационную функцию, если пренебречь членом md2xldt2 в уравнении (9.1) или если положить dx2 = 0 в уравнении (9.3). Это приводит к известной модели броуновского движения
Стохастические модели состояния 93 dx = — dw. (9.15) с Эта аппроксимация правильна лишь в том случае, когда t вели- ко по сравнению /п/с=3,ЗХЮ"7 с. Следовательно, для задач, в которых достаточно рассматривать значения процесса в интер- валы времени, не меньшие чем 0 = т/с, модель (9.15) дает хоро- шие результаты. Отметим также, что модель (9.15) имеет мень- ший порядок, чем первоначальная модель. Скорость частицы нельзя определить из выражения (9.15), так как движение ча- стицы наблюдается в малые промежутки времени. Упражнения 1. В условиях теплового равновесия с окружающей средой движение зеркала гальванометра описывается следующим урав- нением: / _*L + с<р = М, dt2 dt где вращательный момент М возникает из-за столкновения зер- кала с молекулами воздуха. Определить дисперсию и спектраль- ную плотность отклонения зеркала гальванометра, если предполо- жить, что вращательный момент М является белым шумом. Примечание. Закон равного распределения энергии по степе- ням свободы приводит к следующей формуле: — IE j 12 =.— С£ф2 = — kT. 2 I dt / 2 - 2 2. Одноосевая платформа гиростабилизатора описывается следующим уравнением: D = m + Нё, dt 0 = — с<р, где ср— сигнал на выходе, 0 — угол отклонения платформы, D — коэффициент вязкого трения, Н — угловой момент, a m — мо- мент вращения, обусловленный тепловым движением молекул. Найти дисперсию угла отклонения платформы, происходящего в результате колебаний температуры. Показать, что для значений /, которые велики по сравнению с D/Hc, можно считать, что £'02~2&77)Я-2, где Т—абсолютная температура и k— постоян- ная Больцмана. Условие равновесиячимеет вид 1/2^^ф2==1/2^^- Для постоянных, взять следующие3 значения: £) = 0,03 кг-м2/с. /7 = 0,01 кг-м2/с. Оценить.дрейф при отклонении платформы для /= 1 с и 1 ч.
94 Глава 3 10. ПЕРЕХОД К РАЗНОСТНОМУ УРАВНЕНИЮ Во многих случаях для регулирования и предсказания про- цессов с непрерывным временем используются ЦВМ. Так как ЦВМ является дискретной, то выходные сигналы должны вво- диться в память в дискретные моменты времени. Управляющие и упреждающие сигналы можно подавать в дискретное время. Если попытаться описать значения переменной состояния только в выборочные моменты, то теорию можно значительно упростить. Основное упрощение заключается в том, что стохастические дифференциальные уравнения сводятся к стохастическим разно- стным уравнениям. Покажем, как это происходит. Допустим, что процесс описывается уравнениями dx = Axdt + dv, (10.1} dy = Cxdt 4- de, (10.2) где x—n-мерный вектор состояния, у—r-мерный вектор наблю- даемых выходных сигналов, а {у(Ц,—oo^Z^oo} и {e(t)r —оо^/^+оо) —n-мерные и r-мерные винеровские процессы с ковариациями приращений dt и /?2 dt соответственно. Предпо- ложим, что процессы е и v независимы. Уравнение (10.1) описы- вает процесс, а уравнение (10.2) — связь наблюдаемых сигна- лов с переменными состояния. Таким образом, можно считать, что процесс {е(0} является ошибкой измерения. Затем допус- тим, что выходные переменные наблюдаются в дискретные мо- менты времени /2, ta-.. • Получим уравнение связи между пе- ременными состояниями х и наблюдаемыми выходными перемен- ными у. После интегрирования уравнений (10.1) и (10.2) получаем х(/ж) = Ф(*ж; + (10.3) /.•+1 =y(t{} + J dy(s) — = У (ti) + [ J c (s) Ф (s; ti) ds] x (t{) + e (10.4) где Ф — матрица порядка n%n, определяемая формулой ’ = Л (/)Ф (/;/.•) (Ю.5) Ф(М) = /.
Стохастические модели состояния 95 и е (ti) = J С (s) f Ф (s; t) dv (t) ds + h i J de(s). ti (10.6) (Ю.7) Переписав первый интеграл в правой части выражения (10.7) и изменив порядок интегрирования, получим ^+1 s ^’+1 (' С (s) J O(s;/)dv(/)ds= j ( j* (s) Ф (s;/) dsj du (/) = ‘i 4 4 h = J 0(/i+1; t}dv{t), (Ю.8) где e(/.+i;/)= j C(s)O(s;/)ds. (10.9) t Следовательно, e(/,.)= J 0(/ж; /)du(/) + e(/z+1) — e(^). (10.10) Используя свойства стохастического интеграла, получим, что v(ti) и v (4) независимы, если 1#=&. Из выражений (10.6) и (10.10) получим £и(^ = /|ф(/(.+1; t}dv(t) = O, Ее (/J = Е | [ 0 (/.+1; /) dv(t) + е (/,_,) - е (q] = 0, h ^+i Evdd vT(t.) = Е [ f J Ф (/.+1; t)dv(t) dvT (s) Фг(^+р s)] = U+l = у ф(^+1;0М)фЧ+1;0< (10.11)
96 Глава 3 те (М ж Е [ J J ф Pj+p *)dv(0dvT(*)qT (*/+i;s)] = *i+i = J ф(^+р *WoeT(/<+1;^, (Ю-12) *1 *i+i Ее (/J ~eT (/.) = E [ J j 9 (/-+1; t) dv (t) dvT (s) 0r (/ж; s) + + (eK-+i)~ e(*i)) ] = ^+1 -r - J 0(W ^^(O0r(^+1; <№ + и *i+i + J R2(t)dt. (10-13) Смешанные члены, содержащие de и dvf взаимно уничтожат- ся, так как процессы v и е независимы. В теореме 10.1 подведены итоги проведенных выше вычислений. Теорема 10.1. Значения переменных состояния и наблюдае- мых выходных величин стохастических дифференциальных урав- нений (10.1) и (10.2) в дискретные моменты времени ti связаны стохастическими разностными уравнениями И<1+,) = Ф«(У+»('<)• <ю-з> г ('ж) “ У ('ж) - У W =0* ('<) + «(/,), <10Л4> где Ф = Ф(Л+1; ti) —фундаментальная матрица (10.5); 0 = 9(ti+i, li) определяется формулой (10.9); {v(ti), i—l, 2, ...} и {e(^); i= = 1, 2, ...} — последовательности независимых нормальных слу- чайных величин с нулевыми средними значениями и ковариа- циями 5’+i Е?(^г^)=ед== J Ф(/ж; 5)адфГ^+1: s)ds> <10Л1) ч 5*~н &(<,)?((,) = ед) = J' Ф(ед)едед+1; ед <ю.12> ^+1 Е7 (/.) е ((/,)=J [9 (/ж; s) Е, (s) 9Г(/Ж; s)+Я2(ф. (10.13)
Стохастические модели состояния 97 Стохастические разностные уравнения (10.3) и (10.4) называют- ся выборочными вариантами уравнений (10.1) и (10.2). Из дифференцирования следует, что статистические свойства уравнений (10.1), (10.2), (10.3) и (10.4) идентичны в интервалах выборки. Это означает, что выборочный вариант удобно исполь- зовать для аппроксимации системы с непрерывным временем. Отметим, что ошибки измерения е и «помехи процесса» v в урав- нениях (10.3) и (10.4) могут быть зависимыми, даже если е и v независимы в уравнениях (10.1) и (10.2). Применения Рассмотрим некоторые следствия теоремы 10.1 для задач уп- реждения и регулирования. На практике уравнения (10.1) и (10.2) используются для моделирования процесса: ~=Ax + v, (10.15) у = Сх + е, (10.16) где {^(0, —оо</<оо} и —оо</<оо}—стационарные гауссовы процессы, спектральные плотности которых постоянны вплоть до высоких частот (см. разд. 9). Если промоделировать процесс (10.15) и (10.16) и построить цифровой фильтр, осно- ванный на соответствующих выборочных моделях, то сигнал, ко- торый вводится в управляющий вычислитель, можно определить формулой — = J y(t)di. Из физической интерпретации этого выражения находим, что наблюдаемый сигнал у, содержащий высокочастотный шум, не выбирается непосредственно. Наблюдаемый сигнал у сначала интегрируется при помощи аналогового интегратора, который устанавливается на нулевом уровне в начале каждого интервала выборки. Это вполне естественно с практической точки зрения, так как интегрирование уменьшает высокочастотный шум. Отме- тим также, что если используется какой-либо другой тип анало- говой фильтрации, то необходимо либо учесть динамику дискрет- ной^ модели до фильтрации, либо построить дополнительный фильтр, если выборочный вариант является стохастическим раз- ностным уравнением. 7—403
98 Глава 3 Упражнения 1. Дано стохастическое дифференциальное уравнение ах — xdt + \dv, \0 О/ V / dy = xxdt + de, где {v(t)f teT} —винеровский процесс с единичным параметром дисперсии, a {eG)> teT}— винеровский процесс с параметром дисперсии г. Найти выборочный вариант, когда интервал выбор- ки равен h. 2. Стохастическое дифференциальные уравнения (10.1) и (10.2), где {v(t),teT} и {е(£), teT}—винеровские процессы, имеют ковариацию приращений Показать, что выборочный вариант стохастического дифферен- циального уравнения задается формулами (10.3) и (10.4), где {е(^)} и W^)}—последовательности независимых нормаль- ных переменных с нулевыми средними значениями и ковариа- циями = «и(М= J ® (Ws) [«.(») *) + 4 + R^ (s)] ds, *1+1 Й(У?(УJ [9 ((I+1; »)«,(Чвг(/ж; s) + +0(/I+1;s) «„(S) + (Z1+1;s) + + T?2 (s)] ds. 3. Для системы с /° 0 °\ ,0 1 о\ Л* 0 °\ Л- 1 О 0 , с= . R,= 0 ,s 0 . \о о о/ • ' \о о г/
Стохастические модели состояния 99 показать, что выборочный вариант с интервалом выборки h за- дается следующими формулами: (1 О О h 1 О — /г2 h 1 2 Qih Т^1/г3 Z о о Z ^1"<71/г3 ^h' + ^q^ +-J<hh3+rh' 6 /?12 — V <71 л4+-^-<72 л2 О Z 4r’‘ftS+T’>4' qihb + 4" q*h3 + rh I 2U о (-5- q1h5 + — q2 h3 + rh —— qx he + — q2 hl + — rh3 20 3 72 7 8 7 2 -s-+т ’ Л‘+тгЛ’ s-2 ’1,7+iq' h'+ i rh'‘+rh 4. Получить результат, соответствующий теореме 10.1, когда выходная переменная выборочной системы определяется выра- жением г(/г+1)= J dy(s) а не выражением (10.14). h < т» < ^+р 11. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА Идея представления случайного процесса стохастическим разностным уравнением принадлежит Юлу, который ввел про- цесс авторегрессии в работе [1]. Стохастические разностные уравнения рассматриваются также в работе [2]. Стохастические дифференциальные уравнения используются эвристически в физике с начала XX в. в связи с исследованием 7*
100 Глава 3 броуновского движения. Рекомендуется прочесть работы Эн- штейна, собранные в книге [3]. В книге [4] подобраны более ранние статьи. Тепловое движение ограничивает точность измерений. Это давно наблюдаемое явление объясняется шумом Найквиста в усилителях. Подобные эффекты рассмотрены в работах [5,6]. Строгое определение стохастических дифференциальных уравнений введено в работах [7,8]. Стохастические дифферен- циальные уравнения рассмотрены также в работе [9.] Теоремы существования и единственности, основанные на методе последовательных приближений Пикара, доказаны в ра- боте [10]. Эти доказательства приведены также в работах [11, i2]. Работа [12] рекомендуется для более полного изучения теории стохастических дифференциальных уравнений. Стохастические интегралы типа J f (f) dw (t), где еТ,—винеровский процесс, a f — функция ограничен- ной вариации, также были введены Винером, который опреде- лил интеграл следующим образом: t t J f (s) dw (s) = f(t)w (0|£ — J W (t) df (t). 0 0 Так как f — функция ограниченной вариации, а выборочные функции непрерывны, то интеграл в правой части равенства строго определен. Более элементарное изложение дано в работе [13]. Подход к стохастическим дифференциальным уравнениям, который сильно отличается от изложенного в книге, базируется на представлении белого шума как «обобщенного стохастичес- кого процесса» по аналогии с обобщенными функциями. Эта идея рассматривается в работе [14]. Компактное и строгое из- ложение дано в работе [15]. В этой монографии есть также обобщение результатов Ито на векторный случай. Другой подход к теории стохастических дифференциальных уравнений дается в работе [16]. Авторы рассматривают стоха- стические дифференциальные уравнения как результат предель- ного перехода в стохастических разностных уравнениях. Усло- вия существования и единственности аналогичны условиям, при- нятым Ито. Стохастический интеграл был введен Ито в работе [10]. Другой подход к понятию стохастического интеграла опи- сан в работе [17]. Как уже указывалось, различия в подходе Ито и Стратоно- вича не очень существенны. Вычислительные формулы Страто- новича в некоторых случаях проще. В нашей книге использу-
Стохастические модели состояния 101 ется интеграл Ито, чтобы сохранить интуитивное представление о модели состояния. Связь различных определений интеграла с соответствующими разностными уравнениями рассматривается в работе [18]. Вопросы устойчивости стохастических дифференциальных уравнений рассматриваются в работе [19]. Некоторые вопросы теории стохастических дифференциаль- ных уравнений рассматриваются в работе [20]. В ней приведе- на большая библиография. Уравнение Фоккера — Планка рассмотрено в работе [21], а применение уравнения Фоккера — Планка к нелинейным систе- мам описано в работе [22]. Связь между квантовой механикой и стохастическими диф- ференциальными уравнениями рассматривается в работе [23]. Доказательство правила дифференцирования Ито приведено в работах [24, 25]. Задача моделирования, рассмотренная в разд. 9, довольно проста, так как анализируются только линейные системы. В не- линейном случае моделирование более сложно. Рассмотрим, на- пример, дифференциальное уравнение %- = f(z) + g(z)n, at где z — скалярная величина, а п — белый шум с ограниченной полосой. Оказывается, что уравнение Ито, которое является моделью уравнения (11.1), имеет вид dQx = р (х) + у g (х) g' (х)] dt + g (x) dv, где dox — дифференциал Ито. Соответствующее уравнение Стра- тоновича имеет вид d0>5 х = f (х) dt + g (х) dv, где d0t5x— дифференциал Стратоновича (см. также [26—28]). Моделирование уравнения (11.1) в том случае, когда z — век- торная величина, значительно сложнее. Эта задача подробно рассмотрена в диссертации Кларка [27]. Она тесно связана с проблемой моделирования стохастических дифференциальных уравнений. Простой случай рассмотрен в работе [29]. 1. Yulu G. U., On a Method of Investigating Periodicities in Disturbed Series with Special Reference to Wolfer’s Sunspot Numbers, Phil. Trans. Roy, Soc., -• A226, 267—298 (1927). 2. Wold H., Stationary Time Series, Almqvist and Wiksell, Uppsala, 1938. 3. Einstein A., Investigations on the Theory of the Browian Motion, Dover, New York, 1956.
102 Глава 3 4 Wax N., Selected Papers on Noise and Stochastic Processes, Dover, N. Y., 1954. 5. Barnes R. B., Silverman S., Brownian Motion as a Natural Limit to all Measuring Processes, Rev. Mod. Phys., 6, 162—192 (1934). 6. McCombie C. W., Fluctuation Theory in Physicul Measurements, Rep. Prog, in Phys., 16, 266—320 (1953). 7. Bernstein S. N., Principes de la Theorie des Equations Differentielles Stochas- tiques, Труды мат. ин-та им. Стеклова, 5, 95—124 (1934). 8. Bernstein S. N., Equations Differentielles Stochastiques, Act. Sci. et Ind., 738,5—31 (1938). 9. Levy P., Processus Stochastiques et Mouvement Brownien, Gautier-Villars, Paris, 1948. Русский перевод: Леви П., Стохастические процессы и броу- новское движение, изд-во «Мир», 1972. 10. Ito К., On Stochastic Differential Equations, Mem. Am. Math., Soc., № 4 (1951). 11. Doob J. L., Stochastic Processes, Wiley, 1953. Русский перевод: Дуб Дж. Л., Вероятностные процессы, ИЛ, 1956. 12. Гихман И. И., Скороход А. В., Введение в теорию случайных процессов, изд-во «Наука», 1965. 13. Wiener N., Nonlinear Problems in Random Theory, MIT Press, 1958. 14. Gelfand I. M., Wilenkin N. J., Verallgemeinerten Funktionen, IV, VEB Deutscher Verlag der Wissenschaften, Berlin, 1964. 15. Скороход А. В., Исследования по теории случайных процессов, изд-во Киевского университета, 1961. 16. Гихман И. И., Скороход А. В., Стохастические дифференциальные уравне- ния, «Наукова Думка», Киев, 1968. 17. Stratonovich R. L., A New Representation of Stochastic Integrals and Equations, SIAM J. Control, 4, 362—371 (1966). 18. Astrom K. J., On Stochastic Differential Equations, Lecture notes, Lund, 1965. 19. Kushner H. J., Stochastic Stability and Control, Academic Press, N. Y., 1967. 20. Stochastic Problems in Control, A symposium of the American Automatic Control Council, Am. Soc. Meeh. Eng., 1968. 21. Bharucha-Reid A. T., Elements of the Theory of Markov Processes and Their Application, McGraw-Hill, 1960. 22. Fuller A. T., Analysis of Nonlinear Stochastic Systems by means of the Fokker-Planch Equation, Int. J. Control, 9, 603—655 (1969). 23. Gelfand I. M., Yaglom A. M., Integration in Functional Spaces and Its Application in Quantum Physics, J. Math. Phys., 1, 48—69, 1960. 24. Ito K., On a Formula Concerning Stochastic Differentials, Nagoya Math. J. (Japan), 3, 55 (1951). 25. Ito K., Lectures on Stochastic Processes, Tata Institute of Fundamental Research, Bombay, 1961. 26. Стратонович P. Л., Условные марковские процессы и их применение к тео- рии оптимального управления, Изд-во МГУ, 1966. 27. Clark I. М. С., The Representation of Nonlinear Stochastic Systems with Applications to Filtering, Ph. D. Thesis, Imperial College, University of London, 1966. 28. Wong E., Zakai M., On the Relation Between Ordinary and Stochastic Dif- ferential Equations and Applications to Problems in Control Theory, 3rd IFAC. Congress, London, 1966. 29. Astrom K- J., On a First-order Stochastic Differential Equation, nt. J Control, I, 301—326, 1965.
Глава 4 анализ динамических систем со СЛУЧАЙНЫМИ входными сигналами 1. ВВЕДЕНИЕ В предыдущих главах рассматривались в основном стоха- стические процессы и стохастические модели. В этой главе да- ны основы стохастических систем управления. Рассмотрены си- стемы, внешними воздействиями которых являются случайные процессы. Основная задача при этом — анализ динамических систем со случайными входными переменными. Анализ ограни- чивается только линейными системами. Рассматриваются си- стемы как с непрерывным, так и с дискретным временем. Динамические системы могут быть представлены путем опи- сания соотношений между входными и выходными переменными или моделями состояний. Кроме того, стохастические процессы также могут быть описаны разными способами (например, ко- вариационными функциями, спектральными плотностями, моде- лями состояний). Таким образом, при анализе динамических си- стем, на входе которых действуют случайные процессы, имеется множество вариантов для рассмотрения. В разд. 2 рассматриваются системы с дискретным временем, описываемые весовыми функциями. Входными сигналами этих систем являются случайные процессы второго порядка, описы- ваемые ковариационными функциями. Приводятся условия, при которых выходной сигнал будет процессом второго порядка. Выводятся формулы для средних значений и ковариаций выход- ного сигнала. Показывается, что для стационарных процессов все выводы могут быть получены в более компактном виде, ес- ли рассматриваемую систему описывать передаточной функци- ей, а процессы — их спектральными плотностями. Результаты разд. 2 свидетельствуют о том, что многие случайные процессы можно представлять в виде выходного сигнала динамических систем, на входе которых действует белый шум. В разд. 3 пока- зано, что это справедливо для дискретных процессов, спектраль- ные плотности которых являются рациональными функциями от cos и. Основные выводы сформулированы в теоремах спект- рального разложения и представления. Согласно этим теоре- мам, все процессы с рациональными спектральными плотностя- ми можно представить в виде моделей состояния, и при анализе необходимо рассматривать только случай белого шума на входе.
104 Глава 4 В разд. 4 приведен анализ систем с непрерывным временем. В разд. 5 даны теоремы спектрального разложения и представ- ления для систем с непрерывным временем. 2. СИСТЕМЫ С ДИСКРЕТНЫМ ВРЕМЕНЕМ Рассмотрим системы, входными сигналами которых явля- ются случайные процессы второго порядка с дискретным вре- менем. За интервал квантования выберем единицу времени и символом Т обозначим множество {...,—1,0,1...}. Схема динами- ческой системы с входным сигналом и и выходным сигналом у представлена на рис. 4.1. Для простоты примем, что система Вход Система Выход и У Рис. 4.1. Схема динамической системы. стационарна и имеет один вход и один выход (эти ограничения несущественны для анализа). Будем считать, что входной сиг- нал и есть случайный процесс второго порядка с заданным сред- ним значением mu(t) и заданной ковариационной функцией /u(s, t). В этом случае задача заключается в определении стоха- стических свойств выходного сигнала. Предполагая, что систе- ма описывается весовой функцией й, можно написать соотноше- ние между входным и выходным сигналами в следующем виде: t ОО y(t) = S h(t— s)u(s) = 2 h(s)u(t — s). (2.1) S=—oo S=0 Прежде всего необходимо убедиться, что выражение (2.1) имеет смысл. Если сумма конечна, то трудностей не возникает, ибо в этом случае выходная переменная у есть просто взвешен- ная сумма случайных величин. При бесконечной сумме в выра- жении (2.1) необходимо сначала доказать, что сумма сходится. В гл. 2 дано несколько понятий сходимости, которые можно ис- пользовать для случайных величин. Выберем среднеквадрати- ческую сходимость. Для доказательства сходимости ряда (2.1) составим последовательность Коши h (s) и (t — s}. s=n
Динамические системы со случайными входными сигналами 105 Имеем S (s) u(t~ s)]2 = £ Zj Е h (s) h (s') u(t — s)u(t — s') — S—n s—ns'—n — S h(s)h(s')ru(t— s, t — s'). (2.2) s,s'=n Поскольку {u(t), t еТ} — случайный процесс второго порядка, Еиг(f) < а <оо. Следовательно, \ru (t, s)| < Vra(t, t)ru (s, s) < a. Если динамическая система асимптотически устойчива, полу- чаем \h (s)| < а* при |а| < 1. Таким образом, оказывается, что, выбирая m и п достаточно большими, сумму (2.2) можно сделать произвольно малой. Тог- да бесконечная сумма (2.1) существует в смысле среднеквадра- тической сходимости и, следовательно, процесс {y(t), t еТ} есть случайный процесс второго порядка. Перейдем к исследованию свойств этого процесса. Определим среднее значение y(t): my (/) = Еу (f) = E 2 h (s) и (t — s) = s=9 = Y,h(s)Eu(t-s) = £h(s)mu(t— s). (2.3) s=0 s=0 Третье равенство следует из теоремы 6.2 гл. 2. Таким образом, среднее значение выходного сигнала получим в результате про- хождения через динамическую систему среднего значения вход- ного сигнала. Для определения ковариационной функции выходного сиг- нала вычтем выражение (2.3) из выражения (2.1) и получим разность между сигналом и его средним значением: У (t) — me(t) = Ylh (s) [и (t — s) — mu (t — s)]. s=0 Итак, эта разность проходит через систему так же, как и сигнал. Вследствие этого в дальнейшем можем считать, что среднее значение сигнала равно нулю. Это упростит запись формул.
106 Глава 4 Принимая, что входной сигнал имеет нулевое среднее значе- ние, получим ковариационную функцию ry (s, t) = Еу (s) y(t) = E ^h(k)u(s — k) S h (I) u(t—l) = A=0 Z=0 — S S h (ty h (1) Eu (s — k) и (t — I) = ft=0Z=0 = S yLh(k)h(l)ru(s— k, t — I), (2.4) fe==0Z=O где третье равенство следует из теоремы 6.2 гл. 2. Найдем также уравнение для ковариации входного и выход- ного сигналов ruy (s, f) — Ей (s) у (/) = Ей (s) 2 h (I) и (t — I) = z=o = У h (I) Eu (s)u(t — l) = ^h (I)ru (s, t — I). (2.5) z=o 1=0 Итак, при условии, что заданы система (2.1), описываемая ве- совой функцией, среднее значение mu(t) и ковариационная функ- ция ru(s, t) входного сигнала, мы нашли среднее значение mv(t) и ковариационную функцию ry(s, t) выходного сигнала Сформулируем выводы в теореме 2.1. Теорема 2.1. Рассмотрим асимптотически устойчивую дина- мическую систему с дискретным временем. Пусть входной сиг- нал и — случайный процесс второго порядка со средним значе- нием mu(t) и ковариацией ru(s, t). Тогда выходной сигнал у (/) = (п) u(t — п) (2.1) п=0 существует в смысле среднеквадратической сходимости. Выходной сигнал {//(/), t еТ} есть случайный процесс второго порядка со средним значением ту (0 = L h (n) ти (t — п) (2.3) п=0 и ковариацией ry(s,t) = f S h(k)h(l)ru(s— k,t— I). (2.4) k=0 1=0
Динамические системы со случайными входными сигналами 107 Ковариацию между входным и выходным сигналами систе- мы можно представить соотношением ruy(s,t)= £h(l)ru(s,t— I). 1=0 Если входной сигнал {«(/), t еТ}—нормальный процесс, то и выходной сигнал {y(t), t ct} —нормальный процесс. Это утверждение не доказывается, оно следует из того фак- та, что сумма нормальных величин есть нормальная величина. Стационарные процессы Рассмотрим стационарные процессы и запишем полученные результаты в иной форме. Если входной сигнал — стационарный процесс ’, имеем mu (t) = та = const, ru(s,t) = ru(s — t). Уравнения (2.3) — (2.5) сводятся соответственно к следующим уравнениям: ту = ти S h (2-6) k=Q ry(s,t) = J] Yih(k)h(.l)ra(s — t + I — k), (2.7) oo ruy(s, t) = £h(l)ru(s~t + l). (2.8) /=0 Таким образом, среднее значение выходного сигнала есть по- стоянная величина, a ^(s, t) и ruy(s, t) — функции только разнос- ти s — Л Итак, если входной сигнал стационарен и система ус- тойчива, то выходной сигнал также стационарен. Уравнения (2.6)-—(2.8) можно еще более упростить, если ввести спектральные плотности и передаточные функции. Обозначим через Н передаточную функцию системы с диск- ретным временем, т. е. изображение или г-преобразование от весовой функции: H(z) = £ z~~nh(n). (2.9) n=0 1 Рассматривается стационарность в широком смысле. — Прим. ред.
108 Глава 4 Уравнение (2.6.) принимает вид ту = Н (l)*mw. (2.10) Спектральная плотность сру выходного сигнала связана с гу со- отношением оо *1»=— S (2.11) П=—оо где гу <п) = ry tt + 0- (2-12) С помощью уравнения (2.7) получаем °° оо оо <₽»= it S ^л<й^Е,1(А)Л(/)г“(п+/_^)= П——оо k=0 1=0 = 17 S S S e~ik<°h eila h ® e-i(n+,"*)“ ru (n + I — k) = n=—оо Л=0 /=0 = (6) (/)-!- jp e"M“ru(n). Л=0 1=0 n=—<x> Используем определение передаточной функции системы с дис- кретным временем (2.9) и получим ф, (Ю) = Н (e~ia) Н (ei<D) Ф„ (о). (2.13) Функция спектральной плотности, связанная с ги2/(т), опре- деляется выражением го = S (2-14) П=—оо Обозначим ruu(n) =ruy(t + n,t) (2.15) и получим из выражений (2.14) и (2.8) оо оо ф"» (“> " S h w r- ('" + о - n=—OO /t=0 = T- S yeltah(l)e-iin+‘)a,ru(n + [) = п=—оо 1=0 оо оо = V’e,'z“/i(Z)— V 4 2п L 1=0 п=— оо е-1™ги(п).
Динамические системы со случайными входными сигналами 109 Используем определение передаточной функции дискретной си- стемы и получим <₽„,(«) = Я Ф(со). (2.16) Выводы сформулированы в теореме 2.2. Теорема 2.2. Рассмотрим стационарную дискретную систему с передаточной функцией Я (г). Пусть входной сигнал — ста- ционарный случайный процесс со средним значением ти и спект- ральной плотностью <ри(о). Если данная система асимптотиче- ски устойчива, то выходной сигнал, определяемый выражением (2.1), есть стационарный случайный процесс со средним значе- нием ту = Н(\)ти (2.10) и спектральной плотностью Ф» = Я (е-“°) Я (е“°) Ф„ (to) = |Я (ег“)|2 фи (со). (2.13) Взаимная спектральная плотность входного и выходного сигна- лов определяется выражением ФИ!/(со) = Я (е~‘“) Ф„ (<о). (2.16) Замечание 1. Полученный результат имеет простую физиче- скую интерпретацию: |Я(е’®) | есть амплитуда выходного сигна- ла в устойчивом состоянии при входном сигнале sin ю t. Спект- ральная плотность выходного сигнала фу(со) равна произведе- нию усиления по мощности \H(eia>) |2 и спектральной плотности входного сигнала фи(со). Замечание 2. Уравнение (2.16) часто используется для опре- деления передаточной функции динамической системы. Напри- мер, если входным сигналом является белый шум, т. е. фи(ш) = = 1, то из соотношений (2.8) и (2.16) получаем rUy(t) — h(— f) И ф„» = я(Ж“). Следовательно, измеряя взаимную ковариацию или взаим- ную спектральную плотность входного и выходного сигналов, получим весовую или передаточную функции дискретной сис- темы. Упражнения 1. Для линейной динамической системы y(t) + ay(t— l) = e(t) + ce(t— 1),
110 Глава 4 где у — выходной сигнал, а входным сигналом {е(0} является последовательность независимых нормальных случайных вели- чин с параметрами (0,1), определить ковариационную функцию выходного сигнала и взаимную ковариацию входного и выходно- го сигналов. 2. В данной книге ковариационная функция стационарных процессов определяется выражением гху (т) = Е [х (/ + т) — Ex (t + т)] \у (/) — Еу (/)]. Ковариационную функцию стационарных процессов можно оп- ределить также выражением г*у (т) = Е[х (/) — Ех (/)] [у (t + т) — Еу (/ + т)’. В этом случае условия теоремы 2.2 изменяются. Показать, что выражение (2.16) принимает вид Фад(®) = Я (?“)<₽«(<*), а выражения (2.10) и (2.13) остаются без изменения. 3. Теорема 2.1 легко обобщается на нестационарные систе- мы. Рассмотреть систему t y(t) = S g(^s)M(s), S—оо где {«(s), s=..., —1, 0, 1, ...} — случайный процесс с ковариаци- онной функцией ru(s, t). Показать, что при соответствующих ус- ловиях ковариационная функция выходного сигнала у опреде- ляется формулой s i Гу («. 0 = S Е g (s. k) ГU (k, I) g (t, I). k=—ОС 1=—oo Найти эти условия. 4. Пусть {u(t), teT} и {y(t), t eT} —случайные процессы, свя- занные уравнением y(t') + a(t—\)y{f— 1) = u(t}. Показать, что г иу (s, 0 + a (t — 1) ruy (s, t—\) = ru (s, t), rytl (s, /) + a (s — 1) ryu (s — 1, t) = ru (s, t), ry(s, f) + a(t — 1)ry{s, t — 1) = ryu(s, t). 5. Обобщить результаты упражнения 4 на случай, когда задан- ные процессы связаны соотношением y(t) + a^t— l)y(t— 1) 4-----— n)y(t — n) = = «(/) + &!(/—!)«(/— 1) + • • • 4- bn (t — ri) и (t — ri).
Динамические системы со случайными входными сигналами 111 6. Для стационарного процесса {y(t), teT}, определяемого выражением y(t) + ay(t— l) = e(t) + ce(t— 1), |а| < 1, где {e(t), t еТ} —стационарный процесс с ковариационной функ- цией г(т)=ехр(—а | т |), определить ковариационную функцию и спектральные плотности е и у и ковариационную функцию и взаимную спектральную плотность между е и у. 3. СПЕКТРАЛЬНОЕ РАЗЛОЖЕНИЕ ПРОЦЕССОВ С ДИСКРЕТНЫМ ВРЕМЕНЕМ Рассмотрим стационарную систему с дискретным временем, которая асимптотически устойчива. Пусть Н (z) — ее передаточ- ная функция, а белый шум — входной сигнал. Тогда из теоремы 2.2 следует, что выходным сигналом системы будет стационарный в широком смысле процесс со спектральной плотностью <р9 (о) - Н (e~la) Н (eia>) = \Н (ег“)р. (3.1) Естественно задать вопрос, можно ли все функции спектральной плотности записать в виде произведения Д(е‘“) Если это можно, найти функцию Н. Это задача спектрального разло- жения. Если бы спектральное разложение было всегда возмож- но, все стационарные процессы можно было бы представлять как выходные сигналы динамических систем с белым шумом на вхо- дах. В этом случае теория динамических систем, подверженных случайным воздействиям, и их моделирование были бы значи- тельно проще, так как было бы достаточно анализировать систе- мы с белым шумом на входе и иметь только генераторы белого шума. Решение задачи спектрального разложения в общем случае довольно сложно. Однако если ограничить рассматриваемый класс функций спектральных плотностей, то данную задачу мож- но легко решить. Передаточная функция H(z) динамической системы конечно- го порядка является рациональной функцией z. Следовательно, спектральная плотность <ру (со) является рациональной функцией е‘“ или cos «в. В этом случае случайный процесс называется про- цессом с рациональным спектром или процессом с рациональ- ной спектральной плотностью. Решение задачи спектрального разложения для таких процессов сформулировано в теореме 3.1. - Теорема 3.1. (Теорема спектрального разложения). Для ста- ционарного случайного процесса с рациональной спектральной плотностью <р существует рациональная функция Н с полюсами
112 Глава 4 внутри единичного круга и нулями внутри единичного круга или на нем, такая, что <р (со) = Н Н (eia) = \Н (e£w),|2. Замечание 1. Отметим, что для получения единственного раз* ложения важно потребовать, чтобы функция Н в теореме 3.1 не имела нулей и полюсов вне единичного круга. Рассмотрим, на- пример, спектральную плотность 1,25 + coso) (e*® + 0,5)(e“*Q +0,5) Ее можно разложить следующими способами: #i(*) = г + 0,2 г + 0,5 ’ H2(z) = 1 +0,2z = 0,2 г+5 , г + 0,5 г+0,5 Hs(z) = г+0,2 _oz + 0,2 1 +0,5г г + 2 ’ Я4(г) = 1 +0,2г = Qt4.L±JL' 1 + 0,5г 2 + 2 Заметим, что только Н{ не имеет нулей или полюсов вне единич- ного круга. Это означает, что устойчивы две системы с переда- точными функциями Hi и 1///1. Как будет показано в гл. 6, этот факт очень важен для теории фильтрации. Доказательство. Доказательство основано на простых свой- ствах рациональных функций. Незначительная трудность появ- ляется только при доказательстве устойчивости. Поскольку <р(со) —рациональная функция от имеем п (ef“ —«;) <P((O) = CV“X+------------. (3.2) П (е£“-₽,) Л=1 Так как ср — интегрируемая функция, величина не может иметь модуль 1. Так как ср — вещественная функция, справедливо равенство ф(©) = ф (со), где через а обозначена сопряженная а величина. Имеем (е‘‘“ — а*) = (е-»’® — a.'k] = e~te> a'k (1;с^ — .
Динамические системы со случайными входными сигналами 113 Следовательно, <р(®) = ф(ш) = се'ш(“-Х) ___________ n ₽fe 1/₽А-Л А=1 Каждому нулю a'k числителя соответствует другой нуль 1/а*. Если имеет модуль больше 1 , то 1/а^ имеет модуль меньше 1. То же самое справедливо для знаменателя. Имеем z| = |ег“ | • |ф-‘“- 1/2| = |г| • |ef<a- 1/й|. Выражение (3.2) для спектральной плотности можно записать в следующем виде: <Р (со) = С- п/1 . 2 *=1 П (^'“-Pz) Z=1 (3.3) (3.4) <'Де о<ы<1, о < |₽zl < 1. С>0. В этом выражении есть a'k или l/a'k, причем половина членов имеет модуль меньше 1 и половина с модулем 1. В результате получаем п/2 2 S akei(i> (n/2~k) Л(?«) а_. k=0 d ЛлсЛ tn/2 (m/2-Z) /=0 где полином B(z) имеет все нули внутри единичного круга, а A(z) —все нули внутри или на единичном круге. Так как функ- ция ф(со)—вещественная, то каждому нулю аъ, соответствует другой нуль az=a/t. Таким образом, коэффициенты полиномов А и В — вещественные функции. Итак, найдена рациональная функция <3-5> ..все полюсы которой лежат внутри единичного круга, а все ну- ли— внутри или на единичном круге, т. е. теорема 3.1 доказана. Теорема 3.2 есть прямое следствие теоремы 3.1. 8-403
114 Глава 4 | Теорема 3.2 (теорема представления). Для заданной рацио- нальной функции спектральной плотности ф(со) существует асимптотически устойчивая линейная динамическая система, та- кая, что при воздействии на ее вход белым шумом с дискретным временем ее выходным сигналом будет стационарный процесс со спектральной плотностью ср(со). Доказательство. Из теоремы 3.1 следует, что существует ра- циональная функция Н с полюсами и нулями внутри круга еди- ничного радиуса, такая, что справедлива формула (3.1). Рас- смотрим дискретную динамическую систему с передаточной функцией Н. Пусть входным сигналом системы будет белый шум с дискретным временем. Поскольку рассматриваемая сис- тема устойчива, из теоремы 2.2 следует, что выходной сигнал системы есть стационарный процесс со спектральной плотно- стью ср. Замечание 1. Из теоремы 3.2 вытекает очень важное утверж- дение: если анализ ограничить стационарными процессами с ра- циональными спектральными плотностями, то все такие процес- сы могут быть получены при пропускании белого шума через устойчивую динамическую систему. Это означает, что анализ динамических систем может быть ограничен рассмотрением си- стем с белым шумом на входе, т. е. стохастическими моделями состояний, рассмотренными в гл. 3. Аналогично при моделиро- вании системы достаточно иметь источник белого шума. Поме- хи с рациональными спектральными плотностями можно легко получить при фильтрации белого шума динамической системой. Замечание 2. Из теоремы 3.2 также следует, что процесс с рациональными спектральными плотностями можно предста- вить в виде t y(t) = У h(t — k)e(k), (3.6) k=—ОО где {е(/), t=..., —1, 0, 1,...} — последовательность независимых одинаково распределенных случайных величин. Предположим, что существует преобразование, обратное преобразованию (3.6), т. е. что существует функция g, такая, что верно соотношение е(0 = У — (3.7) I——оо Тогда, если известны y(t), y(t—1), .... то известны и e(t), e(t—1) Таким образом, обе последовательности содержат одну и ту же информацию. Рассмотрим процесс «4-1 «/(/+!)= У h(t+\-k)e(k) = k=—оо
Динамические системы со случайными входными сигналами 115 t = S Л(/+1—6)е(&) + Л(0)е(/-Н) = /?=—ОО t k = £ h{t + \-k) s g(k-i)y(i) + k—— 8 t=—°° + h(O)e(t+ 1). Итак, y(t+l) может быть записана в виде суммы двух членов: один из них является линейной функцией от y(t), y{t—1), а другой член есть /г(О)е(!‘+1). Таким образом если выражение (3.6) имеет обратное преобразование, то функция е(£-Н) мо- жет быть представлена как та часть у(/+1), которая содержит новую информацию, отсутствующую в y(t), y(t—1),... . Поэтому случайные переменные е(/) в выражении (3.6) называются по- рожденными процессом {y(f), t tT}, а форма (3.6) называется порожденным представлением этого процесса. Это разложение важно для задач фильтрации и предсказания. Выражение t k £ h(t + l-k) £ g(k — l)y(l) k——oo I——oo фактически есть наилучшее среднеквадратическое предсказа- ние процесса у(/+1), основанное на y(t), y(t—1),... . Подроб- но этот вопрос рассмотрен в гл. 6 и 7. Упражнения 1. Дискертный стационарный случайный процесс имеет спектральную плотность { ч 2 + 2 cos со ф (й = ——------. 5 + 4 cos со Найти спектральное разложение и определить передаточную функцию дискретной устойчивой системы, которая при воздейст- вии на ее вход белого шума давала бы на выходе сигнал с за- данной спектральной плотностью ср. 2. Пусть у(0-е(/) + 4^(/-1) — процесс скользящего среднего, где {е(0} есть последователь- ность независимых нормальных случайных величин с парамет- рами (0, 1). Показать, что процесс с такой же спектральной плотностью может быть получен при условии, что y(t) ==%[8(O + C8(Z— 1)], 8*
116 Глава 4 где {е(0}—последовательность независимых нормальных слу- чайных величин с параметрами (0, 1) и |с|<1. Определить па- раметры с и X. 3. Рассмотреть нормальный стационарный процесс {у(/)}, который порождается суммой у (0 = *i(0 + хг (0, хх(/ + 1) = — ахг (/) + v^t), *2 (.t + 1) = — bx2 (/) + v2 (/), где {t»i(0} и {^2(0}—последовательности независимых нор- мальных случайных величин с параметрами соответственно (0, ui) и (0, ог)- Показать, что случайный процесс с такой же спектральной плотностью можно получить следующим образом: у(0 = ь , , •е(0» (? + а) (<7 + Ь) где q — оператор сдвига (qy(t)=y(t-}-\)) и {е(0}—последова- тельность независимых нормальных случайных величин с пара- метрами (0, 1). Определить параметры % и с. 4. Показать, что случайные процессы {y(t), t еТ} и t еТ}, представленные в виде xft + 1) = 0,8х(0—1,2е<0, y(t) = x(t) + e(t) и x(t + 1) = 0,8х(/) + 0,6е(0, z (t) = x (t) 4- 2e (/), имеют одну и ту же спектральную плотность. Здесь {е(0, teT}—последовательность независимых нормальных случайных величин с параметрами (0, 1). 4. АНАЛИЗ СИСТЕМ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ ПРИ СЛУЧАЙНЫХ ВХОДНЫХ ВОЗДЕЙСТВИЯХ Рассмотрим системы и процессы с непрерывным временем. Анализ полностью аналогичен случаю систем с дискретным временем, который изложен в разд. 2 и 3. Итак, рассмотрим стационарную динамическую систему с одним входом и и одним выходом у. Пусть система описывает- ся весовой функцией h(t}. Соотношения между входным и вы- ходным сигналами при этом имеют следующий вид: у(/) = J h(t — s)u{s)ds = \^h(s)u(t— s)ds. (4.1) -------ОО 0
Динамические системы со случайными входными сигналами 117 Пусть входным сигналом является случайный процесс второ- го порядка. Необходимо выяснить, имеет ли смысл интеграл (4.1). Для этого рассмотрим сначала случай конечных пределов интегрирования. Из теоремы 6.2 гл. 2 следует, что если интеграл (4.1) рассматривается как среднеквадратический предел сумм по Риману, то он существует в том случае, когда ковариация rw(s, /) входного сигнала непрерывна по всем аргументам. Та- ким образом, выражение а J h (s) и (t — s) ds о имеет смысл для конечного а. Чтобы найти, существует ли следующий предел: а lim f h (s) и (t — s) ds, образуем последовательность Коши ь I (a, b) = J A (s) и (t — s) ds. a Имеем ь EF (a,b) — E J J h (s) u(t — s)h (s') u(t — s') dsds' = a b = ^h(s)h (s') ru(t—s,t — s') dsds'. a Если динамическая система асимптотически устойчива, то спра- ведливо условие |/z(s)|<K.e-“s, а>0. Поскольку {u(t), t еТ}—случайный процесс второго порядка, получим ru (s, t) < Ей2 (/)<р < оо. Следовательно, ЕР(а,Ь)^0 при а, Ь-^оо. Итак, искомый предел существует. Получаем, что- Еу2 (t) < const < oo. Следовательно, выходной сигнал рассматриваемой динамичес-
418 Глава 4 кой системы есть случайный процесс второго порядка. Найдем его среднее значение и ковариационную функцию. Имеем ти (t) — Ey(t) = E^h (s) и (t — s) ds — [ h (s) m„ (t — s) ds. (4.2) 6 о Из теоремы 6.5 гл. 2 следует, что операторы Е и ( коммутатив- ны. Таким образом, среднее значение входного воздействия проходит через систему как детерминированный сигнал. Определим ковариационную функцию выходного сигнала. Имеем (s,/) = cov [г/(«),«/(/)] = = cov рг (s') и (s — s') ds' (s") u(t — s")ds"l = 6 о = J J h (s') h (s") cov [m (s — s'), u(t — s") ds'ds"] = 6 = J J h (s') h (s") ra(s — s',t — s") ds'ds". (4.3) Возможность изменения порядка интегрирования следует из тео- ремы 6.5 гл. 2. Имеем также (s, /) = cov [и (s), у (/)] = оо — cov [ц (s), J h (s') u(t — s') ds'J = 0 co — h (s') cov [u (s), и (t — s')] ds' = 0 = h (s') ru (s, t — s') ds'. (4.4) 6 Выводы сформулированы в теореме 4.1. Теорема 4.1. Рассмотрим непрерывную динамическую систе- му с весовой функцией /г(/). Пусть входной сигнал и — ста- ционарный случайный процесс второго порядка со средним зна- чением mu(t) и ковариационной функцией rw(s, t). Если рас- сматриваемая динамическая система асимптотически устойчи- ва и ru(s, t) —непрерывная функция, то интеграл у (/) = J h (s) u(t — s) ds (4.1) о
Динамические системы со случайными входными сигналами 11£ существует как среднеквадратический предел сумм по Риману. Выходной сигнал {y(t), t е7} есть случайный процесс со сред- ним значением (/) = J h (s) mu (t — s) ds (4.2) b и ковариационной функцией Гу (s,t) = J J h (s') h (s") ru (s — s' ,t — s") ds'ds". (4.3) 6 J Взаимная ковариационная функция входного и выходного сиг- налов имеет вид гау (s. О = f h (s') ru (s, t — s') ds'. (4.4) 6 Если входной сигнал имеет нормальное распределение, то и вы- ходной сигнал имеет нормальное распределение. Стационарные процессы Ограничимся рассмотрением стационарных процессов. Если входной сигнал — стационарный в широком смысле процесс, то* ти (О “ mu = const, ru(s,t) = ra(s—t). Из теоремы 4.1 получаем оо ту — та J h (s) ds, (4.5). о ry (s,t) = j* J h (s') h (s") ru (s — t — s' + s") ds'ds”, (4.6). b ruy(s,t)=C\ h(s')ru(s — t + s')ds'. (4.7) о Поскольку эти уравнения представляют собой свертки, то их можно упростить, вводя преобразования Фурье или Лапласа. Через <ри обозначим спектральную плотность входного сигнала и, через G —передаточную функцию динамической системы оо Ч>« (®) = J е~‘аХга (т) dr, (4.8) —оо
120 Г лава 4 G(s)= ^e~sth(t)di. (4.9) о Тогда из уравнений (4.5) — (4.7) получаем = m„»G(0), (4.10) оо I e~imry(x)dx = — ОО ~ ~2л J e~im j f (s') h Га <r~s' + s ”) ds'ds"dx = •—ОО 0 ОО ОО ОО = — f dx (ds' (ds"e~ias’h (s') ei(as’h (s’) x 2л J .1 J --OO 0 0 X e~ie> (T~s'+s\„ (t — s' + s') = G (tco) G (— i(o) <p„ («>), (4.11) OO <P«£ И = j e~taXrUy fr) dx = ----------------OO OO OO = v- ( e~ten ) h (s') ru <T + s') ds'dx = 2Л J J — oo 0 OO oo = J dr J dseia>s'h (s') e~la ^'>ru (r + s') = = G (— kd) <p„ (co). (4.12) Выводы сформулированы в теореме 4.2. Теорема 4.2. Устойчивая динамическая система имеет пере- даточную функцию G. Входной сигнал — стационарный в ши- роком смысле случайный процесс со средним значением ти и ^спектральной плотностью <ри(<в). Если динамическая система асимптотически устойчива и если ги (0) = J (со) dco < а < оо, (4.13) то выходной сигнал есть стационарный в широком смысле про- цесс со средним значением ту =G(0)-ma (4.10)
Динамические системы со случайными входными сигналами 121 и спектральной плотностью <ру (<в) = G (йо) G (—йо) Ф„ (®). (4.11) Взаимная спектральная плотность входного и выходного сигналов есть фод (®) = G (— /®) <р„ (со). (4.12> Замечание, Поскольку теорема 4.2 аналогична теореме 2.2, то физическая интерпретация идентична. Условие (4.13), кото- рое не имеет аналога в теореме 2.2, гарантирует то, что диспер- сия входного сигнала конечна. Это основное различие между процессами с непрерывным и дискретным временем. 5. СПЕКТРАЛЬНОЕ РАЗЛОЖЕНИЕ ПРОЦЕССОВ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ Этот раздел посвящен спектральному разложению и пред- ставлению процессов с непрерывным временем. Основополага- ющие идеи аналогичны идеям для систем с дискретным време- нем, рассмотренных в разд. 3. Однако анализ в этом случае бо- лее сложный, так как приходится рассматривать белый шум с непрерывным временем. Говорят, что случайный процесс с непрерывным временем имеет рациональную спектральную плотность, если спектраль- ная плотность ф(со)—рациональная функция от со. Задача спектрального разложения заключается в том, чтобы найти ра- циональную функцию G, полюсы которой имеют отрицательную вещественную часть, а нули имеют неположительную вещест- венную часть, так что G(s)G(— s) = ф (s), (5.1) где ф — рациональная спектральная плотность. Решение этой задачи дано в теореме 5.1. Теорема 5.1. (теорема спектрального разложения). Пусть Ф — рациональная спектральная плотность. Тогда существует рациональная функция G, у которой все полюсы расположены в левой полуплоскости, а все нули — в левой полуплоскости или на мнимой оси так, что Ф (со) = G(ko)-G(— /со). (5.1) Доказательство. Спектральная плотность процесса есть чет- ная функция. Следовательно, m п («2-г;2) ф(®) = с-^—!—-------. (5.2)
122 Глава 4 Так как функция ср интегрируется в пределах (—оо, оо), то т< <Zn и р\ —невещественное число. Поскольку ср — неотрицатель- ная функция, действительные величины zk должны всегда появ- ляться парами. Тогда множители, соответствующие веществен- ным z'k, всегда могут быть разложены следующим образом: Так как ср — вещественная функция, то т _ <р (й) = ф (и) = с — — ’ где z — комплексно сопряженная величина относительно z. Ес- ли — нуль для <р, то и —z^ zk и —z'k—также нули. Множи- тели, соответствующие чисто мнимым z'k, можно разложить в виде (®2—= (— О [И)2 - (гХ)2] = (— 1) [1‘® — izk] = = (- 1) (s + izk) (s-izk). Множители, соответствующие комплексным zk, можно пред- ставить в виде (®2 - г;2) (со2 - гй2) = (® + z') (со - zk) (со + zj) (со - zft) = = (tco + izk) (Йо — izk) (йо + £*) (ico — izj = = [s + izk] [s~ 4] [s- (^)] [s + K)J = = (s2 + s [izk + (i^j] + 1412} {s2- s [izk + + (M+I2*H- Итак, спектральная плотность может быть представлена следущим образом: ( = В (ico) В (—ico) (5 3) т ’ A (ia) А (—ico) где полином А ($) можно выбрать так, чтобы он имел все нули в левой полуплоскости, a B(s) имел все нули в левой полуплоскости илина мнимой оси. Тогда рациональная функция G(s>=^t (5'4> удовлетворяет поставленным условиям.
Динамические системы со случайными входными сигналами 123 Теорема представления в этом случае более сложная, чем для процессов с дискретным временем. Рассмотрим стационар- ную динамическую систему с весовой функцией h(t) и переда- точной функцией G(s). Если бы теорема 4.2 была применима в том случае, когда входным воздействием является белый шум, т. е. фи((о) = 1, то получили бы, что спектральная плотность вы- ходного сигнала определяется формулой Ф (со) = G (/со) G (— /со). Однако теорему 4.2 нельзя применить для этого случая, ибо условие (4.13) не выполняется, когда входной сигнал имеет вид белого шума. Отметим также, что в этом случае интеграл, пред- ставляющий соотношение между входным и выходным сигна- лами, t ОО y(t) = J h(t—s)u(s)ds = J h(s)u(t — s)ds (5.5) —oo 0 не имеет смысла (сравнить это с выводами в разд. 6 гл. 3). Однако интеграл (5.5) существует, если входной сигнал и — ог- раниченный по полосе белый шум. В этом случае возможно (см. гл. 3 разд. 6) представление сигнала в виде t оо y(t)— у h(t — s)dv(s)= h(s)dv(t— s), (5.6) —oo 0 где {у(0, teT}—случайный процесс с ортогональными прира- щениями, имеющий среднее приращения mdt и ковариацию приращения cdt. Если весовая функция h ограничена, то из разд. 5 гл. 3 сле- дует, что интеграл существует. Для доказательства существова- ния интеграла в бесконечных пределах образуем выражение ь i Е [ [ h (/ — s) dv (s)J2 < max h2 (t — s)E |J" dv (s)J2 = a acs^b = c(b — a) max /г2 (t — s). a^s'b Так как динамическая система асимптотически устойчива, то |/г(Г)| а > 0. Таким образом, ь —s)dy(s)p~^O при max (а, b) -> оо. а По критерию Коши интеграл в бесконечных пределах (5.6) су-
124 Глава 4 J h (t — s) Edv (s) = ществует и, следовательно, случайный процесс {y(t), teT} есть процесс второго порядка. Найдем среднее значение и ковариационную функцию. Из свойств стохастического интеграла следует, что / t — Е J h(t — s)dv(s) = t = J h(t — s)m(s) ds (5.7) и s / r (s, t) — Ey (s) у (f) = E J J h(s — s')h(t — t')dv(s')dv(t') = -----------------OO - OO t — J h(s — s')h(t — s') cds' = —— oo = c j h (s— t + s') h (s') ds'. (5.8) 6 Если m — постоянная, среднее значение у также постоянно. Кроме того, ковариационная функция r(s, t)—функция разно- сти (s—/) и, следовательно, {y(t), teT}—стационарный в ши- роком смысле случайный процесс. Спектральная плотность процесса {y(t), t еТ} определяется соотношением оо <Р (®) = -Г- i e~‘®Tr (т) dr = — оо оо оо h (т + s') h (s') ds'dr = ---OO 0 oo oo = _£_ । ela,'h(s')ds' ^e~i&{x+s'}h (x +s') dr. ---OO — oo Так как h — весовая функция, то А(/)=0 для Следова- тельно, оо оо ф (со) = -£- J ele>s'h (s') ds' f e~i<AS h (s') ds' = 0 0 = G (— i«>) G (ico), (5.9)
Динамические системы со случайными входными сигналами 125 где G — передаточная функция системы, которая является пре- образованием Лапласа от h. Выводы сформулированы в теоре- ме 5.2. Теорема 5.2. (теорема представления). Если спектральная плотность ф(со) —рациональная функция, то существует асимп- тотически устойчивая стационарная динамическая система с ве- совой функцией h, такая, что случайный процесс t y(t)= ^h(t — s)dv(s) — оо [{^(/), teT}—процесс с ортогональными приращениями] яв- ляется стационарным процессом и имеет спектральную плот- ность ф. Эта теорема имеет такую же физическую интерпретацию, как и теорема 3.2. Если преобразование (5.6) имеет обратное преобразование, то представление (5.6) называется порожден- ным представлением процесса {y(t}, teT}. Упражнения 1. Выполнить спектральное разложение для спектральной плотности со4 -j- 8со2 4" 1 и дать представление соответствующего процесса в виде (5.6). 2. Стационарный случайный процесс имеет ковариационную функцию г (т) = е~1x1 cos 2т. Найти представление этого процесса в виде t y(t) = $ h(t — s)dv(s), — оо где {t»(0> teT} —процесс с нулевым средним и ортогональными приращениями. Пусть приращение дисперсии есть dt. Показать, как можно было бы моделировать этот процесс на аналоговой машине с генератором белого шума. 3. Стохастические стационарные и нормальные процессы {%(/), teT} и {у(/), teT} имеют спектральные плотности 1 — (О2 + 1 ’ ~ о2+ 4 ’
126 Глава 4 = 1 ~ <о«+ ia> + 2 ' Дать представление векторного процесса в форме (5.6). 6. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА Результаты, представленные в теоремах 2.1, 2.2, 4.1 и 4.2, известны уже давно. Они изложены в работах [1—5]. Понятие спектрального разложения было введено Винером в работе [6]. Результат основан на известной теореме Винера — Пэли: действительная неотрицательная интегрируемая с квадратом функция <р(©) может быть представлена разложением вида ф(©) = ^(й)^(—(д), (6.1) где g(a>) —преобразование Фурье от функции f, которая равна нулю для неотрицательных аргументов, если f Поет(«)|_^<оо J 1 + со2 ' Доказательство этой теоремы дается в работе [7]. Винер также доказал, что спектральное разложение в общем случае имеет вид g (®) = —!— f e~iMdt (* <р (и) eiut du. (6.3) 2л<р (со) .) J О -«5 Для процессов с дискретным временем условие для спектраль- ного разложения определяется выражением Л J 11о§ф (а>) | dco <оо. (6.4) —Л Задача спектрального разложения тесно связана с задачами фильтрации и упреждения, которые рассматриваются в гл. 6 и 7. Алгоритмы, приведенные в этих главах для прогнозирования, могут быть использованы для выполнения спектрального раз- ложения. Многомерный вариант задачи спектрального разложения имеет много интересных аспектов [8]. Идея представления стохастического процесса в виде выход- ного сигнала динамической системы, входным сигналом которой является бельш шум, старая. Можно показать, что это справед- ливо при значительно более общих условиях, чем дается в тео- ремах 3.2 и 5.2.
Динамические системы со случайными входными сигналами 127 В работе [9] показано, что дискретные стационарные про- цессы можно представить в виде х (/) = s(/) + у спи (t—n), (6.5) n=Q где {u(t)}—последовательность ортогональных случайных ве- личин, {.$(/)}—сингулярный процесс и З^сходится. Это изве- стная теорема разложения Волда. Крамер показал, что стационарный процесс, который не со- держит сингулярных компонент, можно представить в виде оо x(t)= J ei<aidv(o), (6-6) — оо где {у(0, —oo<Z<oo}—процесс с ортогональными прираще- ниями и спектральной плотностью F(Z). Стохастический процесс, представляемый разложением вида t х (0 — Д s) dv (s), (6.7) t 0 где {ц(/)}—процесс с ортогональными приращениями, имеет ковариационную функцию min (s,t) г (s,t) = j f (s, t) f (t, t) dR (t), (6.8) to где R (0- 7?(s) = E [u(Z) - ?($)]*. В работе [10] показано, что справедливо и обратное утвер- ждение, т. е. процесс с ковариационной функцией (6.8) имеет представление (6.7). Представление (6.7) называется разложе- нием Карунена — Лоэва. В работе [11] подробно рассмотрено понятие о порожденных представлениях. 1. James Н. М., Nichols N. В., Phillips R. S., Theory of Servomechanisms, McGraw-Hill, 1947. Русский перевод: Джеймс X., Никольс Н., Филипс Р., Теория следящих систем, ИЛ, М., 1951. 2. Laning J., Battin R. Н., Random Proccesses in Automatic Control, McGraw- Hill, 1956. Русский перевод: Лэнинг Д. Ж- X., Бэттин Р. Г., Случайные процессы в задачах автоматического управления, ИЛ, 1958. 3. Davenport W. В., Root W. L., An Introduction to the Theory of Random Signals and Noise, McGraw-Hill, 1958. Русский перевод: Давенпорт В. Б., ... Рут В. Л., Введение в теорию случайных сигналов, ИЛ, 1960. 4. Newton G. С., Gould L. A., Kaiser J. Е., Analytical Design of Linear Feed- back Controls, Wiley, 1957. Русский перевод: Ньютон Дж. К., Гулд Л. А., Кайзер Дж. Ф., Теория линейных систем, Физматгиз, 1961.
128 Глава 4 5. Солодовников В. В., Статистическая динамика линейных систем автомати- ческого управления, Физматгиз, 1960. 6. Winer N., Extrapolation., Interpolation, and Smoothing of Stationary Time Series, MIT Press Cambridge, Massachusetts and Wiley, N. Y., 1949. 7. Paley R. E. A. C., Wiener N., Fourier Transforms in the Complexs Domain, Am. Math. Soc. Colleg. Publ., 19, N. Y., 1934. 8 Youla D. C., On the Factorization of Rational Matrices, IEEE Trans, on Information Theory, IT-7, 172—189 (1961). 9. Wold H., A Study in the Analysis of Stationary Time Series, Almqvist and Wiksell, Stockholm, 1938. 10. Karhumen K., Zur Spektraltheorie Stochastischer Prozesse, ANN. Acad. Sci. Fennicae, A-34, 7—79 (1946). 11. Kailath T., An Innovations Approach to Least Squares Estimation, Part 1: Linear Filtering in Additive White Noise, IEEE Trans. Automatic Control, AC-13, 646—655 (1968).
Глава 5 ПАРАМЕТРИЧЕСКАЯ ОПТИМИЗАЦИЯ 1. ВВЕДЕНИЕ В предыдущих главах рассмотрены методы анализа динами- ческих систем, входные сигналы которых являются случайными процессами. В этой главе показано, как можно использовать эти методы для синтеза систем управления. При этом предпола- гается, что наряду с системой управления задается ряд пара- метров, которые можно выбрать произвольно. Рассмотрен воп- рос о выборе параметров для оптимизации работы системы. Предполагается, что система может быть описана линейными уравнениями, а эффективность — средним значением функции потерь, которая представляет собой квадратичную функцию от- носительно переменных состояния системы. Задачу параметрической оптимизации можно разделить на две части: 1) оценка эффективности, 2) параметрическая оптимизация эффективности. Иногда оптимизацию удается провести аналитически, но в большинстве случаев приходится использовать численные мето- ды. Известно большое количество численных методов; некото- рые из них требуют только оценки функции потерь, другие тре- буют оценки градиентов и, возможно, производных более высо- кого порядка. Оказывается, что оценка производных функции потерь — задача, аналогичная задаче оценки самой функции потерь. Поэтому основное внимание уделено оценке функции потерь. К решению задачи можно подойти, используя либо времен- ной, либо частотный анализ. Частотный анализ приводит к за- данию оценки интегралов типа f G(s)G(—s)ds —i oo ИЛИ где G, H—рациональные функции комплексного переменного. Более подробное исследование проведено для систем с дискрет- 9—403
130 Глава 5 ным и непрерывным временем (разд. 2 и 3). Интересно отме- тить, что системы с непрерывным и дискретным временем тре- буют одинакового объема работы и одинаковой степени слож- ности. Временной анализ приводит к уравнению типа Р(/ + 1) = ФР(/)ФГ + Я1 для систем с дискретным временем или к уравнению — = АР + РАТ +Я, dt для систем с непрерывным временем. Частотные методы решения для систем с дискретным и не- прерывным временем описаны в разд. 2 и 3. В связи с задачей восстановления состояния «шумящего» объекта при наличии шума в измеряемых характеристиках рассмотрен временной анализ. Используя некоторые эвристические соображения, по- лучают структуру преобразователя. В этот преобразователь вхо- дит ряд неизвестных параметров, которые выбираются таким образом, чтобы минимизировать среднеквадратическую ошибку восстановления. В гл. 7 будет показано, что полученная эврис- тическим путем структура фильтра является оптимальной. Та- кие преобразователи представляют собой фильтры Калмана. Временной анализ для систем с дискретным и непрерывным временем дан в разд. 4 и 5. Интересно отметить, что параметры могут фактически зависеть от времени. 2. ОЦЕНКА ФУНКЦИИ ПОТЕРЬ ДЛЯ СИСТЕМ С ДИСКРЕТНЫМ ВРЕМЕНЕМ Постановка задачи В гл. 4 разработаны методы анализа линейных систем с по- мехами, которые можно считать случайными процессами. Спек- тральная плотность реакции стационарных линейных систем, помехи которых являются стационарными случайными процес- сами с рациональными спектральными плотностями, имеет вид ф(со) = Я(г)Я(г-1). где г—е1а и Н — рациональная функция. Дисперсия определя- ется выражением Л л о2 = ( ф (со)da = Y (я (/“) Н (ё~‘а) e~iad (е'“) = —Я —л
Параметрическая оптимизация 131 где § —интеграл вдоль единичной окружности в комплексной плоскости. Для вычисления дисперсии сигнала в этом случае необходимо найти оценку интеграла ,Д±Х»И?Н.А, (2J, J A (z) A (z-1) z где А и В — полиномы с действительными коэффициентами: A (z) = aQzn + a^z1 1 + • • • (2.2) В (г) - + blZn-x +-"+Ъп (2.3) и — интеграл вдоль единичной окружности по часовой стрел- ке. Множитель 1/2л введен для удобства. Предположим также, что ао>О- Интеграл (2.1) можно оценить, используя теорию вычетов. Оказывается, однако, что такие представления неудобны для систем высокого порядка. Поэтому мы дадим рекуррентные формулы для оценки интеграла (2.1), которые удобны для вы- числений. Обозначения и предварительные замечания Заметим, что интеграл (2.1) всегда существует, если много- член А (г) устойчив, т. е. если все его нули лежат внутри еди- ничного круга. В этом случае всегда существует устойчивая ди- намическая система с передаточной функцией B(z)/A(z), а ин- теграл (2.1) равен дисперсии реакции системы на белый шум. Если А (г) имеет нули на единичной окружности, то интеграл (2.1) расходится. Если A(z) имеет нули как внутри, так и вне единичного круга, но не на границе, то интеграл (2.1) сущест- вует. В этом случае всегда можно найти полином, все нули ко- торого лежат внутри единичного круга, такой, что А (г) А (г-1) =A(z)A (г-1), и интеграл представляет собой дисперсию выходного сигнала устойчивой динамической системы с передаточной функцией Однако на практике при анализе динамической системы по- лучаем интеграл, соответствующий передаточной функции B(z)1 /А(г). В этом случае очень важно проверить, имеет ли знаме- натель A(z) передаточной функции все нули внутри единично- го круга, так как в противном случае динамическая система неустойчива, хотя интеграл (2.1) и существует.
132 Глава 5 Для представления результатов в простой форме введем не- которые обозначения. Пусть А* — полином, определяемый фор- мулой А* (г) = гпА (г-1) = а0 + ахгН---(2.4) Введем многочлены Ak (г) = + ••+«*, (2.5) Bk (г) = bkQzk + + • • • +bkk, (2.6) которые определяются рекуррентно по формулам ЛА_1(г) = 2-1{Л(г)-а6Л:(г)}, (2.7) (г) = г"1 {Bk (г) - р* X (2){, (2.8) где ak = akk/ao, (2.9) Pft = &M (2.10) Л„(г) = Л(г), (2.11) В„(г) = В(2). (2.12) Таким образом, коэффициенты многочленов Ah и В& заданы ре- куррентными формулами а?-1 =а-~ akaLi, i = 0,l,...,fe—1, (2.13) b1~l = bkt — i = 0,1 —1, (2.14) с начальными условиями а" = а<, (2.15) &? = &>. (2.16) Чтобы эти уравнения имели смысл, необходимо потребовать для всех выполнения условия =#0. Коэффициент а$ всег- да можно выбрать ненулевым. В теореме 2.1 сформулированы необходимые и достаточные условия. Теорема 2.1. Пусть >0, тогда эквивалентны следующие условия: 1. Полином Xfe(z) устойчив. 2. Многочлен Ak-i(z) устойчив, и ао-1>О. Можно доказать, применив несколько раз эту теорему, что ес- ли полином Ak-i(z) устойчив, то все коэффициенты а^1 поло- жительны. Для доказательства теоремы 2.1 рассмотрим следу- ющую лемму:
Параметрическая оптимизация 133 Лемма 2.1. Пусть полином f(z) с вещественными коэффици- ентами имеет все корни внутри единичного круга. Тогда при | z | < 1, при | z | = 1, при | z | > 1. 1/(г)| = И*(г)| Доказательство. Пусть f(z) = Р П (z — а,),|а,.| < 1, k=l тогда п f* (z) = р П (1 — a,, z). Введем W(Z) = ^L^ A = ГГ f*(z) Ц1-а(г 11 1—a(Z где щ — постоянные, комплексно сопряженные относительно аь Последнее равенство вытекает из того, что f имеет действи- тельные коэффициенты. Если сц является нулем полинома f, то ai также будет его нулем. Рассмотрим преобразование z —at 1 — az- z Оно переводит внутренность единичного круга в себя, т. е. еди- ничный круг является инвариантом преобразования. Преобра- зование п п ^(z) = n^i (z)= П t=l t=l Z—QLj 1 — ai z /(г) Г (г) также обладает этими свойствами, и лемма доказана. Доказательство теоремы 2.1. Сначала покажем, что из ус- ловия 1 вытекает условие 2. Если соблюдается условие 1, то из леммы 2.1 следует, что |лио)| < | л;<о)|. Но Ak(0) = a£ и Л* (0) = а£. Отсюда |aj = I4'a5| < 1. (2.17) Из~уравнения (2.13) получим = ak0 - = [« - (<] /«о > 0.
134 Глава 5 По предположению теоремы а£>0. Так как ?U(z) устойчив, то из леммы 2.1 следует 1Л(*)1>М*(г)| при |z|> 1. Учитывая условие (2.17), получим |Л(г)| > |aft|-| Л*(х)| для |zi 1. Из формулы (2.7) вытекает, что | z I • | Ак-1 (г) I = IA k (z) — ak А * (z) | > ' A k (z) | — | a J • | Ак (z) I > О для |z|>l. Это означает, что Ak-i(z) не имеет корней вне единичного кру- га. Таким образом, первая часть теоремы доказана. Предположим теперь, что соблюдается условие 2. Тогда йо-1 = йо— (ак)2/ао = [(йо)2 — (4)2]/йо > 0. Так как по предположению а£ >0, то |а*| = 14 4|< 1. Из формулы (2.7) следует, что Ak (г) — ак A"k (z) = zAk_i (z). (2.18) Отсюда zft Ak (z-1) - ak zk a; (z-1) = /-1 (z-1) ИЛИ A'k (z) — ak Ak(z) = (?) (2.19) Исключая A*k (z) из выражений (2.18) и (2.19), получим Ak (z) = Ak-i (z) + (z). 1-4 i-4 Так как |аь| <1, то такое исключение всегда возможно. При |z|^l получим (лемма 2.1) | Ak-i (г) | > | Л*_1 (г) |. Так как |a*|<l, то для любого z, |z| 1, получим Ил(г)|> Z 1-4 | ЛА-1 (z) | — «<г 1-4 | Ak-i (г) > 0. Полином Ak(z) не имеет нулей вне единичного круга, и теоре- ма доказана. Выше показано, что условие а§>0 для всех k необходимо для устойчивости Л(з). Докажем, что верно и обратное утвер-
Парамегрическая сттилшзация 135 ждение. Допустим, что а§>0 для всех k. Тривиальный полином Ло устойчив, так как а§>0. Из теоремы 2.1 следует, что Л1 ус- тойчив. Применяя несколько раз теорему 2.1, докажем, что по- лином Ak устойчив. Отсюда вытекает, что если полином Az име- ет все нули внутри единичного круга, то ^>0 при всех k. Ес- ли хотя бы один из коэффициентов ak0 неположителен, то си- стема с передаточной функцией B(z)/A(z) неустойчива. Выво- ды сформулированы в теореме 2.2. Теорема 2.2. Пусть £">0, тогда эквивалентны следующие ус- ловия: 1. ^n(z) устойчив, 2. а5>0 при & —0,1,...,п—1. Основной результат Покажем, что интеграл (2.1) можно вычислить рекурсивно. Для этого введем интеграл Д: / = —_вНг)дИг У . _А (2 20) 2л< у Ak(z)Ak{z~x) z Из выражения (2.1) следует, что 1=1П- Докажем теорему 2.3. Теорема 2.3. Пусть все корни полинома А (г) лежат внутри единичного круга, тогда интеграл Д удовлетворяет рекуррент- ному уравнению [1 — al]/*-! =/ft —pt (2.21) /о = ₽0. (2.22) Доказательство. Так как A (z) имеет все нули внутри единич- ного круга, то из теоремы (2.2) имеем, что все ак отличны от нуля. Таким образом, из формул (2.7) и (2.8) следует, что все полиномы Ak и Bk можно определить. Далее из теоремы 2.2 сле- дует, что все полиномы Ak имеют все нули внутри единичного круга. Следовательно, все интегралы Ik существуют. Для доказательства теоремы используем теорему об анали- тических функциях. Сначала допустим, что полином А (г) име- ет простые корни, отличные от нуля. Интеграл (2.20) равен сумме вычетов в полюсах функции Bk(z)Bk(z~x)l {zAh(z) X ХАй(г-1)} внутри единичного круга. Так как интеграл инвари- антен относительно замены переменных г-^-1/z, то интеграл бу- дет равен также сумме вычетов в точках вне единичного круга. Рассмотрим теперь интеграл Д—1 = 1 Ж Bk~x (г-1) А. • 2я' J Ak-i <z) Ak-i <2-1) г
136 Глава 5 Полюсы подынтегрального выражения находятся внутри еди- ничного круга в точке z=0 и в нулях г,- полинома Ah-i(z). Так как Лй_1(2^)=0, то из формул (2.7) и (2.4) находим (гг) = afc А'к (г,-) = ак zf Ак (zf* 1). Рассматривая это уравнение совместно с выражениями (2.7) и (2.4), получим Ak-i (г?1) = zz [Ак (z?1) — ак Ак (г?1)] = = [ЛЛ (г?1) — ак zTk Ак (г,-)] = = (1 — а^-ЛДгГ1). Из формул (2.4) и (2.7) также находим ЛД. (?) = A*k (г) — аА, Ак (г). Следовательно, Л*_1 (0) = Ak (0) — ak Ак (0) = до — а* 4 = ао (1 — а*). Функции Д*_1 (г) Д*_1 (г *) 1 _ 4—i (2) 4—i (г) 1 Ак_г (г) Ак_г (г"1) ’ z ~ А^ (г) А*_г (г) ' г И 4-1 (г) 4-1 (г-1)____1 _ 4-1 (г) gfe-i <г) 1 Лл_1(г) [г (1(г"1)] 2 4^ (г) [(1-а*) 4*(г)] 2 внутри единичного круга имеют одинаковые полюсы и одинако- вые вычеты в этих полюсах. Следовательно, 1 Л-i = 1 X U) (2 dz ’ 2л1 У 4_1(Z)4(Z-’) ’ 22 1 Г 4-Jz)4-i (г-1)& ‘ 2«Z У 4 (2)4^ (г"1) 1 (2.23) где второе равенство получается в результате замены перемен- ной Подынтегральное выражение имеет полюсы в ну- лях и из формулы (2.7) находим Л*-1 (г-1) = г {Ак (г-1) — ак Л* (z~’)) = г {Ак (г-1) — ак z~k Ак (z)}. Следовательно, для нулей Zi полинома Л^(г) получим Ak-i (гГ1) = г;Лй (г?1).
П араметрическая оптимизация 137 Функции (*) (z *) Ak (z) (г"1) И ^fe_1 (z) ^fe-i (z ’) i _ Вй_1 (Z) Bk_x (г) Ak^Ak{z~'} ' 2 ~ Ak таким образом, имеют одни и те же полюсы внутри единичного круга и одинаковые вычеты в этих полюсах. Следовательно, ин- тегралы этих функций вдоль единичного круга равны. Из урав- нения (2.23) получаем jk j — 1 1 X 1 Bk—i (г~~*) dz l-a2 2ш ^(гМДг-1) ' г Учитывая (2.8), находим _ 1 Х[дУ-рУ(2)] ЫИ-риУ)] х 2ltI j Ak (г) Ak (г-1) х — = —1 X <г) У2"1) dz _ г 2ni у Лй(г)ЛА(г-1) ’ z Pfe ХВУ ^У) dz 2ni у Ak(z)Ak(z-1) ’ * _ Р* X 4M(r4 . dz + 2«i У Л^гМДг-1) ’ г + Pfe X Ak^ Ak (г-1) _ dz 24) 2я« у Лй(г)Лй(г-!) z Первый интеграл равен h- Второй интеграл можно преобразо- вать следующим образом: pfe X Bk <2) 41г~') . dz = pfe X Bk (z) Ak (z) . dz = 2ш J Л<2)4(2-1) 2 2ni J Ak(2) Ak (z) z _ p* - p/*(0) p* --p2, 2™ ’ z РУ(0) k 4 k> где первое равенство следует из формулы (2.4), третье — из те-
138 Глава 5 оремы о вычетах, а пятое — из формулы (2.10). Аналогично можно доказать, что третий интеграл в правой части выраже- ния (2.24) также равен р^. Используя формулу (2.4), преобразуем четвертый член пра- вой части выражения (2.24): Pfe X Ak^Ak(z dz __ Pfe I? dz __ o2 2jlt J AkMAk(z~'} z 2ni J 2 В итоге получаем выражение (2.21). При & —0 из выражения (2.20) получаем Таким образом, доказаны формулы (2.21), (2.22) для слу- чая, когда A(z) имеет простые корни. Если А имеет кратные или нулевые корни, то всегда можно так изменить коэффициенты, чтобы новый полином имел простые ненулевые корни. В этом случае уравнения (2.21) и (2.22) будут также справедливы. Так как ak и Р/г являются непрерывными функциями параметров, то выражения (2.20) и (2.21) имеют место и тогда, когда А имеет кратные корни. Заметим, что из выражения (2.13) следует, что do 1 — do — oCkCik = do (1 — o^). Уравнение (2.21) можно записать в виде do Ik—1 = ^0 Ik — Pfc ИЛИ «j Ik = dk} 1 Zas—i + Pjfe bk = do 1 h-i + (bk^do. Следствие 2.1. Интеграл Ik определяется формулой 1=0 Методы вычислений Получив в теореме 2.3 рекуррентную формулу, обратимся к вычислительным методам. Чтобы получить интегралы, вычис- лим сначала коэффициенты полиномов Ak(z) и Bk(z). Это мож- но легко сделать с помощью следующих таблиц:
Параметрическая оптимизация 139 а0 н1...ап1 ап b0 bi--bn-i ьп ап an-vai «О ап ап-Г"а1 а0 п—\ п—1 ап—1 ,п-1 Utl—1 1 «о "'п—1 I ,Л—1 пп—1 1 ап~} Qn~~1 an-i ап^2"'ио an-i ип-2'"ио «О «1 bo b} CL\ CLq О,} CL) nQ pfi a0 »0 Каждая четная строка таблицы коэффициентов А (А-таблица) получается путем записи коэффициентов предыдущего ряда в обратном порядке. Четные строки А- и В-таблиц имеют одина- ковые коэффициенты. Элементы нечетных строк обеих таблиц получаются из двух элементов таблицы с помощью преобразо- вания a?-1 = aki — ak akk-i, ak = akk a*, (2.1 > bT1 ^^b^al (2.14) Используя критерий устойчивости из теоремы 2.2, получим, что все нули полинома A (z) лежат внутри единичного круга, ес- ли все коэффициенты положительны (в таблице они выде- лены жирным шрифтом). Получив коэффициенты и |3ь, не- трудно вычислить значение интеграла (2.25). Заметим, что для проверки устойчивости полинома A(z) не- обходимо составить только Л-таблицу. Следовательно, для вы- числения интеграла I необходимо приблизительно в два раза больше выкладок, чем для проверки устойчивости полинома А (2). Пример Для иллюстрации вычислим интеграл для А (2) = г3 + 0,7г2 + 0,5z — 0,3, B(z) = z3 + 0,3г2 + 0,2г + 0,1. Составим следующую таблицу: <4 1 0,7 0,5 —0,3 1 0,3 0,2 0,1 0,3 0,5 0,7 1,0 —0,3 -0,3 0,5 0,7 1,0 0,1 0,91 0,85 0,71 1,03 0,25 0,13 0,71 0,85 0,91 0,780 0,71 0,85 0,91 0,143 0,356 0,187 0,929 0,129 0,187 0,356 0,525 0,187 0,356 0,361 0,258 1 0,861 3,338
140 Глава 5 SUBROUTINE SALOSS A, В, N, IERR, V, IN; c C PROGRAM FOR EVALUATING THE INTEGRAL OF THE RATIONAL C FUNCTION C 1 /(2*PI*I;*B Z)*BU/Z)/(AlZj*AJ Z;(* 1 Z; C AROUND THE UNIT CIRCLE C C A-VECTOR WITH THE COEFFICIENTS OF THE POLYNOMIAL C A(1)*Z**N + A'2)*Z**(N - 1) 4- • • + A(N + 1) С B—VECTOR WITH THE COEFFICIENTS OF THE POLYNOMIAL C B(1)*Z**N + B(2)*Z**(N - 1) + • • • -J- B(N + 1 C C THE VECTORS A AND В ARE DESTROYED C C N—ORDER OF THE POLYNOMIALS A AND В (MAX 10; C IERR—WHEN RETURNING IERR = 1 IF A HAS ALL ZEROS INSIDE UNIT C CIRCLE IERR = 0 IF THE POLYNOMIAL A HAS ANY ROOT OUTSIDE C OR ON THE UNIT CIRCLE OR IF A(l) IS NOT POSITIVE С V—THE RETURNED LOSS C IN—DIMENSION OF A AND В IN MAIN PROGRAM C C SUBROUTINE REQUIRED C NONE C DIMENSION A(IN), B(IN), ASH1) C AO — A(l) IERR = 1 V = 0.0 DO 10 К = 1, N L = N + 1 ~ К LI = L + 1 ALFA = A(L1)/A(1) BETA = B(L1)/A(1) V = V + BETA*B(L1) DO 20 I = 1, L M = L + 2 - I AS(T A(I) - ALFA*A(M) 20 B(I) - B(I) - BETA*A(M) IF (AS(D) 50, 50, 30 30 DO 40 I = 1, L 40 A(I) = AS(I) 10 CONTINUE V = V + B(l)**2/A(l) V = V/A0 RETURN 50 IERR = 0 RETURN END
Параметрическая оптимизация 141 Находим /=2,9488. Приведенные формулы пригодны для вычисления на ЭВМ. Программа на Фортране приведена на стр. 140. Упражнения 1. Вычислить интеграл (2.1) для A (z) = z2 + 0,4z 4- 0,1, В (г) = z2 + 0,9z + 0,8. (Ответ/=1,565079.) 2. Простая система управления запасами может быть описа- на уравнениями z(0 = /(z-i) + ^(0-5(0, где/—уровень запасов, Р— продукция, $ — величина сбыта, и — решение, k — задержка продукции. Допустим, что уровень запасов удовлетворяет условию и (0 = а [/0 — / (/)] • Определить дисперсию колебаний продукции и уровня запасов, если колебания сбыта можно описать последовательностью не- зависимых одинаково распределенных случайных переменных с нулевым средним и стандартным отклонением а. 3. Доказать, что интеграл /, определенный формулой (2.1), можно представить как первую компоненту Xi вектора решений линейного уравнения Сравнить количество вычислений, необходимых при оценке интеграла как решения линейного уравнения, с количеством вы-
J42 Глава 5 числений, необходимых при оценке интеграла с помощью теоре- мы 2.1. 4. Если функция Ak~\ определяется по формуле (2.7), то по- стоянный член в выражении для Ah равен нулю. Показать, что результат, аналогичный теореме 2.3, можно получить, используя соотношения ak ak bk О)=Л(г)--^(г), “о в которых члены Примечание. Ik = высших порядков в полиномах Ak равны нулю. Ч \ 2 1 Л , + 2-^ММ 5. Вывести рекуррентный алгоритм для оценки интегралов _1_ f В(г)3(г-.) г, _ii ) iz У A (z) A (z-i) 2л i у А (г) A (z-*) 6. Проверить, что программа на Фортране (стр. искомый результат. 140) дает 3. ОЦЕНКА ФУНКЦИИ ПОТЕРЬ ДЛЯ СИСТЕМ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ Постановка задачи Рассмотрим задачу, изложенную в разд. 2, для линейных стационарных динамических систем с непрерывным временем. Предположим, что помеха представляет собой стационарный случайный процесс с рациональной спектральной плотностью, Выражение для дисперсии можно представить интегралом вида /= — f В {s)B (~ ds, (3.1) 2л1 J A (s) А (— s) —i оо где А и В —полиномы с рациональными коэффициентами: Л (s) = aosn + 1 + • • • + an—i s + а,., (3.2) в ($) = Ь^"-1 + • • • + s + Ь\ (3.3) В этом разделе рассматривается оценка интеграла (3.1), кото- рый можно также интерпретировать как дисперсию реакции на
Параметрическая оптимизация 143 белый шум устойчивого фильтра с передаточной функцией #(s)A4(s). Если полином Л($) не имеет нулей на мнимой оси, то интеграл (3.1) существует. Заметим, что степень полинома В должна быть по крайней мере на единицу меньше, чем степень полинома А. Физическая интерпретация аналогична интерпрета- ции, рассмотренной в разд. 2. Обозначения и предварительные замечания Для формулировки окончательного результата примем не- которые новые обозначения. Введем вначале разложение поли- нома X(s) на четные и нечетные члены: Л(з)=Л(з)+Л(з), (3.4) где А (з) =flosn + а2з"-2 + • • • = у [А (з) + (- 1)" А (- з)], (3.5) 4(з) = ^s"-1 + a3s"~3 + • • • == -j- [Л (s) — (— 1)"Л(— з)]. (3.6) Введем также полиномы Аь(в) и Вд(з), степени которых не пре- восходят и, Ak (s) = a* sk + a* s*-1 Н---1- akk, (3.7) Bk (s) = b* + b* +••. + &*, (3.8) а коэффициенты определяются из рекуррентных уравнений Ak_i (s) = Ak (s) — ak sAk (s), (3.9) вл_1(5) = вй(5)-рЛ(5). <3-10) где aft = a*/a*, (3.11) ₽ft = W. (3.12) Л„(з) = Л(з), (3.13) B„(s) = B(s). (3.14) Полиномы Ak-i и Bfe-i можно, очевидно, определить только при a£=/=0. Необходимые и достаточные условия возможности такого представления сформулированы в теореме 3.1. ' Теорема 3.1. Пусть а£>0, тогда эвивалентны следующие ус- ловия: 1. Все нули полинома Ль(з) лежат в левой полуплоскости.
144 Глава 5 2. Все нули полинома Ak-i (s) лежат в левой полуплоскости, и коэффициенты erf положительны. Докажем предварительно следующую лемму: Лемма 3.1. Если все нули полинома f(s) с действительными коэффициентами лежат в левой полуплоскости, то \f (S)l < |/(- S)|, Re s < О, = Re s = О, lf(s)l > |f(—s)|, Re s > 0. Доказательство. Так как нули полинома f лежат в левой по- луплоскости, то f (s) = 0 П (8 — аг), Re а, < 0. 1=1 Следовательно, Н—8) = РП(—8 —а,) = рП(—s —а,). 1=1 1=1 Введем функцию ie,(s) = _H£L=n^z^_. ' /(-«) * »—s-оц i=i Рассмотрим преобразование — s a i + s ’ &i (S) которое отображает комплексную плоскость так, что левая по- луплоскость переходит внутрь единичного круга. Преобразование п п O»{s) = И (8) = П = а/ -f- & t=l t=i f(s) f(~ s) обладает аналогичными свойствами, следовательно, утвержде- ние леммы доказано. Доказательство теоремы 3.1. Докажем сначала, что из усло- вия 1 вытекает условие 2. Пусть а% >0, и предположим, что все нули полинома Дь($) лежат в левой полуплоскости. Доказательство положительности проведем от противно- го. Итак, предположим, что неположительны. Пусть s — дей- ствительное достаточно большое положительное число. Тогда получаем неравенство |Лл($) | < | (Л*(—$) |, что противоречит
Параметрическая оптимизация 145 лемме 3.1. Аналогично можно доказать, что отличны от нуля. Чтобы доказать, что все нули полинома Aa-i(s) лежат в ле- вой полуплоскости, заметим, что из выражений (3.6) и (3.9) следует 4-1 («) = (1 - vH(s) + {~ 0.15) Полином A^-i(s) имеет степень k—1. Поэтому достаточно до- казать, что все нули обратного полинома 4-i (s) = s*-1 Ak_. (s"1) = s-2[(s - Л* (s) -f- + у(-1)М‘(-5)] (3.16) лежат в левой полуплоскости. Вместо анализа выражения (3.16) используем подстановку и рассмотрим функцию F (s, а) = з~* [(s - -2-) A*k (з) + у (~ 1 )* 4 (- «)] , (3.17) где а — произвольное действительное число из интервала (О, зд). Заметим, что F^a^sA’-Js). (3.18) Так как А* не имеет нулей в правой полуплоскости, то из лем- мы 3.1 следует, что I4(S)|>I41— s)|> Re s>0. Выберем теперь такое з, что Re s>0 и s—— j > —I. Из не- I 2 | I 2 I равенства треугольников получаем IF (j, «)1 - is-1; | (s - f) a; (s) + f a- (- s) | > >ls-1 [|s - f | |Л; (s)| -|f |-]A-t (- s)|] > 0. Таким образом доказано, что функция F не имеет нулей в мно- жестве Это множество представлено на рис. 5.1. Отсюда следует, что F не имеет нулей в правой полуплоскос- ти. Для доказательства используем непрерывность аргумента. 10—403
146 Глава 5 Так как F — непрерывная фун- кция по а, то ее нули также непрерывны по а. Заметим, что F (s,0) = Л* (s). При а=0 все нули F лежат в левой полуплоскости. Так как F не имеет нулей на множестве S [выражение (3.19)], то при увеличении а ни один нуль не может пересечь мнимую ось при з=/=0. Следовательно, оста- ется единственная возмож- ность — появление нулей в пра- вой полуплоскости при возра- стании а. Но F (0, а) = а* — аа* >0, 0 а < а,. ' о * я Поскольку при увеличении а функция F(s,a) может обратиться в нуль только при а=ао/«1 = ал, причем это будет единствен- ный нуль, постольку F'(0, ай)=а^>0. Итак, функция F(s, aft) может иметь единственный нуль вне левой полуплоскости. Чтобы доказать, что из условия 2 следует условие 1, предпо- ложим, что все нули Ah-i (з) лежат в левой полуплоскости и что а* и а* положительны. Из уравнений (3.6) и (3.9) получаем А-, И - А (°) + (-1Г а, (-«). А-, (-») = (1 + “) А (- s) - (_ 1)* ад л (s). Исключая Ак(—s) из этих выражений, находим А (») - (1 + v) At_, И - (- i)'?f A-i (- ») Так как и a\ положительны, то а* также положительны. Для s, удовлетворяющих условию Re s^O, получим Поскольку все нули полинома Д&-1($) лежат в левой полупло- скости, можно применить лемму 3.1. Таким образом, |A-i (з)] > (- s)|, Re. з > 0.
Параметрическая оптимизация 147 Объединяя эти два неравенства, получим |1 + 11Л-. <s)| > I v| И*-. <- * R= 5 > °- Следовательно, И» <s>l = |(! + v)л*-'(s) -V А‘-> <~s>l» ' I1 + vl Л-1 (s,l Ivl 'И»-. <- s>l > °' Re s > “ Таким образом, полином ДДз) не может иметь нулей в правой полуплоскости, что и требовалось доказать. Применив несколько раз теорему 3.1, найдем, что если все нули полинома A (s) лежат в левой полуплоскости, то все нули полиномов k=n—1, п—2, ..., О, также лежат в левой по- луплоскости и коэффициенты положительны. Обратно, если все коэффициенты положительны, то все корни полинома A (s) лежат в левой полуплоскости. Теорема 3.2. Пусть а">0, тогда эквивалентны следующие условия: 1. Все корни полинома Д($) лежат в левой полуплоскости. 2. Все коэффициенты положительны. Основной результат Покажем, что интеграл (3.1) можно вычислить рекурсивно. Для доказательства введем Ik = — [ (~£_ ds, 2ni .1 X*(s) А*(—s) где полиномы Ak и Вь определяются формулами (3.9) и (3.10). Нетрудно заметить, что 1п=1. Основной результат сформулиро- ван в теореме 3.3. Теорема 3.3. Предположим, что все корни полинома А лежат в левой полуплоскости, тогда В2 4 = 41 + “. /г = k 2aft 4> = о. Доказательство. Доказательство теоремы основано на эле- ментарных свойствах аналитических функций. Так как коэффи- циенты a.k и Ра являются непрерывными функциями коэффици- ентов полинома, то теорему достаточно доказать для частного случая, когда корни полиномов Л*(з) и Ла(з) различны. to+
148 Глава 5 Так как все нули полинома Д($) лежат в левой полуплоско- сти, то из теоремы 3.1 вытекает, что все коэффициенты а\ по- ложительны. Следовательно, полиномы ?U(s) можно определить по формулам (3.9) и (3.10). Из теоремы 3.1 следует также, что все нули полиномов Д&,($) лежат в левой полуплоскости. Кроме того, все нули полиномов Ak(s) лежат на мнимой оси. Из раз- ложения (3.6) следует, что 4(~ 5) = (- 1Л’Л(8). Из леммы 3.1 получаем \Ak (s)| = -j- 14 (s) - (-1)* Ak (- s)| > A (14 (s)| - -4(s)l) = 0, Re s > 0. Из выражений (3.4) —(3.6) находим Ak (- s) = Ak (- s) + Ak (- s) = (- 1 )» Ak (s) + (- 1 f-1 Ak (s) = = (- 1)* [Ak (s)—Ak (s)J = (- l)Mfe (s) + 2Ak (- s). (3.20) Рассмотрим функции —1 ($) &k—i ( s) (321) ^k—i (5) Ak—i (—5) 1 ($) &k—1 (— $) Ak-A^^Aki-s) (3.22) Они имеют одни и те же полюсы Si в левой полуплоскости, удов- летворяющие уравнению Ak-i ($;) =0. Функция (3.21) имеет, кроме того, полюсы в правой полуплоскости, а функция (3.22) имеет полюсы на мнимой оси. Для полюсов, которые лежат в левой полуплоскости, по- лучим 4-1 К) =А(8г)-4\Л(з£) = о, (3.23) 4-i ( s£) = 4 ( s£) + 4 si 4 ( = = Ak (— st) + ak Si (— 1 )*-1 Ak (st) = = Ak (- 8,.) + (- I)*-1 Ak {Si) = 2Ak (- s,), где первое равенство следует из выражения (3.9), второе — из (3.6), третье — из (3.23), а четвертое — из (3.6).
Параметрическая оптимизация 149 Так как Л^-1(5) имеет простые полюсы, то функции (3.21) и (3.22) имеют одинаковые вычеты в полюсах зг. Интегрируя функции (3.21) и (3.22) по контуру Г/ (рис. 5.2), который со- стоит из отрезка прямой, отстоящего от мнимой оси, и полукру- га, построенного на этом отрезке как на диаметре, получим 1 1* 1 ($) Bk—i (— s) 2ni.J Л*-1 (—s) --1 ОО-£ 1 (s) 1 (—$) Ak~! (s) 2 Ak (— S) 8 0, (3.24) Рис. 5.2. Получение кон- тура Ге предельным пере- ходом из Г/ при Рис. 5.3. Получение контура Гг предельным переходом из Гг при 7?->оо. так как подынтегральное выражение стремится к нулю как |$|”2 при больших s, интегралы вдоль сегмента обращаются в нуль. Рассмотрим теперь функции 1 ($) ^k—y) (— $) /U-1 (s) 2Ak (— S) Bk—i (s) Bk—i (— s) Ak (s) 2 Ak (— s) (3.25) (3.26) Они имеют одинаковые полюсы на мнимой оси, которые совпа- дают с полюсами Ак. Они не имеют полюсов в правой полупло-
150 Глава 5 скости, так как полиномы Ak и Ak-\ не имеют нулей в правой полуплоскости. Так как Ak(Si) =0, то 4-1 W = 4 (SP - % s<4 М = 4 (s4 Если полюсы Si различны, то функции (3.25) и (3.26) имеют в точках s, одинаковые полюсы. Интегрируя функции (3.25) и (3.26) по контуру Гг, который состоит из отрезка прямой ли- нии, отстоящего от мнимой оси, и сегмента (рис. 5.3), получим . С (S Bfe~' (~S) ds = 2я/J Л-,(5)2Л(-«) = — (’ -s) ds, e > 0, (3.27) так как подынтегральное выражение при больших |s| стремит- ся к нулю как |s|~2, интеграл вдоль сегмента обращается в нуль. Рассмотрим функции &k—1 (s) —1 ( з) 28) Ak(s)Ak(—s) ’ ’ ' i (s) 1 ( s) ^2 29) Ak (s) 2 Ak (— s) Они имеют одинаковые полюсы в левой полуплоскости, которые совпадают с нулями Ah. Функция (3.28) имеет также полюсы в правой полуплоскости, а функция (3.29) имеет полюсы на мнимой оси. Для полюсов, лежащих в левой полуплоскости, ДИ«г) = 0. (3.30) Из выражения (3.20) следует, что 4(-зг) = (-!)* 4 (s,)+ 24 (-S/). (3.31) Так как по предположению нули полинома Ak не совпадают между собой, то функции (3.28) и (3.29) имеют одинаковые вычеты в полюсах левой полуплоскости. Интегрируя функции (3.28) и (3.29) по контуру Г; (рис. 5.2), получим I = — f Bk~' Bk~' 5) ds — k I Отт t i J Ак (s) 2Ak (- s) 1 Г Bfe-1 (s) Bk-i (— S) ds 2л j J Ak (s) Ак (— s) 8>0, (3.32)
Параметрическая оптимизация 151 так как при увеличении радиуса подынтегральное выражение стремится к нулю как |s|~2 при большом |s|. Из уравнения (3.10) получим 1 С (s)Bk(— s) _Jk ( адли-з)_ds 2ni J 2л/ J 4($)4(- s) —ix—-z —£ Pfe i ($) ( s) । * fe i Ak ( $) 33) 2ni J Ak(s)Ak(— s) ' 2лi J Ak (s) (— s) Функции Bk (s) Ak (—s) Ak(s)Ak(—s) ’ Bk ($) Ak (—s) Ak (s) 2^(-s) (3.34) (3.35) имеют одинаковые полюсы в левой полуплоскости, которые сов- падают с нулями полинома А&. Так как по предположению эти нули различны, то из выражений (3.30) и (3.31) следует, что функции (3.34) и (3.35) в этих полюсах имеют одинаковые вы- четы. Интегрируя (3.34) и (3.35) вдоль контура Г/ (рис. 5.2), по- лучим 1 ’ Г£ Bk(s)Ak (—s) ds = 1 С Bk (s)Ak(—s) 2ni J Ak (s) Ak (—s) 2лг J Ak (s) Ak (— s) —i <»—s 11 1 1 f Bk(s) d3___ 1 , 2ni r? X*(s) 2 Л*(—s) 2nt^24ft(s) 2 a* (3.36) где первое равенство вытекает из того, что интегралы вдоль сег- мента исчезают, так как при большом |s| подынтегральное вы- ражение стремится к нулю как |s | “2. Второе равенство обуслов- лено тем, что оба подынтегральных выражения имеют одинако- вые полюсы внутри контура и одинаковые вычеты в этих полюсах. Третье равенство доказывается как тождество. Так как все нули Ak лежат в левой полуплоскости, то контур Г/ мож- но заменить окружностью с центром в начале координат без изменения значения интеграла. Учитывая, что подынтегральное выражение Bk(s)/2Ak(s) имеет полюс в бесконечности с выче- том Ь\ /(2а%), получим требуемое равенство.
152 Глава 5 Аналогично находим 1 Г Ak(s)Ak(—s) ds _ 1 f 2fe(s )Л(—s) ds = 2nLl 2-^Us)2%A(_S) = _L f Л(^) ds__ 4 . 2ni J 2Ak(s) 2ak' Из уравнений (3.33) и (3.37) следует, что *-1 * 2 ak0 2 ak 2 ak k 2а/ При k= 1 имеем Л = ±'( -2^. &„22 = £. 2ni / s-f-a} —ajs + ai 2aJ a} 2ax Доказательство теоремы полностью закончено. (3.38) Методы вычислений Получив рекуррентную формулу в теореме 3.3, перейдем те- перь к вычислительным аспектам. Чтобы найти значение инте- грала, необходимо вычислить коэффициенты A/s) и B/s). Это можно легко сделать с помощью следующей таблицы: а" а" а" а" а" • • • b" b" Ь" Ь" &£ • • • af 0 а" 0 а" ••• а” О 0 а« .. . а"-1 а/1 а/1 а?"1 ••• W”1 Ь"-1 1^0 1 Z о 4 а"-1 0 а"-1 0 ... 0 а"-1 О--. al bl b\ al 0 a9j о al a} b\ a* 0 cP uQ Каждая четная строка в таблице коэффициентов а\ получа- ется сдвигом элементов предшествующей строки влево и соот- ветствующей подстановкой нулей. Четные строки правой части
Параметрическая оптимизация 153 таблицы идентичны строкам ее левой части. Элементы нечетных строк таблицы получаются из двух предыдущих элементов по следующим формулам: i четно, 1 а*-1 = 1 » \(jk 1 i’H-1 afeai+2> i нечетно, ak ~ а0 а1 , /=о.. .., 6-1, IW,, i четно ь*-1 = j t-H, k- i нечетно, , 1=0,- .., k-1. Эти формулы можно получить, приравнивая коэффициенты при степенях s в разложениях (3.9) и (3.10). Из теоремы Раусса об устойчивости (теорема 3.2) вытекает, что все нули полинома А тогда и только тогда лежат в левой полуплоскости, когда все коэффициенты положительны. В приведенной выше таблице коэффициенты выделены жир- ным шрифтом. После получения значений ак и fik интеграл можно вычис- лить с помощью теоремы 3.3: п п I = 2 - 2 (Ч)2/(2“М)- /г=1 Алгоритм вычисления, записанный на Фортране, представ- лен на стр. 154. Упражнения 1. Вычислить интеграл (3.1) при A (s) = s6 + 3s5 + 5s4 + 12s3 + 6s2 + 9s + 1, B(s) = 3s5 + s4 + 12s3 + 3s2 + 9s + 1. 2. Дана система с обратной связью (рис. 5.4), в которой входной сигнал и представляет собой винеровский процесс с единичным параметром дисперсии. Найти дисперсию текущей Рис. 5.4. Блок-схема системы Рис. 5.5. Блок-схема системы (упраж- (упражнение 2). нение 3).
154 Глава 5 SUBROUTINE COLOSS В, N, IERR, V, IN) C C PROGRAM FOR EVALUATING THE INTEGRAL OF THE RATIONAL C FUNCTION C 1/(2*PI*I)*B(S)*B(—S)/'(A(S)*A(—S)) C ALONG THE IMAGINARY AXIS C C A—VECTOR WITH THE COEFFICIENTS OF THE POLYNOMIAL C A(1)*S**N + A(2)*S**(N— !)+••• + A(N + 1) C IT IS ASSUMED THAT A(l) IS POSITIVE. C B-VECTOR WITH THE COEFFICIENTS OF THE POLYNOMIAL C B(1)*S**(N -1)4- B(2)*S**(N - 2) 4- • • • 4- B(Nj C C THE VECTORS A AND В ARE DESTROYED C C N-ORDER OF THE POLYNOMIALS A AND В C IERR—WHEN RETURNING IERR = 1 IF ALL ZEROS OF A ARE IN LEFT C HALF PLANE IERR = 0 IF THE POLYNOMIAL A DOES NOT HAVE C ALL ZEROS IN LEFT HALF PLANE OR IF A(l) IS NOT POSITIVE С V—THE RETURNED LOSS C IN-DIMENSION OF A AND В IN MAIN PROGRAM C C SUBROUTINE REQUIRED C NONE C DIMENSION A(IN), B(IN) C IERR = 1 V =0. IF (All)) 70, 70, 10 10 DO 20 К = 1, N IF (A(K 4- 1)) 70, 70, 30 30 ALFA = A(K)/A(K 4- 1) BETA = B(K)/A(K 4- 1) V = V 4- BETA**2/ALFA KI = К 4- 2 IFCK1 - Nj 50, 50, 20 50 DO 60 I = KI, N, 2 AT; = A(I) - ALFA*A(I 4- 1) 60 B I = B(I) - BETA*A(I 4- 1) 20 CONTINUE V = V'2. RETURN 70 IERR = 0 RETURN END
Параметрическая оптимизация 155 ошибки е как функцию К и вычислить значение К, которое ми- нимизирует дисперсию текущей ошибки. 3. Рассмотрим систему с обратной связью, блок-схема кото- рой приведена на рис. 5.5. Входной сигнал и—стационарный процесс со спектральной плотностью На вход системы воздействует также белый шум со спектраль- ной плотностью Ф« (®) = ь2. Определить среднеквадратическое отклонение и значение коэф- фициента усиления, при котором среднеквадратическая ошибка минимальна. 4. Показать,что при п = 4 интеграл (3.1) можно вычислить как первую компоненту Xi линейной системы ах а0 0 0 + + + ' Од Cig .. (-l)n+1 Ьх ^2 ^2 Ь$ "Ь Ьд ^4 0 а4 а3 а2 х3 2а0 ^Ьд + bgbi 0 0 о а<_ bi ьл Отметим, что матрица системы совпадает с матрицей Гурвица полинома А ($). 5. Обобщить формулу из упражнения 4 для произвольного значения п. 6. ’Когда функция Ak-\ определяется с помощью Ak [выра- жение (3.9)], член наивысшей степени в полиноме Ak исчезает. Показать, что можно получить результаты, аналогичные теоре- ме 3.3, с помощью соотношений v.w-t 4<s) / 4<s) L ak~is J V. W - V bk 4<s)—r~4<s) L ak-is J 4 («) = ~ [4 (8) — 4 (— s)]. Примечание: k “ Jk-i 2аИ-1
156 Глава 5 7. Вывести рекуррентную формулу для вычисления ин- теграла — г 2л i J A (s) А (— s) —i о© где А и В — полиномы с действительными коэффициентами A (s) = а0 sn + ar sn~l 4-F ап, B(s) = bosm + b1sm~^+--. + bm и k-}-m.^2(n—1), Все корни полинома А лежат в левой полу- плоскости. 8. Вывести рекуррентную формулу для вычисления ин- теграла 1*00 1 Г В (s) , 2л1 J A (s) С (— s) —L оо где А (s) = а0 sn + aY sn~x 4-1- ап, В (s) = b0 sm+ sm~l++ C (s) = c0 sk + Ci s*-1 4-F ck, a m<in-\-k—2. Все нули полиномов А и С лежат в левой полу- плоскости. 9. Показать, что — f -------!----ds = -J—. 2ni J A (s) A (— s) 2aJ a}, 10. Доказать, что все нули полинома A(s) = 2_[A(s)_(- 1)М(- s)] расположены на мнимой оси. 11. Заданы два стационарных случайных процесса со спект- ральными плотностями: Фх (со) = Gi (ico) Gi (— ico), Фу (co) = G2 (ico) G2 (— ico), Фху (co) = Gi (ico) G2 (— ico), где s2 2£cos + w2 s2 + 2£cos + co2
Параметрическая оптимизация 157 Определить Ех2, Еу2 и Еху, используя теорему 3.3. Решить ту же задачу, применив представление из теоремы 5.2 гл. 4 и ис- пользуя затем теорему 6.1 гл. 3. Сравнить количество вычисле- ний в этих случаях. 4. ВОССТАНОВЛЕНИЕ ПЕРЕМЕННОЙ СОСТОЯНИЯ ДЛЯ СИСТЕМ С ДИСКРЕТНЫМ ВРЕМЕНЕМ Введение На практике лишь некоторое число переменных состояния можно измерить непосредственно. Рассмотрим, например, дина- мическую систему с дискретным временем x(t+ 1) = Фх(0 + Ги(0, (4.1) г/(/) = 0х(О, (4.2) где х есть n-мерный вектор состояния, и — r-мерный вектор входного сигнала, а у — n-мерный вектор выходного сигнала. Матрицы Ф, Г, 0 имеют соответственно порядок п\п, п\г, рУ^п. Элементы Ф, Г, 0 могут, вообще говоря, зависеть от t. Если система (4.1), (4.2) полностью наблюдаема в смысле Калмана, то вектор состояния можно восстановить самое боль- шее по п измерениям выходного сигнала. Переменные состояния можно также восстановить по математической модели системы. Рассмотрим, например, модель x(t Н- 1) = Фх(/) + Га(/), (4.3) которая имеет тот же вход, что и рассматриваемая система (4.1). Если модель (4.3) адекватная, т. е. если параметрическая модель соответствует параметрам системы и если начальные л условия (4.1) и (4.3) совпадают, то состояние модели х будет совпадать с истинным значением переменной состояния х. Если начальные условия (4.1) и (4.3) различны, то восстановление х приведет к истинному значению переменной состояния х тогда и только тогда, когда система (4.1) асимптотически устойчива. Заметим, однако, что при восстановлении модели (4.3) не ис- пользуются измеренные значения переменных состояния. Срав- л нивая у с 0х, можно определить точность восстановления (4.3). Л Разность у—Вх можно физически интерпретировать как раз- ность между наблюдаемыми и предсказываемыми значениями, полученными при восстановлении переменных состояния. С по- Л л мощью разности у—8х можно подстроить оценку х, даваемую
158 Глава 5 моделью (4.3), например используя следующий способ восста- новления: x(t + 1) = Фх(0 -f-r^(/) + К[у — 6х], (4.4) где К — соответствующим образом подобранная матрица. Если восстановленный вектор состояния х совпадает с истинным зна- чением вектора состояния, то восстановления по формулам (4.3) и (4.4) совпадут и приведут к правильному результату. Можно ожидать, что на практике способ восстановл!ения по формуле (4.4) даст лучшие результаты, чем по формуле (4.3), так как в модели (4.4) используются измеренные значения, так же как и при восстановлении входных сигналов. Для выбора К ~ А рассмотрим ошибку восстановления х=х—х. Вычитая выраже- ние (4.4) из (4.1) и используя формулу (4.2), получим х(/ + 1) = Фх(0-Я[^(/)--е*(/)] = [Ф —#0]х(/). (4.5) Если К выбрать таким образом, чтобы система (4.5) была асимптотически устойчива, то ошибка восстановления х будет равна нулю. Следовательно, вводя обратную связь, можно вос- становить переменные состояния также и в том случае, когда система неустойчива. За счет выбора К ошибку восстановления можно сделать нулевой для произвольных состояний моде- ли (4.4). Задача параметрической оптимизации Таким образом, переменные состояния динамической систе- мы можно восстановить с помощью математической модели. При восстановлении матрица К выбирается произвольно с тем условием, чтобы собственные значения матрицы Ф—KQ лежали? внутри единичного круга. При этом возникает задача оптималь- ного выбора К. Дадим более точную постановку задачи. Для этого предположим, что управление системой осуществляется разностным стохастическим уравнением х (t + I) = Фх (/) + Ги (0 + v (0, (4.6) где {v(f), teT}—последовательность независимых случайных n-мерных векторов. Вектор v(t) имеет нулевое среднее и кова- риационную матрицу Предположим также, что начальное значение х(/0) имеет гауссово распределение со средним т и ковариационной матрицей Ro и что сигнал на выходе можно за- писать в виде у (/) = 6х (0 + е (/), (4.7)
Параметрическая оптимизация 159 где {е (Z), t еТ}—последовательность независимых случайных /7-мерных векторов. Вектор e(t) имеет нулевое среднее и кова- риационную матрицу Предполагается, что ошибки измере- ний е не зависят от v. Параметры Ф, Г, 0, и R2 могут зави- сеть от времени. Отметим, что даже в том случае, когда на си- стему действуют помехи, отличные от белого шума, их можно также описать моделью типа (4.6) с расширением пространства состояний, как это сделано в гл. 4. Блок-схема системы, описы- ваемой моделями (4.6) и (4.7), приведена на рис. 5.6. Для вос- Рис. 5.6. Блок-схема системы, описываемой уравнениями (4.6) и (4.7). Рис. 5.7. Блок-схема системы, описываемой уравнениями (4.6) и (4.7), для восстановления состояния по формуле (4.8).
160 Глава 5 становления переменных состояния используем математическую модель X(t+ 1) = Ф х(0 + Г^(0 + [£/(0 — 0^(0]. (4.8) Блок-схема системы, описываемой моделями (4.6) — (4.8), при- ведена на рис. 5.7. Сформулируем задачу параметрической оп- тимизации. Задача 4.1 Задан произвольный постоянный вектор а. Найти такую по- следовательность матриц Л(0, Для которой среднеквадратиче- ская ошибка восстановления скалярного произведения атх ми- нимальна. Решение Для решения задачи оценим сначала среднее и дисперсию ошибки восстановления, а затем произведем минимизацию. Вы- ведем предварительно уравнение для ошибок восстановления. Вычитая выражение (4.8) из выражения (4.6), получим х(/+ 1) =*(/+ 1)-х(/+ l) = o7(O + v(/)-/<[z/(/)-0x(/)]. Используя уравнение (4.7), найдем х (t + 1) = (Ф - ЛВ) х (/) + v (0 - Ке (/). (4.9) Таким образом, ошибка восстановления определяется стохасти- ческим разностным уравнением. Такое уравнение рассмотрено в гл. 3 (теорема 3.1). Среднее значение ошибки восстановления равно Ех(/ + 1) = [Ф-Я0]Ех(/). (4.10) Следовательно, если выбрать начальное условие такие образом, ~ л чтобы Ex(to) =E(x(to) —m)=0, то ошибка восстановления об- ратится в нуль независимо от выбора матрицы К. Дисперсия ошибки восстановления равна Р (0 = £[%(/) — £х(/)] [х(0 — £%(/)]г. (4.11) Ее можно вычислить из уравнения P(t+ 1) = [Ф - £0] Р (0 + Ri + KR*KT при Р(/о) = £о, (4.12) которое следует из теоремы 3.1 гл. 3. Этот результат можно так- же получить непосредственно умножением выражения (4.9) на
Параметрическая оптимизация 161 транспонированное выражение и переходом к математическому ожиданию. Получив уравнение для дисперсии ошибки восстановления, выберем теперь матричный коэффициент усиления К таким об- разом, чтобы дисперсия скалярного произведения дТхбыла мини- мальной. Так как Е(атх)2 = Еа1 ххт а = ат (Еххт)а=ат P(t) а. то, используя уравнение (4.12), получим атР (t + 1) а = ат {ФР (/)ФГ + Pi — КВР (1)ФТ — -ФР(0ег/<г + Р[Р2+9Р(0еГ]/<г}а. (4.13) Теперь коэффициент усиления можно определить рекурсивно. При t=tQ правый член выражения (4.13) представляет собой квадратичную функцию К. Путем подбора К можно добиться того, что 1) будет минимально. После этого положим tQ— = /о+1 и определим /C=/C(/0+l) таким образом, чтобы P(Z0+2) было минимальным. Для этого перепишем выражение (4.13), дополняя его до полного квадрата ра + 1) = фр (/) фг + р1 — фр (/) ет [р2 + ер (/) ег]-1 ор (офг + + (Р - ФР (0 0г [Р2 + 0Р (/) 0Г]-1} [Р2 + 0Р (О 0Г] X X {К-ФР (О 0Г [Р2 + QP(t) 07’j-1}7'. (4.14) Рассмотрим теперь скаляр атР (t + 1) а = ат {ФР (/) Фг + Рх — ФР (/) 0Г [Я2 + 0Р (/)9Г]-1 X X ер (0 фг) а + ат {к - ФР (О 0Г [Р2 + 0Р (/) 0Г] -11 х Х[Р2 + 0Р(О6Г] к — ФР(/)0г[Р2 + 0Р(О0гГТа- (4.15) Правая часть этого равенства является функцией двух членов: первый член не зависит от К, а второй неотрицателен, поскольку матрица /?2+6^(0бт неотрицательно определена. Таким обра- зом, левая часть выражения минимальна, если Д’ выбрано так, что второй член в правой части (4.14) равен нулю. Итак, по- лучим к = K(t) = ФР(/)0Г [Р2 + 0Р(/)0Т]-1. (4.16) р (/ + 1) = ФР (/)ФГ + Я, — ФР (/) 0г[Я2+0Р (t) 0Г]-'0Р (/) Фг. (4.17) Отметим, что результат не зависит от а. Следовательно, если вы- брать Д так, чтобы минимизировать среднеквадратическую ошибку восстановления хотя бы для одной линейной комбина- ции переменных состояния, то тем самым будет найден мини- 11-403
162 Глава 5 мум среднеквадратической ошибки восстановления для произ- вольных линейных комбинаций. Отметим также, что выражение (4.17) дает дисперсию ошиб- ки восстановления для случая оптимального восстановления. Первый член ФР(ОФТ правой части этого выражения показыва- ет, каким образом изменяется ошибка восстановления от момен- та t до момента Z-J-1. Член представляет собой увеличение дисперсии ошибки восстановления из-за помехи ц, которая дей- ствует на систему, а третий член выражения (4.17) показывает, как уменьшается ошибка восстановления при получении инфор- мации из результатов измерений. Из выражений (4.16) и (4.17) следует, что Р(/ + 1) = ФР(/)Фг + /?1 —/<(/)9Р(0Фг = = [Ф-д-(ое]Р(ОФг + Я1, X (/) я2 + Х(0 ер (о ег = фр (/) ег. Вычитая из первого уравнения второе, помноженное на KT(t), получим Р (t + 1) = ФР (/) Фг + Рх — К (/) 9Р (О Фг— ФР(0 9Т кт (/) + + к (/) Р2 Кт (/) + К (О 6Р (0 ег кт (о = = [Ф - Л (/) в] Р (/) [ф _ /с (о 0Jг+ к (W г(0- Из этого уравнения легко вывести чисто алгебраически, что ес- ли P(t) неотрицательно определена, то Р(/4-1) также неотрица- тельно определена. Итоги сформулированы в теореме 4.1. Теорема 4.1. Рассмотрим динамическую систему (4.6) с вход- ным сигналом (4.7). Восстановление переменных состояния системы с помощью математической модели (4.8) оптимально по среднеквадратической ошибке, если коэффициент уси- ления К (t) = ФР (/) 9Г [р2 + 0Р (О 9Г]-1, где P(t) —дисперсия оптимального восстановления, определяе- мая формулой р (/ + 1) = фр (0 фг + Рх — фр (о ет [р2 + 0Р (о 9Г]~19Р (о фг= = [Ф-Р(/)9]Р(0Фг + Р1 = [Ф-Р(09]Р(0 [ф- -Р(09]Г + R± +K(t) Р2КТ(t) (4.18) при Р(/о) = Ро.
Параметрическая, оптимизация 163 Примечание 1. Отметим, что решение задачи оптимизации позволяет восстановить состояние системы по формуле (4.8) с минимальной среднеквадратической ошибкой. В гл. 7 показано, что метод восстановления, соответствующий формуле (4.8), яв- ляется оптимальным. Примечание 2. Из дифференцирования вытекает, что теоре- ма 4.1 остается верной и в том случае, когда матрицы Ф, Г, 6, Ri и зависят от времени. Если учесть зависимость от време- ни, то модель, описываемую уравнениями (4.6) и (4.7), можно представить в виде %(/+ 1) = Ф(/+ 1; /)%(/) + r(t)u(t) + V(t), y(t) = Q(t)x(t) + e(/), где 7?i(0 и /?2(0 —ковариационные матрицы процессов v(t) и e(t) соответственно. Оптимальное восстановление определяет- ся формулой x(t + 1) = Ф(/ 4- 1; t)x(t) + V(t)u(t) + #(/) [у (/) — 9(/)%(/)], где /С(0 задается формулами (4.16) и (4.18) с Ф = Ф(/+1; /), Г = Г(0, 0 = 9(0, 7^ = 0) и #2 = Я2(0. Упражнения 1. Рассмотреть динамическую систему, описываемую уравне- НИЯМИ %(/+!) = h' 1 *(0+ ? y(t) = [1 O]x(Z), где {е(/), t —последовательность независимых нормаль- ных случайных величин с параметрами (О, 1). Предположим, что начальное состояние х(0) нормально со средним значением Ех (0) = и ковариационной матрицей cov[x(0), х(0)] = О 1 Найти коэффициент усиления оптимального восстановления по формуле (4-8). Определить также ковариационную матрицу ошибки восстановления. 11*
164 Глава 5 2. Рассмотреть динамическую систему x(t + 1) = Фх(t) + Ги(/) 4- V(t), выходная переменная которой определяется формулой z/(O = 0x(O-r e(t), где {е(/)} и {и(/)} —белый шум с дискретным временем с ну- левыми средними и ковариационными матрицами Ev (/) vT (s) = 6MPp Ev(t)eT (s) = 8st R12, Ee(t)eT(s) = dstR2. Показать, что переменные состояния можно восстановить с по- мощью математической модели х а +1) = Ф% (о + г« (о + к [у (о - ех (01, в которой оптимальное значение К определяется формулой K = K(t) = [фр(О0Т + Р12] [0Р(00Г +Р2]-1, где р а +1) = фр (/) фт + _ к (/) [р2 + ер (/) 0Г] кт (z). 3. Восстановление по формуле (4.8) обладает тем свойством, что значение вектора состояния в момент t восстанавливается по t — 1 наблюдаемым значениям выходной переменной —1), y(t—2), ... . Другой метод восстановления, который также использует y(t) для восстановления х(/), можно пред- ставить уравнением х(/+ 1)=Фх(/) + Гн(/) + /<(^+ 1) {//(/+ 1) — — 0 [Фх(/) + Гп (/)]}. (4.19) Показать, что если управление системой осуществляется урав- нениями (4.6) и (4.7), то оптимальный выбор К определяется формулами К(О = Р(О0Г [Р2 + 0Р(О0Г]-1. Р(/) = Ф5(^—1)ФГ + /?Ь S(t) = p (0 - К (о 0Р (/), <5 (/о) = Ро- Дать также физическую интерпретацию матриц.
Параметрическая оптимизация 165 4. Рассмотреть систему из упражнения 1. Определить мат- ричный коэффициент усиления при оптимальном восстановле- нии по формуле (4.19). Найти ковариационную матрицу ошибки восстановления. Сравнить это с результатами, полученными в упражнении 1. 5. В уравнении (4.18) теоремы 4.1 существуют три способа рекурсивного вычисления матрицы P(t). Исследовать вычисли- тельные аспекты этих методов. 5. ВОССТАНОВЛЕНИЕ ПЕРЕМЕННЫХ СОСТОЯНИЯ ДЛЯ СИСТЕМ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ Введение Перейдем к решению задачи для систем с непрерывным вре- менем. Рассмотрим систему, описываемую стохастическим диф- ференциальным уравнением dx = Axdt + Budt + dv, (5.1) где x — n-мерный вектор состояния, и — r-мерный вектор вход- ного сигнала и v — винеровский процесс с ковариацией прира- щений Ridt. Предположим, что выходной сигнал системы опи- сывается уравнением dy — Cxdt + de, (5.2) где выходной сигнал у — р-мерный вектор и е — винеровский процесс с ковариацией приращений R2dt. Матрицы Л, В, С, и Т?2 могут зависеть от времени. Предполагается, что их элемен- ты являются непрерывными функциями времени. Матрица /?2 положительно определена, а неотрицательно определена. На рис. 5.8 приведена блок-схема физической системы, кото- рую приблизительно можно представить моделью (5.1), (5.2). Рис. 5.8. Блок-схема физической системы, которую можно представить мо- делью (5.1) и (5.2). Случайные процессы v и е имеют конечные дисперсии и постоянные спектральные плотности в интервале (—со0, соо), где о)0 велико по сравнению с максимальным собственным значением матрицы А.
166 Глава 5 Из рассуждений, аналогичных приведенным в разд. 4, найдем, что восстановление можно представить в форме dx = Axdt + Budt К \dy — Cxdt\, (5.3) где К— матрица п\р порядка с зависящими от времени аргу- ментами. Чтобы определить, может ли модель (5.3) соответство- вать правильному восстановлению, введем ошибку восстановле- ния х х — х. Используя уравнения (5.1) и 5.2), получим, что ошибка восста- новления является марковским гауссовым случайным процес- сом, удовлетворяющим стохастическому дифференциальному уравнению dx = (Л — КС) xdt + dv — Kde. (5.4) Для изучения свойств восстановителя (5.3) необходимо исследо- вать стохастическое дифференциальное уравнение (5.4). Исполь- зуя теорему 6.1 гл. 3, получим, что среднее значение ошибки вос- становления определяется уравнением — (Ех) = (А — КС) (Ех), (5.5) dt Ex (t0) = Ex (t0) — х (t0) и что ковариационная матрица ошибки восстановления P(t) = Е \x(t)~ Ex(t)\ \x(t) — Ex(t)\T (5.7) определяется уравнениями — = (А-КС)Р + Р(А-КС)Т+ Rl + KKiKT, (5.8) dt Р (^о) ~ Е \Х (А)) % (^о)} {я (^0 % (^о)} “ (5.9) Следовательно, если К выбрать из условия устойчивости урав- нения (5.5), то среднее значение ошибки восстановления долж- но быть равно нулю. Из уравнения (5.5) также следует, что ес- ли ошибка восстановления имеет нулевое среднее значение в любой момент времени /0, то она будет равна нулю для всех t. Дадим физическую интерпретацию членам уравнения (5.8), которое перепишем в виде — = АР + РАТ + Rr— (КСР + РСТКТ — KR2Kt). (5.10) dt Первые два члена представляют собой изменение ковариацион-
Параметрическая, оптимизация 167 ной матрицы ошибки восстановления, связанное с динамикой системы. Член представляет увеличение ковариационной мат- рицы ошибки восстановления, вызванное помехой у, действую- щей на систему. Последний член представляет уменьшение ко- вариационной матрицы ошибки восстановления в результате проводимых измерений. Он зависит конечно от выбора матрич- ного коэффициента усиления. Задача параметрической оптимизации После того как получены уравнения для ошибки восстановле- ния, рассмотрим вопрос об оптимальном выборе К. Предполо- жим, что Ех(/о)=О, т. е. что среднее значение ошибки восста- новления равно нулю. В качестве критерия выберем среднеквад- ратическую ошибку восстановления линейной комбинации пере- менных состояния атх. Имеем Е (атх)2 = Е (атх) (ха) = ат Ехх1а = ат Р (t) а, (5.11) где последнее равенство вытекает из того, что среднее ошибки восстановления равно нулю. Используя дифференциальное урав- нение (5.8), получим — aTP(t)a = ат (АР + РАТ + flx) а + dt + ат [КР2КТ — КСР — РСт Кт)а. (5.12) Для дальнейшего необходимо доказать лемму. Лемма 5.1. Пусть Р и Q — решения уравнений Риккати — = АР + РАТ+ R2 ~-KR2Kr—KCP—PCT Кт> (5.13) dt = XQ + + 7?! — QCT R~x CQ (5.14) dt с начальными условиями P(tQ) = Q(to) = RQ, (5.15) где матрица Rq симметрична, a R2 положительно определена. Тогда матрица P(t)—Q(t) неотрицательно определена и P(/) = Q(/) (5.16) при К = РСТ RT1 • (5.17)
168 Глава 5 Доказательство. Из уравнений (5.13) и (5.14) следует, что — (P — Q) = А(Р — Q) + (P — Q)AT - KR.KT — КСР — РСТКТ + di - QCT RTl CQ = (A — КС) (Р — Q) - (Р — Q)(A — КС)Т 4- - (K-QCTR^R^K-QC7 RT’)T. (5.18) Пусть W(t; s) — решение дифференциального уравнения = [A (t) — K(t)C (/)] T (/; s), 4(t-t) = I. (5.19) Решение уравнения (5.18) можно представить в виде t' P(t)-Q(t)=^y (/; S) [К(S) - Q (s) CT(S) RT' (s)] T?2 (s) [£ (s) - to — Q(s)CT (s)RTl(s)] TWT(P, s)ds. (5.20) Однако матрица в правой части всегда неотрицательно опреде- лена при любом К. При К = QCT RT1 получим P(t)—Q(t), т. е. равенство (5.16), и лемма доказана. Таким образом, доказано, что при произвольном выборе К величина aTP(t)a минимальна для всех а. Оптимальное значение матричного коэффициента усиления определяется выражением (5.17). Оптимальный выбора приводит, таким образом, к мини- мальной ошибке восстановления для любой линейной комбина- ции переменных состояния. Выводы сформулированы в теоре- ме 5.1. Теорема 5.1. Пусть динамическая система подвергается дей- ствию помех и ошибки измерений описываются уравнениями (5.1) и (5.2). Восстановление (5.3) оптимально в смысле крите- рия среднеквадратического отклонения, если начальное условие х(/„) = £х(/0) (5.21) и если коэффициент усиления выбран так, что (5.17) где P(t)—ковариационная матрица ошибки при оптимальном восстановлении. Матрица P(t) удовлетворяет уравнению Рик- кати = АР + РАТ + Ri+РСТ RT'СР (5.22)
Параметрическая оптимизация 169 с начальным условием (5.23) Замечание. Задача параметрической оптимизации для вос- становления состояния решена для восстановления в форме (5.3). В гл. 7 доказано, что такая структура фактически является оптимальной. Упражнения 1. Рассмотреть движение частицы вдоль прямой линии. Пред- положить, что ускорение частицы представляет собой белый шум со спектральной плотностью 1/(2 л) и что измерение координат частицы сопровождается ошибками, представляющими собой белый шум со спектральной плотностью г/(2 л). Найти мини- мальную дисперсию восстановления по формуле (5.3) для поло- жения и скорости частицы. Определить также ковариационную матрицу ошибки восстановления. 2. Рассмотреть динамическую систему, описываемую уравне- ниями (5.1) и (5.2), где е и v — коррелированные винеровские процессы с нулевыми средними значениями и ковариационной матрицей приращений dv' de [dvT deT] =• R1 /?12 Rn R2 dt. Показать, что минимальная дисперсия восстановления (5.3) по- лучается в том случае, если выбрать начальное условие x(Z0) — — Ex(to) и матричный коэффициент усиления K(t)= [P(t)CT + r12]rt\ где ковариационная матрица ошибки восстановления удовлетво- ряет уравнению Риккати = [л—r12rt1 с] р + р [л - r12rt'c]t + ях- -R12R?Rb-PCT RT'CP, P(tQ) = R0. 3. Сигнал акселерометра дает информацию о вертикальной составляющей ошибки, который используется для поддержания сервоплатформы перпендикулярно вертикали (рис. 5.9). Для не- больших отклонений сигнал акселерометра можно описать урав- нением у = 0 -j- п,
Нормаль к платформе Вертикаль---------- Акселерометр------- Платформа---------- Регулятор Рис. 5.9. Схема системы вертикального выравнивания. t Рис. 5.10. Вертикальная ошибка выравнивания 0 в момент времени t при различных значениях коэффициентов усиления k. Нижний график соответствует стратегии, минимизирующей дисперсию.
Параметрическая оптимизация 171 где 0 — вертикальная ошибка, п — помехи, возникающие из-за горизонтальных ускорений. Платформа может быть описана уравнением где и — управляющее воздействие: и = —Ку (К—коэффициент хсиления). Если шум является белым, показать, что система мо- жет быть описана стохастическим дифференциальным уравне- нием d9 =— KQdt + Kdv, где —винеровский процесс с параметром дисперсии г. Предположить, что начальное состояние нормально с парамет- рами (0, а); найти коэффициент усиления K=K(t), такой, что дисперсия вертикальной ошибки выравнивания минимальна. Сравнить выводы с результатами, полученными для постоянно- го коэффициента усиления, когда время выравнивания постоян- но и равно Т (рис. 5.10). 4. Пусть Р и Q удовлетворяют уравнениям Риккати = АР + РАТ + Rr — РСТ /?Х СР, < dt Р (А)) = Л), — = AQ 4- + 7?, — QCT R^ CQ, dt Q o) ~ Qd Доказать, что из условия Po>Qo следует условие для всех /, при которых уравнение Риккати имеет решение. 5. Рассмотреть уравнения Риккати — = АР + РАТ + Rr - РСТ R2' СР, • dt . Р (^о) = Ро » -^-=AQa~ QAt 4- Ri - QCT RT' CQ, • dt .Q(t0) = P0. Доказать, что из R\^R3 следует P(f)^Q(t) для всех t, при ко- торых уравнение Риккати имеет решение. 6. Рассмотреть уравнения Риккати — АР 4- РАТ 4- Ri — РСТ RT' СР, * dt Р tfo) ~ Роу
172 Глава 5 = AQ+QAT + Rr — QCT ЯГ1 CQ, at Q(t0) = P0. Показать, что из следует P(t)^Q(t) для всех t, при ко- торых уравнение Риккати имеет решение. 6. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА Идея параметрической оптимизации стохастических систем изложена в работах [1, 2], в которых дисперсия сигналов оцени- вается с помощью теории вычетов. Приведены таблицы интегра- лов для процессов с непрерывным временем. Аналогичные ре- зультаты для систем с дискретным временем изложены в рабо- те [3]. Теорема 2.2 — это по существу теорема Шура — Коэна об устойчивости линейных систем с дискретным временем. До- казательство, приведенное в разд. 2, взято из работы [4]. Его можно найти также в работе [5]. Теоремы, близкие к теореме 2.2, рассмотрены в работах [6, 7]. Теорема 3.2 — это по существу теорема Раусса — Гурвица. Идея рекурсивной оценки интегралов принадлежит Николь- ни [8, 9]. Алгоритм для систем с дискретным временем, приве- денный в теореме 2.3, рассмотрен в работе [10]. Следствие из теоремы 2.3 и вычислительный алгоритм при- ведены в работе [Н]. Алгоритм на Алголе для систем с непрерывным временем можно найти в работе [12]. Идея восстановления состояния динамической системы с ис- пользованием математической модели, рассмотренная в разд. 4 и 5, известна давно. Ее обсуждал Дж. Бертрам в 1961 г. Более ранняя ссылка на построение модели без обратной связи приво- дится в работе [13]. Более подробно эти вопросы изложены в работах [14, 15]. Рекуррентные уравнения, приведенные в теоремах 4.1 и 5.1, идентичны алгоритму фильтрации Калмана — Бьюси [16. 17]. 1. James Н. М., Nickols N. В., Phillips R. S., Theory of Servomechanisms, McGraw-Hill, N. Y., 1947. Русский перевод: Джеймс X., Никольс Н., Фил- липс Р., Теория следящих систем, М., ИЛ, 1951. 2. Newton G. С., Gound L. A., Keiser J. F., Analytical Design of Linear Feed- back Controls, Wiley, N. Y., 1957. Русский перевод: Ньютон Дж. К., Булд Л. А., Кайзер Дж. Ф., Теория линейных следящих систем, Физмат- гиз, 1961. 3. Jury Е. I., Theory and Application of the z-Transform Method, Wiley, N. Y., 1964. 4. Ruzicka I., Algebrnicka Kriteria Stability impdlsnich Sonsta, Strognicky Casopis, XIII, c. 5, 395—403 (1962).
Параметрическая оптимизация 173 5. Strejc V., Syntise von Regelungssystemen mit Prozessrechner, Akademie- Verlag, Berlin, 1967. 6. Jury E. I., On the Roots of Real Polynomial inside the Unit. Circle and a Stability Criterion for Linear Discrete Systems, Proc, of Sec. Congr. of IFAC, Butterworhs, London, 1964. 7. Toma M., Ein Eingaches Verfahren zur Stabilitatspriifung von linearen ab- tastsystemen, Regelungstechnik, 10, 302—306 (1962). 8. Nekolny J., Nova Jednoducha Methodika Testu Jakosti Regulace, Prague, 1957. 9. Nekolyn J., Benes J., Simultaneous Control of Stability and Quality of Adjustement-Application of Statistical Dynamics, in Coales et al. Automatic and Remote Control, Proc, of First IFAC Congr. Moscow 1960, 2, Butter- worths, London, 1961. о 10. Astrom K. J-, Recursive Formulas for the Evaluation of Certain Complex Integrals, Rep. 6804, Lund Institute of Technology, 1968. о 11. Astrom K. J., Jury E. I., Agniel R. G., A Numerical Method for the Evalua- tion of Complex Integrals, IEEE Trans. AC (1970). 12. Peterka V., Vidincev P., Rational-Fraction Approximation of Transfer Func- tions, Proc. IFAC Symp. of identification in Autom. Control. Sys., Prague, 1967. 13. Kalman R. E., Bertram J. E., General Synthesis Procedure for Computer Cont- rol of Single and Multiloop Linear Systems, AIEE, 77, 1958. 14. Luenberger D. G., Observing the State of a Linear System, IEEE Trans, on Military Electron.. 8, 74—80 (1964). 15. Luenberger D. G., Observers for Multivariable Systems, IEEE, AC—11, 190—191 (1966). 16. Kalman R. E., A New Approach to Linear Filtering and Prediction Problems, ASME J. Basic Eng., 82, 35—45 (1960). 17. Kalman R. E., Bucy R. S., New Results in Linear Filtering and Prediction Theory, ASME J. of Basic Eng., 83, 95—107 (1961).
Глава 6 СТРАТЕГИИ УПРАВЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ДИСПЕРСИЮ 1. ВВЕДЕНИЕ В гл. 5 рассмотрена параметрическая оптимизация систем, в которых регулятор имеет известную структуру. Данная глава посвящена более общим задачам оптимизации систем, в которых структура регулятора неизвестна. Цель главы — дать простую по- становку задачи, которая позволила бы изложить основные идеи стохастического оптимального управления с небольшим количе- ством математических выкладок. Проанализирована задача про- стого регулирования для линейной стационарной системы с од- ним входом и одним выходом. Предполагается, что возмущение, действующее на систему, можно описать в виде реализации нор- мального стационарного случайного процесса с дробно-рацио- нальной спектральной плотностью. Критерием управления явля- ется минимизация дисперсии выходной переменной. Для про- стоты рассмотрены системы с дискретным временем. Поэтому множество Т есть всегда множество целых чисел. В разд. 2 рассмотрена система первого порядка, для которой легко доказать теорему разделения. Доказывается, что опти- мальный регулятор можно представить состоящим из двух ча- стей: упредителя, предсказывающего действие возмущения на выходе, и апериодического регулятора, определяющего сигнал управления, который требуется для того, чтобы сделать предска- зываемый выходной сигнал равным желаемой величине. После установления связи между теорией упреждения и сто- хастическим оптимальным управлением займемся изучением за- дач упреждения. В разд. 3 решаются задачи упреждения стацио- нарного стохастического процесса с дискретным временем и дробно-рациональной спектральной плотностью. Основным ре- зультатом является теорема 3.1, которая дает рекуррентную формулу для упредителя, а также выражение ошибки упрежде- ния. Показывается также, что коэффициенты рекуррентной фор- мулы легко получаются из тождественного равенства полиномов как коэффициенты этих полиномов. В разд. 4 снова рассмотрена задача управления. С помощью результатов задачи упреждения выведена формула для страте- гии управления, минимизирующей дисперсию. Показано, что
Стратегии управления, минимизирующие дисперсию 175 ошибка управления для данной оптимальной стратегии управ- ления равна ошибке упреждения. В разд. 5 обсуждены вопросы чувствительности оптимально- го регулятора к изменениям параметров модели. Показано, что при некоторых условиях оптимальная система может быть чрез- вычайно чувствительна к изменениям параметров. Приведен также метод получения квазиоптимальных стратегий, которые менее чувствительны к изменениям параметров. В разд. 6 дан пример промышленного применения стратегий управления, минимизирующих дисперсию. Рассмотрена задача управления весом бумаги на бумажной фабрике. Особое внима- ние уделено постановке задач и обсуждению применимости тео- рии. Рассмотрена задача идентификации, т. е. задача построения математических моделей возмущения и динамики процесса по эк- спериментальным данным. Приведены экспериментальные ре- зультаты применения стратегии управления, минимизирующей дисперсию. 2. ПРОСТОЙ ПРИМЕР Рассмотрим сначала специальный случай, который иллюст- рирует основную идею без каких-либо сложных выкладок. Пусть процесс, которым необходимо управлять, описывается уравне- нием первого порядка y(t) + ay(t— 1) =u(t— 1) +е(0 + ce(t — 1), (2.1) где и — управляющая переменная, у — выходная переменная, а {е(0}—последовательность независимых нормально распре- деленных с параметрами (0, 1) случайных переменных. Предпо- лагается, что I с| < 1. Цель управления состоит в минимизации дисперсии выходной переменной. Кроме того, допуска- ются только те стратегии управления, для которых величина управляющей переменной в момент време- ни t является функцией измеряемой выходной пере- менной до момента времени т. е. функцией от #(/), y(i—1), ..., ..., и функцией от предыдущих значений управляющей пере- менной, т. е. от и (t — 1), u(t — 2), ... . Определим стратегию управления, минимизирующую диспер- сию, сначала исходя из интуитивных соображений. Рассмотрим состояние в момент времени t. Имеем y(t + 1) =— ayit) +«(/) + e(t + 1) + се(/). (2.2) Переменная #(£+1) может быть произвольно изменена с по- мощью соответствующего выбора переменной u(t). Задача зак- лючается в выборе такого закона «(/), при котором Ey2(t-\-i) было бы минимальным. Заметим прежде всего, что е(^4-1) не зависит от y(t), u(t) и e(Z).
176 Глава 6 Следовательно, Ey*(t + 1) > Ee\t + 1) = 1. Таким образом, при наилучшем законе управления диспер- сия выходной переменной будет больше или равна 1. Вся информация для определения u(t) заключена в предыду- щих значениях выходной переменной y(t), y(t—1), ... и вход- ной u(t—1), u(t — 2), ... . При наличии этой информации e(t) можно вычислить по формуле (2.1). Первый и четвертый члены правой части выражения (2.2) становятся таким образом тоже известными. Если выберем закон управления и (/) = ау (/) — се (t), (2.3) получим формулу y(t + 1) = e(t + 1), (2.4) которая дает наименьшую возможную дисперсию переменной У^+\). Если закон управления <(2.3) использовать на каждом шаге, формула (2.4) будет справедлива при всех t. Вычисление e(t) по имеющимся данным сведется тогда к выражению (2.4), а закон управления (2.3) примет вид u(t) = (a — c)y(t). (2.5) До сих пор рассуждения были эвристическими. Проанализи- руем теперь свойства закона управления (2.5). Подставив фор- мулу (2.5) в уравнение (2.1), получим y(t+ 1) + сг/(/) = е(/+ 1) + ce(t). Следовательно, [уЦ + 1) - е (t + 1)] + с [у (0 - е (0] = 0. Решая разностное уравнение с начальным значением у (to) — —е (to) = К, получим у(!) = е(Г)+К-(-с)*-\ Так как |с|<1, то y(t)—e(t) при tQ-^oo. Следовательно, если используется закон управления (2.5), выходная перемен- ная в установившемся состоянии будет иметь наименьшую воз- можную дисперсию. Таким образом, оптимальный закон управ- ления задается формулой (2.5). После того как результат получен, обсудим некоторые его следствия. Величину — ay(t) +u(t)+ce(t) можно интерпретиро- вать как наилучшую оценку (в ереднеквадратическом смысле) выходной переменной в момент времени /+1, полученную на ос- нове данных, имеющихся в момент времени t. Ошибка упрежде- ния равна е(^+1). Выбирая u(t) согласно закону управления, мы сделаем предсказываемую величину равной желаемой вели- чине 0. Тогда ошибка управления будет равна ошибке упрежде- ния. Отсюда следует, что стохастическое управление тесно свя-
Стратегии управления, минимизирующие дисперсию 177 зано с упреждением. Отметим также, что динамика оптимальной системы однозначно задается параметром с, а выходная пере- менная оптимальной системы является белым шумом. Интересно также отметить, что мы получили бы тот же ре- зультат, если бы отбросили предположение о нормальном рас- пределении е и ограничились для допустимых законов управ- ления линейными функциями наблюдений. Тогда можно было бы положить, что e(t) имеет нулевое математическое ожидание п единичную дисперсию для всех e(t) и е($) не коррелированы для /=#<$, a u(t) является линейной функцией z/(/), y(t—1), u(t— 1), .... 3. ОПТИМАЛЬНОЕ УПРЕЖДЕНИЕ ДЛЯ СТАЦИОНАРНЫХ ПРОЦЕССОВ С ДИСКРЕТНЫМ ВРЕМЕНЕМ В разд. 2 установлено, что решение задачи стохастического управления тесно связано с задачей упреждения. В данном раз- деле задача упреждения рассмотрена более подробно. В следую- щем разделе задача разд. 2 будет обобщена. Теорию упреждения можно построить многими способами, которые отличаются допущениями, сделанными относительно процесса, критерия и упредителей. В данном разделе использу- ются следующие допущения: 1. Предсказываемый процесс является стационарным, гауссо- вым с дробно-рациональной спектральной плотностью. 2. Наилучшим упредителем является упредитель, который минизирует дисперсию ошибки упреждения. 3. Допустимый упредитель для является произволь- ной функцией всех предыдущих наблюдений. Следовательно, для упреждения можно использовать все наблюдения y(t),y(t—l),y(t — 2),.... Заметим, что мы получим те же самые результаты, если ог- раничимся в качестве упредителей линейными функциями наб- людений, а допущение о нормальном распредеделении процесса заменим предположением о дифференцируемости дважды про- цесса. Пример Рассмотрим нормальный процесс первого порядка со спект- ральной плотностью , . 1 + С2 + 2с COS СО 11^1 11^1 /п 1 V ФИ = ---[ „ -------, а <1, с <1. 3.1 1 + а2 + 2а cos со Спектральная плотность является дробно-рациональной ^функцией от exp(iw), так как <р((О) = 1 + с8 + г(ег<в+г~йй) = (l + c^Hl+cg-^) _ (3 2) 1 + а2 + а е~‘'а) (1 + aeia)( 1 + ae~iu>) 12-403
178 Глава 6 Из теоремы 2.2 гл. 4 следует, что стохастический процесс {г/(0, ^=0, ±1, ±2, ...} можно представить стохастическим разностным уравнением y(t+ i) + ay(t) = e(t+ l) + ce(t), (3.3) где {е(/), t=0, ±1, ±2, ...}—нормально распределенные с па- раметрами ((0, 1) случайные переменные. Чтобы построить уч- редитель для данного стохастического процесса, используем представление этого процесса в виде (3.3). Для простоты рас- смотрим сначала одношаговое упреждение. Исследуем состоя- ние в момент времени t, Основываясь на наблюдениях у (О, y(t— 1), ..., требуется получить наилучшую возможную оценку г/(/+1). Из уравнения (3.3) получаем £/(П-1) =—ay(t) + ce(t) + e(t+ 1), (3.4) где е(/) и е(£+1)—независимые нормально распределенные с параметрами (0, 1) случайные переменные. Случайная перемен- ная у(/-|-1) может быть выражена, таким образом, в виде сум- мы трех членов. Первый член — ш/(0 известен непосредственно из наблюдений. Второй член ce(t) можно вычислить рекуррент- но по результатам наблюдений с помощью формулы (3.3). Тре- тий член e(f+l) не зависит от наблюдений y(t), y(t—1), ... . Наилучшее упреждение для y(t+\) определяется, таким обра- зом, первыми двумя членами правой части уравнения ^3.4). Разберем детали решения, т. е. покажем, как вычислить e(t) по результатам наблюдений у (О, y(t—О, ••• с помощью фор- мулы (3.3). Для этого, очевидно, требуется задать начальные ус- ловия, но, так как |с|<1 и имеется бесконечно много значений //, начальное условие не является существенным. Для доказа- тельства этого утверждения предположим сначала, что e(tQ) известно, a f/(^o), #Go+l), y(t) —результаты измерений. Для вычисления e(t) надо решить разностное уравнение (3.3) перво- го порядка, которое можно записать в виде [е(т+ 1) —г/(т+ 1)] + с [е(т)~ г/(т)] = (а — с)у(х). Решение имеет вид /—1 е (/) = [е (t0) — у (/0)] (—+ у (/) + {а — с) £ (—с/-1~п у (п). Так как |с|<1, первый член стремится к нулю при /0->—00 Для любых начальных условий. Таким образом, e(t) можно вычис- лить прямо по результатам измерений с помощью формулы е (0 = У (/) + (а — с) £ (— у (п). П—.- ос
Стратегии управления, минимизирующие дисперсию 179 При этом наилучшее упреждение z/(Z+l), основанное на наб- людениях y(t), y(t—1), y(t—2), задается формулой y(t+ 1|0 =— ay(t) + cy(t) + с(а — с) X (—с) у(п) = t = (с--а) £ У(п)- (3.5) Сшибка упреждения равна У (t + 1Ю - у (/ + 1) - у (I + 1Ю - e{t + 1). Таким образом, задача одношагового упреждения решена. Од- нако формула (3.5) не очень удобна для использования. Напри- мер, если требуется определить упреждение с помощью цифро- вой вычислительной машины, в ее памяти необходимо хранить бесконечно много наблюдений. Это требование к объему памяти можно существенно ослабить, если результат переписать в виде рекуррентной формулы. Из выражения (3.5) получаем л у (t + 1 \t) = (с — а) \у (/) + S (—с/ " У («)] = -с = (с — а) \у (/) 4- (—С) Ё (—У («)1 = /2—— =— cy(f\t— 1) + (с — a)y(t). (3.6) Одношаговый упредитель можно описать, таким образом, разностным уравнением первого порядка. При использовании формулы (3.6) для вычисления одношагового упреждения необ- Л ходимо запоминать только одно число y(t\t—1). Отметим, что динамика упредителя определяется числом с. Обозначения Введем теперь формализм, который упростит анализ. Для этого определим оператор сдвига вправо q по формуле qx(t) = x(t + 1). Уравнение (3.3) при этом можно написать в следующем виде: y(/ + l) = L±££le(/+l)=e(/ + l) + _£zi^_e(0. (з.7) 1+жГ1 1+^-1 Последний член является линейной комбинацией величин е(/), e(t—1), ..., которые можно вычислить по наблюдениям 12*
180 Глава 6 y(t), y(t—О,-- с помощью формулы (3.3), переписанной в виде е(0 = 7Т^(/)- (3‘8> Исключая е(/) из уравнения -(3.7) с помощью формулы (3.8), получим У^ + 1) + 1) + (3.9) 1 + cq—1 Л Теперь пусть у — произвольная функция наблюдений у (t), У (t—О» ••• -Так как е(/+1) не зависит от наблюдений, имеем Е [у (t + 1) - у] * - Ее* (/ + 1) + Е [-^2- у (t) -£ I2. L 1 + cq—1 J Следовательно, E [y(t + 1)-J]2 > Ee4t + 1) - 1, где равенство справедливо при условии Таким образом, оптимальный одношаговый упредитель задает- ся разностным уравнением y(t ч- l|0 + 4(W- 1) = (С-a)y(t). (3.10) Сравните полученную формулу с уравнением (3.6). Двухшаговый упредитель Перейдем к определению двухшагового упредителя. Рас- смотрим состояние в момент времени t, в который имеются на- блюдения y(t), y(t—1),... .Требуется определить y(t-\-2). Уравнение (3.3) дает у(1 + 2) = '-^-еЦ + 2). (3.11) 1 + aq-1 Правая часть уравнения является линейной функцией от е(^+2), е(/+1), e(t)9 e(t— 1). Стохастические переменные e(t), e(t—1),... могут быть определены точно по результатам наблю- дений y(t), y(t—1),... . Случайные переменные е(^+2) ие(г+1) не зависят от наблюдений. Переписывая уравнение (3.11). по- лучим у (t ч- 2) = e(t + 2) 4-+ 1) = 1 4- aq—1
Стратегии управления, минимизирующие дисперсию 181 = е и + 2) + е (( + 1) = = е« + 2) + (с-а)е((+ 1) - <«>. 1 т* aq-1- где последний член можно вычислить точно по результатам на- блюдений. Из уравнения (3.3) имеем e(i) = l±^Ly(ty ' 1 + cq-i * ’ Следовательно, z/(Z + 2) = е(/+ 2) + (С-а)е(/+1)- a^~a\y(t). 1 + cq~2 Л Пусть теперь у — функция от имеющихся наблюдений y(t), y(t—1),... . Так как е(/+1) и e(Z+2) не зависят от наблюдений, получаем Е [у (t + 2) - у]* = Е [е* (t + 2)] + (с - а)2Е [г2 (/+!)] + , г,ГЛ . а (с — а) + Е у + тт—• L 1 + cq—1 | Следовательно, £fi/(/ + 2)-J]2>l +(с-а)2, где равенство справедливо при 1 + cq-1 Таким образом, двухшаговый упредитель удовлетворяет следу- ющему разностному уравнению: y(t + 2|0 =— cy{t + 11/ — 1) — а (с — а) у (/). Ошибка двухшагового упреждения является скользящим сред- ним второго порядка y(t + 210 = у (/ + 2) - y(t + 2|0 = e(t + 2) + (с - a)e(t + 1). Общая постановка задачи Рассмотрим задачу определения ^-шагового упредителя для стационарного нормального процесса {y(t), t=6, ±1, ±2,...} с дробно-рациональной спектральной плотностью. По теореме 3.1 гл. 4 для этого процесса всегда можно найти два полинома
182 Глава 6 A(z) и С(г), таких, что спектральную плотность ср(со) процес- са можно написать в виде <р(<о) = = V С(^СЧе^ ' (3л2) А(е1Ю)А (е-110) А (е,<0) А* (е“°) где Л* — обратный полином, определяемый равенством Л*(г) = = zaA(z-1). В представлении (3.12) полиномы Л и С можно вы- брать так, что все нули полинома Л будут расположены внутри единичного круга, а все нули полинома С будут лежать внутри или на границе единичного круга. В этой главе мы будем счи- тать, что полином С не имеет нулей на единичной окружности. Полиномы Л и С имеют вид А (г) = гп -г a1Zn~l Н-\-ап, (3.13) C(z) = Zn + c1zn~1 ±--- + сп. (3.14) Из теоремы 3.2 гл. 4 следует, что стохастический процесс можно представить в виде ЛШ(0-ХС(<7И0 (3.15) или Л* to"1) У (0 = («г1) е (0, (3.15а) где {а(0, teT}—последовательность независимых нормальных с параметрами (0, 1) случайных переменных. Найдем наилуч- А ший k шаговый упредитель, т. е. построим функцию y(tA~k\t) от y(t), y(t—1), ..., такую, что £[у(/ + ^)-Й +W достигает наименьшего значения. Для вывода формулы упредителя рассмотрим состояние в момент времени Л При условии, что есть результаты измерения выходной переменной y(t), y(t—1),..., требуется предсказать y(t+k)- Уравнение (ЗЛ5) дает + = + (3.16) Правая часть в уравнении (3.16) является линейной комбина- цией переменных e(t-\-k), —1), ..., е(/-|-1), e(t), e(t— — 1), ... . Случайные переменные е(/), e(t—1), ... могут быть вы- числены точно по результатам измерений. Случайные перемен- ные е(/+1), ..., e(t+k) не зависят от наблюдений. Таким обра- зом, правая часть уравнения (3.16) состоит из членов, которые могут быть точно вычислены по наблюдениям, и членов, которые
Стратегии управления, минимизирующие дисперсию 183 не зависят от наблюдений. Для выделения этих двух групп чле- нов перепишем правую часть уравнения (3.16) в виде ’ЯЯ ‘11' k>' Я’(<г1) е v k’+ЯЯ ‘v+4,1 (3.17) где F* и G*— полиномы степени k—1 и п—1 соответственно, = + + (3.18) G* (г) = g0 + gxz 4----Н gn__A zn-1. (3.19) Уравнение (3.16) теперь можно написать в виде y(t + k) Or1) е (t + k) + hr* e (t + k) = = + (3.20) Л* (?-i) Второй член в правой части является функцией переменных е(^), e(t—1), ..., и, следовательно, его можно вычислить по ре- зультатам наблюдений y(t), у (t—1),... . Получаем Хе (/) = -А* у (/), и уравнение <(3.20) сводится к уравнению j(/ + i) = ZFVW + *) + -^m (3.21) Первый член в правой части является линейной функцией переменных е(/+1), e(f+2), ..., е (/-)-&), которые не зависят от наблюдений. Второй член является линейной функцией от ре- зультатов наблюдений. Пусть у — произвольная функция переменных y(t), y(t— — 1), ... . Тогда Е \у (t + k) - у] * = Е [ V* (<И) е (t + ЭД2 + Е [£ - у (/) J2 _ 4- 2£ [XF* (г1) е (/ + ЭД у (t) . [ С* (q-1) J Последний член равен нулю, так как е(/+1), е(/+2), ... не зависят от y(t), y(t—1), ..., a e(t) имеет нулевое математическое ожидание при всех Л Таким образом, имеем Е \y(t + k) - у]* - Е [AF* < + ЯЯ’Я ,3'22)
184 Глава 6 где равенство достигается при P = J(/ + felO = -^~i/(0- (3.23) Таким образом, оптимальный fe-шаговый упредитель определяет- ся разностным уравнением y(t -г- k\t) + cry(t + k— 1|/~ 1) н---h c„y(t ч- k— n\t — n) = = goy(f) + giy[t— 1)H-------Vgn-iy(t — n 4- 1). (3.24) Ошибка упреждения равна У {t + *Ю = y(t + k)~ у (t + *Ю = XF* (q-1)e(t + k)= = X[e(Z + *) + + *- 1) -H • • • + + fk-ie(t + 1)]. (3.25) Итак, чтобы получить упредитель, надо определить коэффици- енты полиномов F(z) и б(г), заданные формулами (3.18) и (3.19). Уравнение (3.17) дает следующее равенство: С* (q~l) = A* (q-1) F* (q-1) + q~k G* (q~l). (3.26) Если А* и С* — произвольные полиномы от q~x, то существует два однозначно определяемых полинома F* и О*, которые удов- летворяют равенству (3.26). Эти полиномы можно определить с помощью операции деления. Полином F* получается как част- ное от деления С* на A*, a <7-ftG*(<7-1) является остатком от де- ления. Полиномы F* и G* можно определить приравниваем коэф- фициентов при различных степенях q~l. При этом Ci = <h + fi, с2 = а2 + ах Л + /2, Ck-\ ~~ ak—l + ak~2 f 1 + ak—3 ^2 Г ’ ‘ fk_2 + f k_x, Ck ~ ak~r ak—\ f 1 + ak—2 A "b ’ ’ ’ + ai fk— 1 + ^0» €H-1 “ ^+1 + ak fl + ak-l f<z + ' ' ’ + a-lfk—i + S’n Cn ~ an + an-\ f 1 "Ь an-2 H Ь an.-k+l fk-l ‘ Sn~kf ® ~ anfl “b an—1 fz + ‘ ‘ ’ + an—kArZ f k—1 £«-*4-1 » 0 = ^/^ + ^. (3.27)
Стратегии управления, минимизирующие дисперсию 185 Таким образом, коэффициенты полиномов F* и G* можно оп- ределить с помощью рекуррентных соотношений. Полученные результаты сформулированы в теореме 3.1. Теорема 3.1. Пусть {y(t), teT} — нормальный стохастический процесс с дискретным временем, который имеет представление Л* Gr1) У (0 = М?* О?-1) е (/). (3.15> Все нули полиномов А и С расположены внутри единичного кру- га, а {е(0, teT} является последовательностью нормальных с параметрами (0, 1) случайных переменных. Тогда /г-шаговый уч- редитель, минимизирующий дисперсию ошибки предсказания, за- дается разностным уравнением с* От1) У а + k\t) = G* (?-’) У (0, (3.23) где полином G(z) степени п—1 определяется равенством С* (q~l) — A* (t/-1) F* О?-1) + q~k G* (q~r). (3.26) Ошибка упреждения является скользящим средним порядка k: y(t + k\t) = KF* (q-1) e(i + k) = = %[е(( + /г) + /1е(/ + А!- 1) +• • • + f^e^t + 1)] (3.25). и имеет дисперсию var[£(/ + ^)] =V(1 +Г1 + Г1 + --- + РкЩ. (3.28) Замечание 1. Наилучший упредитель является линейным, а результат не зависит критически от критерия. Так как распреде- ление у нормально, то результат будет тем же, если минимизи- ровать критерий Eh(y(t + k)~ J), (3.29) где h — произвольная симметричная функция. Замечание 2. Предположение о независимости e(t) и e(s) при t^s является решающим для справедливости выражения (3.22). Если стохастические переменные е(/) и е($) зависимы, математическое ожидание от произведения е(/+т) на произ- вольную функцию от y (t), y(t—1) не обязательно будет равно нулю при т>0. Однако если ограничиться для допустимых уп- редителей линейными функциями наблюдений, выражение для Е[#(/+&)—у]2 будет содержать только квадратические члены, и выражение (3.22) будет справедливо в том случае, когда е(/+1), е(/+2), ..., e(t-\-k) не коррелированы с y(t), y(t— — I)..... Замечание 3. Упредитель является динамической системой: я-го порядка с характеристическим полиномом С(г).
186 Глава 6 Замечание 4. Из выражения (3.25) следует У(1)— y(t\t — 1) -= Ke(t). Таким образом, стохастические переменные ке являются порож- денными процесса teT} (сравнить разд. 3 гл. 4). Замечание 5. Следующие свойства являются решающими при доказательстве теоремы 3.1: 1. Стохастические переменные e\t) и e(s) независимы при t=£s и e(t) не зависит от y(t—1), y(t—2), ... . 2. Представление (3.15) стохастического процесса обратимо в том смысле, что с помощью устойчивых разностных уравне- ний y(t) может быть выражено через e(Z), e(t—1), ..., и на- оборот. (Для выполнения вычислений необходимы начальные условия для разностных уравнений.) 3. При допущении об устойчивости полиномов А и С и о бес- конечной временной протяженности процессов результат стано- вится независимым от начальных условий. Упражнения 1. Рассмотреть стохастический процесс {y(t)}> определяе- мый уравнением y(t)— \,by(t — 1) + 0,5y(Z — 2) = = 2 [е (/) — 1,2 e(Z — 1) + 0,6 e(Z —2)], где {e(Z)}—последовательность независимых нормальных с параметрами (0, 1) случайных переменных. Определить &-шаго- вый упредитель, минимизирующий среднеквадратическую ошиб- ку упреждения. 2. Рассмотрим стохастический процесс {//(/)}, определяемый уравнением у (t) + ay(t— 1) = Х [е(0 + ce(t— 1)], где | а | < 1, | с | < 1 и {е(0}—последовательность независимых нормальных с параметрами (0, 1) случайных переменных. Опре- делить ^-шаговый упредитель, который минимизирует средне- квадратическую ошибку предсказания. 3. Найти двухшаговый упредитель, минимизирующий средне- квадратическую ошибку, и определить ошибку упреждения для стохастического процесса, задаваемого равенством у (0 = , , 1-—г е (0 + (0. 1 + aq-i где {e(Z), teT} и {у(/), teT}—последовательности независимых нормальных с параметрами (0, 1) случайных переменных и |а|<1.
Стратегии управления, минимизирующие дисперсию 187 4. Стохастический процесс {y(t), teT} имеет представление y(t) + 0,7 y(t-1) == e(t) + 2e(t — 1), где {е(/)> teT}—последовательность независимых нормальных с параметрами (0, 1) случайных переменных. Определить на- илучший одношаговый упредитель и дисперсию ошибки пред- сказания. Наилучший упредитель определяется по критерию ми- нимума среднеквадратической ошибки упреждения. 5. Рассмотреть стохастический процесс {y(t)f t = tQy tQ+ + 1, ...}, определяемый равенством y(t)= 2 (з.зо> k=t0 где {e(0> teT} —последовательность независимых нормальных с параметрами (0, 1) случайных переменных. Если g(t, /)=/=0. то соотношение (3.30) всегда обратимо. Пусть обратное выраже- ние имеет вид t e(t) = X k) y(k). k=t0 Определить ^-шаговый упредитель для процесса {y(t), t== = t0, ...}, минимизирующий среднеквадратическую ошибку уп- реждения. Указание. Использовать метод доказательства теоремы 3.L 6. Рассмотреть стохастический процесс {y(t), teT}, задавае- мый соотношением Л*(<7 где {е(0}—последовательность независимых нормальных с па- раметрами (0, 1) случайных переменных и А (г) = aQ zn + ar zn~' -J------ап, C(z) = cQzm + q zm~M------------\-cm. Определить наилучший в среднеквадратическом смысле б-шаго- вый упредитель. Наилучший упредитель является динамической системой. Чему равен порядок этой системы? 7. Рассмотреть стохастический процесс {y(t), teT}, имеющий представление y(t)- 2,6у (t — 1) + 2,85z/(/—2) — 1,4у(/-3) + + 0,25 — 4) = е (0 — 0,7е (Z — 1), где {е(0> —последовательность независимых нормальных случайных переменных. Определить наилучший одношаговый
188 Глава 6 упредитель для процесса {//(/), teT}. Чему равен порядок дина- мической системы, представляющей упредитель? 8. Найти представление пространства состояний системы, описываемой с помощью выражения (3.15). 4. СТРАТЕГИИ УПРАВЛЕНИЯ, МИНИМИЗИРУЮЩИЕ ДИСПЕРСИЮ Получив решение задачи упреждения, обобщим теперь задачу стохастического управления, рассмотренную в разд. 2. Для по- становки задачи оптимального управления необходимо указать динамику процесса, среду, критерий и ограничения на закон уп- равления. Динамика процесса Предполагается, что процесс, которым надо управлять, яв- ляется стационарной линейной динамической системой с ди- скретным временем порядка т с одним входом и и одним выхо- дом у. Связь между входом и выходом можно описать разност- ным уравнением порядка т у (t) 4- а} у (t — 1) 4-1- а1т у (t — т) = и (t — k) + + — k— 1) 4--------— k—m), (4.1) где интервал дискретизации равен единице времени. Введем оператор сдвига вправо q, полиномы А{ и Вь определяемые ра- венствами Ах (г) = zm + а\ zm~x Н-h (4.2) В. (z) = b\zm + b\ . + Ь'т, (4.3) и их обратные полиномы Л* и В*. Тогда соотношение (4.1) мож- но представить следующим образом: = (4.4) лц?-1) Среда Предполагается, что влияние среды на процесс можно оха- рактеризовать возмущениями, которые являются стохастически- ми процессами. Так как система линейная, можно использовать принцип суперпозиции и представить все возмущения в виде од- ного возмущения, действующего на выходе. Таким образом, про- цесс и среда могут быть представлены моделью
Стратегии управления, минимизирующие дисперсию 189 в: ь-ч y^ = —rr~r:u^~k^ + v^- <4-5> Л1 (?) Если, кроме того, предположить, что возмущение и(/) является стационарным гауссовым процессом с дробно-рациональной спектральной плотностью, то возмущение можно представить в виде = Х(/), (4.6) А2[я ) где {е(0, ^=0, ±1, ±2, ...}—последовательность одинаково распределенных независимых нормальных с параметрами (0, 1) случайных переменных, a Ci и А2— полиномы. Итак, система и ее среда могут быть описаны уравнением В? ОТ1) СП?"1) У“«-ц + к е {t), (4.7) А(? ) А(? ) Блок-схема представления системы приведена на рис. 6.1. Уравнение (4.7) является, таким образом, канонической формой для дискретной стаци- онарной динамической системы с одним входом и одним выхо- дом с запаздыванием, равным целому числу интервалов дис- кретизации; система подверга- Рис. 6.1. Блок-схема системы, описываемой уравнением (4.7). ется воздействию стационар- ных возмущений с дробно-ра- циональными спектральными плотностями. Полиномы A2(z) и Ci(z) всегда могут быть выбраны так, что их нули будут ле- жать внутри или на границе единичного круга. Так как предполагается, что возмущение v стационарно, А2 не может иметь нулей на единичной окружности Для упрощения анализа перепишем уравнение (4.7) в виде Л* б/-1) у (0 = В* О/-1) и (/ — k) + ХС* (q-1) е (/), (4.8) где Л, В и С—полиномы, определяемые равенствами А=А[А2, В = В!А2 и С=С1Л1. Положим Л (z) ^=гп + ах zn~x Н-[-(4.9) 1 Если мы можем прямо постулировать представление v в форме (4.6), нет необходимости предполагать, что все нули Л2 лежат внутри единичного круга.
190 Глава 6 В (z) = bQ zn 4- br zn~x 4-\-bn, (4.10) C (z) = zn 4- c2 zn~x 4-4 cn. (4.11) Без потери общности можно предположить, что все полино- мы имеют степень п, так как коэффициенты при высших степе- нях всегда можно положить равными нулю. Полином C(z) всегда можно выбрать так, что нули его будут лежать внутри или на границе единичного круга. Допустим также, что полино- мы не имеют нулей на единичной окружности. Критерий Для задачи управления выбран критерий, по которому мини- мизируется дисперсия выходной переменной у. Допустимые законы управления Предполагается, что закон управления должен быть таким, что значение и в момент времени t является функцией наблю- даемых значений выходной переменной до момента времени t включительно, т. е. y(t), y(t—1), y(t—2),..., и всех предшест- вующих сигналов управления u(t—1), u(t—2), ... . Постановка задачи Рассмотрим динамическую систему, описываемую уравнени- ем (4.8). Требуется найти допустимый закон управления, такой, что дисперсия выходной переменной имеет наименьшее значение. Оптимальный закон управления называется стратегией управ- ления, минимизирующей дисперсию. Решение Для решения задачи рассмотрим состояние в момент вре- мени t. Имеются результаты измерений y(t), y(t—1), ... и из- вестны все предыдущие управляющие воздействия u(t—1), u(t—2), ... . Задача состоит в определении такого u(t), при котором дис- персия выходной переменной имеет наименьшее значение. Из уравнения (4.8) следует, что сигнал управления u(t) влияет на y(t-\-k) и не влияет на предыдущие значения выходной пере- менной. Рассмотрим и*+*>=“ (о+-4 е (4-12> Л (<7 ) A U ) Последний член является линейной функцией случайных пере-
Стратегии управления, минимизирующие дисперсию 191 менных e(t+k), e(t+k—1), e(t), e(t—1), ... . Из урав- нения (4.8) следует, что e(t—1), ... могут быть вычислены по результатам измерений в момент времени t. Для этого перепи- шем выражение (4.12), используя равенство С* (9-1) - Д* Op1) F* (7-1) + q~kG* G7-1), (4.13) где F и G — полиномы степеней k—1 и п—1, определяемые фор- мулами (3.18) и (3.19). (Сравнить с выражением (3.20), полученным при решении задачи упреждения.) Следовательно, у (/ + k) = XF* е (t + k) + В\ и (t) + e (/). (4.14) A (q ') A (q l) Решая уравнение (4.3) относительно Xe(t), получим (4JS) Исключая e(t) из уравнения (4.14) с помощью выражения (4.15), находим у (I + k) = V* (q-i) е it + k) + ~ в* Gr1) . Л’ (-7-1) ,_kB- (q^G^q-1) A-(q-')C- (q-1) U (t) + G* (q-1) c‘ Gr1) y(0- С помощью равенства (4.13) второй член в правой части можно преобразовать. В результате получим y(t + k) = XF* (?-!) е (/ + k) + У + + В* (4.16) С (q-1) Пусть теперь u(t)—произвольная функция от y(f), y(t—-1), ... и u(t—1), u(t—2), ... . Тогда Еу2 (/ -J-k) = E [V* (<?->) e (t + £)p + + E Г у (/) + и (0 12. (4.17) LC (q-1) С (Г1) I Смешанные произведения равны нулю, так как е(^+1), е(/+2). e{t+k) не зависят от y(t), y(t—1),... и (t—2),... . Следова- тельно, EyHt + k)>M [1 +p + fl + ...+ fi_J, (4.18) где равенство имеет место при В* (q~l) F* (q-1) и (t) + G* (q-1) у (t) = 0, (4.19)
192 Глава 6 что дает требуемый закон управления. Выводы сформулирова- ны в теореме 4.1. Теорема 4.1. Рассмотрим процесс, описываемый уравнением Л* (г1) у (/) = В* (г1) и (t - k) + ZC* (q-i) e (/), (4.8) где teT}—последовательность независимых нормальных с параметрами (0, 1) случайных переменных. Пусть все нули полинома C(z) расположены внутри единичного круга. Тогда закон управления, минимизирующий дисперсию, имеет вид В* От1) F* (г1) u(t) = — G* Or1) У (0, (4.19) где полиномы F и G степеней k—1 и п—1 соответственно опре- деляются по формуле С* (г1) = Л* (Г1) В* (г1) + q~k G* От1). (4.13) Ошибка управления для оптимальной системы равна скользя- щему среднему порядка k\ у (/) = ZF* (г1) е (/) = X [е (/) + fre(t - 1) + + ••• + ^(/-£+1)]. (4.20) Замечание 1. Теорема остается справедливой, если только предположить, что e(t) и e(s) не коррелированы при t^s и рассматривать линейные законы управления. Замечание 2. Сравнение с решением задачи упреждения в разд. 3 показывает, что член из выражения (4.16) + с* (г1) в* (г1) f* Gr1) с* Ст1) u(t) можно интерпретировать как ^-шаговый упредитель для ytt+k), основанный на наблюдениях y(t), y(t—1),..., а ошибка управ- ления равна ошибке ^-шагового упреждения. Таким образом, из теоремы 4.1 следует, что закон управления, минимизирую- щий дисперсию, вытекает из определения ^-шагового упреди- теля и последующего выбора управляющей переменной, такой, что предсказываемая выходная переменная совпадает с желае- мой выходной переменной. Итак, задачу стохастического управ- ления можно разделить на две задачи: упреждения и управле- ния. Поэтому теорему 4.1 называют теоремой разделения. Замечание 3. При использовании стратегии, минимизируку щей дисперсию, ошибка управления является скользящим сред- ним порядка k. Поэтому ковариационная функция ошибки уп- равления будет равна нулю для значений аргумента, больших k. Это замечание очень удобно для использования, когда требу- ется проверить систему в действии для того, чтобы найти, явля- ется ли используемая стратегия управления оптимальной
Стратегии управления,, минимизирующие дисперсию 193 Замечание 4. Полюсы замкнутой системы равны нулям по- линома С* (г). Приведем пример определения стратегии управления, мини- мизирующей дисперсию. Пример 1 Рассмотрим систему, описываемую уравнением У (/) = в* и (t — k) + е (/), АЧ?-1) Л-(г1) где А * (q~l) = 1 - 1,7 q~l + 0,7 q~2, 1 +0,5 (Г1, С* (</-’) = 1 + 1,5 q-1 + 0,9 q~2. Сначала рассмотрим случай k=l. Для определения стратегии управления используем равенство (4.13): С* (q~') = Д* («у-1) F* (q-1) + q~' G* (q-1). Получим (1 + 1,5 «г1 + 0,9 9-2) = (1 - 1,7q-' + 0,7 9-2) + </-1 (§г0+^ <у-1). Приравнивание коэффициентов при одинаковых степенях дает 1,5 = - 1,7 + ^а, 0,9 = 0,7 + ё1. Следовательно, go=3,2; gi = 0,2. Таким образом, стратегия уп- равления, минимизирующая дисперсию, задается следующим образом: или u(t) = — 0,5u(t — 1) — 3,2у (/) — 0,2 у (t — 1). Используя оптимальную стратегию, по теореме 4.1 и выражению (4.20) находим, что ошибка управления равна у(0 =е(0- Исследуем изменение характеристик оптимальной системы при введении в систему дополнительного времени запаздывания. При этом равенство (4.13) принимает вид -(1 + 1,5 q-1 + 0,9 q~2) = (1 — 1,7 q~' + 0,7 q~2) (1 + Л q-1) + + <Г2 + + ?1<?Л 13—403
Рис. 6.2. Моделирование выходного сигнала системы при управляю- щем сигнале, равном нулю (пример 1). Рис. 6.3. Моделирование выходного и управляющего сигналов си- стемы при &=1 и стратегии управления, минимизирующей диспер- сию (пример 1). Сравнение с рис. 6.2 показывает, что данная стратегия управления значительно уменьшает дисперсию выходного сигнала.
Стратегии управления, минимизирующие дисперсию 195 Приравнивание коэффициентов дает 1,5 = -1,7 +Л, 0,9 = 0,7- 1,7Л + g0, 0 = 0,7f1+g1. Решая эти уравнения, получаем fi = 3,2; g0=5,64; gi = — 2,24. Стратегия управления, минимизирующая дисперсию, теперь имеет вид и(0-_______ 5,64 — 2,24<7-1 У (/) =------------’—-----y(t). l+Sjq^ + ^Qq-2 ' Следовательно, и (0 = — 5,64г/ (/) + 2,24г/ (/ — 1) — 3,7и (t — 1) — 1 fiu (t — 2). Ошибка управления равна У (t) = е (0 + № (t - 1) = е (/) + 3,2е (/ - 1). Дисперсия ошибки управления равна var у (/) = 1 + = 11,24. Время, t Рис. 6.4. Моделирование выходного и управляющего сигналов системы при ~k — 2 и стратегии управления, минимизирующей дисперсию (пример 1). Сравнение с рис. 6.3 показывает ухудшение работы, обусловленное введением дополнитель- ного запаздывания. 13*
196 Глава 6 Итак, из этого примера следует, что ошибка управления зна- чительно увеличивается при введении в систему дополнитель- ного времени запаздывания. На рисунках 6.2—6.4 показаны модели выходного сигнала, когда управляющий сигнал равен нулю, а также модели управ- ляющих и выходных сигналов для системы при £=1 и k = 2 и стратегии управления, минимизирующей дисперсию. Упражнения 1. Рассмотреть систему, описываемую уравнением -----------------?----«(/—!)+ 1 +0’7<-1 е (t), l+Q^q-1---------------1—0,2q~1 где {e(Q} — последовательность независимых нормальных с параметрами (0, 1) случайных переменных. Определить страте- гию управления, минимизирующую дисперсию. 2. Рассмотреть систему, описываемую уравнением У (0 + W и — 1) = bu (t — k) ч- К [е (/) + се (t — 1)], где {е(0> —последовательность независимых нормальных с параметрами (0, 1) случайных переменных. Определить стра- тегии управления, минимизирующие дисперсию, и ошибки управ- ления при k=l, 2 и 3. 3. Рассмотреть детерминированную систему, заданную урав- нением A*{q ')y(t) = B'(q — Показать, что стратегия управления u(t) — ------------------y(f), (4.21) где полиномы F и G определяются равенством имеет следующее свойство: данная стратегия приводит за k шагов выходной сигнал системы к нулю. Стратегия (4.21) на- зывается апериодической. 4. Рассмотреть систему А* (?“’) У 0) = В* (?-’) и (t - k) + W* (q-1 Определить дисперсию выходной переменной, когда управление системы осуществляется по апериодической стратегии (4.21), описанной в упражнении 3. Показать, что ошибка управления является скользящим средним, и сравнить полученную диспер- сию с минимальной дисперсией.
Стратегии управления, минимизирующие дисперсию 197 5. Рассмотреть систему, заданную с помощью уравнения (4.7). Показать, что стратегия управления, минимизирующая дисперсию, будет всегда содержать операцию интегрирования, если полином Л2 имеет простой нуль при z=\ и если А\ (1) =#0. 6. Показать, что числа fi, определенные равенством (4.13), можно интерпретировать как импульсную реакцию дискретной динамической системы с импульсной передаточной характери- стикой С(г)/Л(z). 7. Определить стратегию управления, минимизирующую дис- персию, и дисперсию ошибки управления для системы, описы- ваемой уравнением У (0 + 0,5// (/ - 1) = е (/) + 2е (t - 1) + и (t - 1). 8. Рассмотреть систему, описываемую уравнением y(f) =--1—-u(t~ 1) + 1+2?-1 1 +0,7?~1 1 — 0,2<7-1 е(/), где {е(0} —последовательность независимых нормальных с па- раметрами (0, 1) случайных переменных. Определить стратегию управления, минимизирующую дисперсию, для этой системы. (Сравнить с упражнением 1.) 9. Цифровой вариант регулятора описывается уравнением u(t) = u(t- 1) + к[(1 + -£-)И0~y(t — 1)], (4.22) где К, h, Т — положительные числа. Найти наиболее общую систему вида (4.8), для которой алгоритм (4.22) может служить стратегией управления, минимизирующей дисперсию. 10. Рассмотреть равенство полиномов С (z) = A (z) F (г) + В (г) G (г), где А, В и С — заданью полиномы степеней Пд, Пв и Пс соответ- ственно. Допустим, что ПсСПдН-Пв—1. Показать, что сущест- вуют единственные полиномы F и G степеней nF=nB—1 и Пс= Па—1, которые удовлетворяют данному равенству. Показать также, что существует много полиномов степеней Пр>пв—1 и Ио>Пд—1, удовлетворяющих данному равенству. 11. Рассмотреть систему (4.8). Показать, что существует стратегия управления, такая, что ошибка управления равна ошибке упреждения выхода на I шагов вперед, когда />&. Указание. Использовать равенство 12. Определить стратегию управления, минимизирующую дисперсию, для системы (4.8), когда допустимые стратегии та-
198 Глава 6 ковы, что u(t) является функцией отy(t—1), y(t—2), u(t—1), u(t—2),... . 13. Найти представление пространства состояний системы, описываемой уравнением (4.12). 5. ЧУВСТВИТЕЛЬНОСТЬ ОПТИМАЛЬНОЙ СИСТЕМЫ Хорошо известно, что оптимальные решения при некоторых условиях могут быть очень чувствительны к изменениям пара- метров. Проведем исследование этого вопроса в нашем частном случае. Для этого предположим, что система задается уравнени- ем (4.8), которое можно переписать в виде А0 (?) у (I) = В0 (?) u(t~k) + (?) е (/), (5.1) а закон управления определяется в предположении, что модель системы имеет вид A (q) y(t) = В (q) u(t — k) + KC (q) e (/), (5.2) где коэффициенты А, В и С немного отличаются от Л°, В° и Сс. Отметим, что обе модели (5.1) и (5.2) имеют один и тот же порядок п. Стратегия управления, минимизирующая дисперсию, для модели (5.2) задается выражением z/(0=------у (/), (5.3) В* (?-1) f где F и G — полиномы степеней k—1 и п—1, определяемые ра- венством (4.13). Исследуем теперь, что происходит, когда управление систе- мой (5.1) осуществляется по закону (5.3). Подставляя выраже- ние (5.3) в уравнение (5.1), получим k W + Т((,) ”(« ] ч « = е <'»' (5.4) Применим оператор qn+k ’к равенству (4.13) и используем оп- ределение обратного полинома. Находим qk-xC(q)=A(q)F(.q) + G(q). (5.5) Уравнения (5.4) и (5.5) дают [/“'В° (7) С (?) + (Л° (7) В (?) - A (q) В» (?)) F (?)] у (t) = = Х°В (?) С° (?) У7 (?) е (/). (5.6) Следовательно, характеристическое уравнение системы имеет вид zk~'B° (z) С (z) + [Л° (z) В (г) - Л (z) В° (z)] F(z) = 0. (5.7)
Стратегии управления, минимизирующие дисперсию 199 Если Л=Д°, B=BQ и С=С°, характеристический полином сво- дится к выражению zk~lBQ(z)CQ(z). Таким образом, для неболь- ших изменений параметров колебания системы (5.6) близки к колебаниям, соответствующим zfe-1JB°(2)C°(z), т. е. k—1 коле- баниям для полюсов в начале координат и п колебаниям для полюсов в нулях полинома В0. Кроме того, когда расчетные па- раметры равны истинным параметрам, левую и правую части уравнения (5.6) можно сократить на коэффициент °Ѱ. Отсюда следует, что если А=А°, В = В°, С=С°, колебания, соответст- вующие °Ѱ, не связаны с входным сигналом е или соответст- вующие переменные состояния при тех же условиях неуправляе- мы входной переменной е. Следовательно, если закон управле- ния определяется исходя из модели, которая отличается от истинной, входной сигнал может возбуждать все колебания, со- ответствующие решениям характеристического уравнения (5.7). При этом устойчивость этих колебаний не имеет особого значе- ния. Однако, если некоторые колебания неустойчивы, можно по- лучать бесконечно большие ошибки, когда модель, используемая для определения закона управления, сколь угодно мало отли- чается от истинной модели. Это происходит в том случае, если полином °Ѱ имеет нули вне или на границе единичного кру- га. Из теорем представления для стационарных случайных про- цессов (теорема 3.2 гл. 4) следует, что С° всегда можно выбрать и что его нули будут лежать внутри или на границе единично- го круга. Таким образом, для полинома С° единственный кри- тический случай возможен тогда, когда С° имеет нули на еди- ничной окружности. Полином В0 будет иметь нули вне единич- ного круга, если система не является минимально-фазовой. Сле- довательно, когда динамическая система, которой необходимо управлять, не является минимально-фазовой или числитель спектральной плотности возмущения имеет нули на единичной окружности, стратегия управления, минимизирующая диспер- сию, будет чрезвычайно чувствительна к изменениям параметров модели. В этой ситуации практически важно найти законы уп- равления, которые не чувствительны к изменениям параметров и дают дисперсии, близкие к минимальным. Квазиоптимальные стратегии Известно много способов получения стратегий управления, не чувствительных к изменениям параметров. Рассмотрим один из них. Для уяснения идеи допустим, что В (г) может быть пред- ставлено в виде В (г) = Вх(г)В2(г), (5.8) где Bi—полином степени П\, все нули которого лежат внутри
200 Глава 6 единичного круга, а В2— полином степени п2, все нули которого находятся вне единичного круга. Для решения уравнения (5.5) наложим дополнительное ог- раничение на G(z), состоящее в том, что G(z) содержит B2(z) в качестве множителя, т. е. вместо выражения (5.5) использу- ем равенство q"+k~'C (q) = А (<?) F (q) + (<?) G (q). (5.9) Рассуждая так же, как и при доказательстве теоремы 4.1, на- ходим закон управления и (t) =---^G'(<7) у (/). (5.10) При этом ошибка управления равна + fke(t — k) + ---+fk+n^e(t-k-n2 -I- 1)}. (5.11) Закон управления (5.10), который не является оптимальным, дает ошибку с дисперсией varу = min (varу) + %2 [f2 +-(5.12) Закон управления (5.10) не очень чувствителен к изменениям параметров системы. Для доказательства этого предположим опять, что система задается моделью (А0, В0, С°, Z0), а закон управления определяется исходя из модели (A, В, С, Z) с не- много другими параметрами. Уравнение, описывающее управ- ляемую систему, приобретает вид [А« (q) Вг (q) F' (q) + В0 (?) G' (?)] у (/) = М>С* (?) В, (q)F' (?) е (/). (5.13} Когда параметры модели равны истинным параметрам, ха- рактеристическое уравнение системы имеет вид г^-1во(г)Со(г) = О. (5.14) Из определения В\ и допущения, сделанного относительно С°, следует, что все колебания устойчивы при равенстве расчетных и истинных параметров. Устойчивость при небольших измене- ниях параметров следует теперь из непрерывности. Сравнение выражений (5.7) и (5.14) показывает, что при законе управления (5.10) нули полинома В2 переносятся в на- чало координат. При других квазиоптимальных стратегиях управления нули В2 переносятся не в начало координат, а в произвольные точки внутри единичного круга. Следовательно, всякий раз, когда по- лином В0 имеет нули вне или на границе единичного круга, оп- тимальная система будет настолько чувствительной к измене-
Стратегии управления, минимизирующие дисперсию 201 ниям параметров, что становится непригодной. Бесконечно малые изменения параметров могут дать бесконечную диспер- сию. Даже если В0 или С° имеют нули внутри единичного кру- га, оптимальная система может все же быть чувствительной к изменениям параметров. Проиллюстрируем сказанное на при- мере. Пример Рассмотрим систему, описываемую уравнением у (I) + а*у (t — 1) = и (/ — 1) + b°u (t — 2) + е (/) + с°е (t — 1), (5.15) где а°=0,7, Ь°—0,99 и с°=0,95. Для получения стратегии уп- равления, минимизирующей дисперсию, используем равенство (4.13): (1+ eV) = (1 + aoq~l) + <Г'£о- Следовательно, go=cQ—Стратегия управления, минимизи- рующая дисперсию, имеет вид “W = “i^9W"-7T^9(/>- (5J6) Допустим, что закон управления определяется исходя из си- стемы с другим значением коэффициента при u(t—2). Тогда по- лучим следующий закон управления: При этом законе управления выходная переменная равна 7 q2 + q(b + c°) + (b — b°)aQ + cW 7 w/ 7 Ее дисперсия определяется выражением V (6) = Еу2 = ф н (z) Н (г-1) . 2,П1 J Z На рис. 6.5 показано, как дисперсия выходного сигнала за- висит от параметра Ь. Из рис. 6.5 видно, что оптимальная стра- тегия более чувствительна к изменениям параметра Ь, чем ква- зиоптимальная. Для получения закона управления, не являющегося опти- мальным, но менее чувствительного по сравнению с оптималь- ным к изменениям параметра Ь, можно использовать закон управления (5.10). Из равенства (5.9) получаем (1 + Лг‘) - (1 + «V) (1 + /Г') н ч-1 (1 + Ь°Т' I g-
202 Глава 6 Следовательно, f = bQ (с° — aQ) z(b° — aQ) = 0,966, g = _ a° (c° — cP) '(b° — cP) = 0,684, и закон управления (5.10) принимает вид и (0 =-------г //(/) =---------°’684 у (/). (5.17) 7 1 + fq-1 У ’ 1 + 0,966<7-1 У V ’ Рис. 6.5. Зависимость дисперсии выходного сигнала от параметра Ь. Из выражения (5.11) следует, что стратегия управления (5.17) дает следующую ошибку управления: у (f) = е (t) + fe (г — 1) = е (/) + 0,966е (/ — 1). Таким образом, стратегия управления (5.17) дает диспер- сию vart/= 1,93. (Минимальная дисперсия равна 1.) Допуская, что стратегия управления определена исходя из модели с параметром Ь, отличным от истинного значения Ь° для системы, находим, что ошибка управления равна 72 + ?(с" + Л +с7 q* + q (а° + f + g) + a<>f + b°g Вычисляя дисперсию выходной переменной для различных значений, параметра Ь, получаем результат, приведенный на
Стратегии управления, минимизирующие дисперсию 203 рис. 6.5. Видно, что закон управления (5.17) гораздо менее чув- ствителен к изменениям параметра 6, чем оптимальный закон управления (5.16). 5 -5 Рис. 6.6. Моделирование выходного и управляющего сигналов системы (5.15) при оптимальной стратегии управления (5.16). На рис. 6.6 и 6.7 показаны модели выходных и управляющих сигналов, когда система управляется по оптимальному (5.16) и квазиоптимальному законам управления (5.17). Упражнения 1. Для системы У (/) + 0,64г/ (/ — 1) + о,22у (/ — 2) - 6,4а (/ — 3) + + 19,2и(Z — 4) 4- X [е(/) — 0,82е(/ — 1) + 0,21е(/ — 2)]
204 Глава 6 Рис. 6.7. Моделирование выходного и управляющего сигналов системы (5.15) при квазиоптимальной стратегии управления (5.17). определить закон управления, минимизирующии дисперсию, и исследовать его чувствительность. Построить закон управле- ния, который менее чувствителен к изменениям параметров. 2. Сравнить дисперсию ошибки управления при законе уп- равления (5.10) с дисперсией ошибки (k—п2)-шагового учреди- теля. 3. Заменить равенство (5.9) следующим равенством: Н (q) C(q) = A (?) F' (?) + В2 (?) G' (?), где Н — произвольный полином степени n2+k—1. Показать, что закон управления и (/) =— ?* —-------у (fj 7 4 вг (q) F’ (q)ay> приводит к ошибке управления Н (?) У (0 = (0 е (0> а характеристическое уравнение замкнутой системы имеет вид H(z)B1(z)C(z) = 0. 4. Для системы, заданной уравнением (4.8), показать, что стратегия управления
Стратегии управления, минимизирующие дисперсию 205 где полиномы Fx и Gi степеней n-\-k—1 и п—1 соответственно определяются равенством С* (<?-') = (<?-) (</-’) + q~kB* <g~') G; (g~'), дает замкнутую систему с характеристическим уравнением zn+k-‘C(z) = 0, которая не очень чувствительна к изменениям параметров. Вы- числить дисперсию ошибки управления и сравнить с минималь- ной дисперсией. 5. Для системы у (t) + ay (t — 1) <= и (t — 1) + 2,5ц (/ — 2) + + и (t — 3) + e (/) + ce (t — 1) определить стратегию управления, минимизирующую дисперсию и соответствующую ошибку управления. Показать, что опти- мальная стратегия чрезвычайно чувствительна к изменениям па- раметров, и вывести с помощью методов, рассмотренных в раз- деле и в упражнении 4, квазиоптимальные стратегии управле- ния, которые не очень чувствительны к изменениям параметров. Определить ошибку управления для двух квазиоптимальных стратегий управления. 6. ПРОМЫШЛЕННОЕ ПРИМЕНЕНИЕ Введение В данном разделе рассмотрен пример промышленного при- менения теории, изложенный в разд. 4 и 5. Материал взят из ра- бот, выполненных в скандинавской лаборатории фирмы IBM в Стокгольме в связи с установкой управляющей вычислительной машины на бумагоделательной фабрике Billerud в Гравене (Швеция). Большая часть материалов взята из журнала фирмы IBM1. Автор выражает глубокую признательность фирме IBM за разрешение использовать эти материалы. Стохастическая теория управления была использована для решения некоторых задач управления качеством, а также уп- равления процессом в связи с исследованиями на фабрике Billerud. Мы опишем лишь приложение к одной типичной зада- че — к задаче управления весом бумаги. Рассмотрим примени- 1 Computer Control of a Paper Machine — an Application of Linear Sto- chastic Control Theory, IBM Journal of Research and Development, July 1967.
206 Глава 6 мость линейной стохастической теории управления и дадим ма- тематическую постановку задачи. Кратко обсудим также зада- чу получения математических моделей возмущений и динамики процесса по экспериментальным данным. Естественно, что это очень важная задача для практического приложения. Наконец, приведем некоторые эксперименты по управлению в контуре с помощью оптимальных стратегий. Перед установкой вычислительной машины для управления ситемой были исследованы флуктуации веса бумаги. Флуктуа- ции имели стандартное отклонение, равное 1,3 гс/м2. Плановая величина стандартного отклонения веса бумаги при управлении с помощью вычислительной машины была установлена равной 0,7 гс/м2. Управляющая вычислительная машина была установлена в декабре 1964 г. Два эксперимента для определения динамики процесса были проведены в марте 1965 г., а первая работа с ис- пользованием машины в контуре управления весом бумаги была выполнена в апреле 1965 г. Эксперимент длился 10 ч. С тех пор выполнено большое количество экспериментов, а с начала 1966 г. непрерывно действует замкнутая система управления ве- сом бумаги. Теперь при работе системы можно постоянно дости- гать стандартного отклонения 0,5 гс/м2 для веса во влажном со- стоянии и 0,3 гс/м2 для веса бумаги в сухом состоянии. Применимость стохастической теории управления Теория, описанная в разд. 4, базируется на следующих до- пущениях: 1. Динамика процесса описывается линейными дифференци- альными уравнениями с постоянными коэффициентами. Имеет- ся одна выходная и одна входная переменная. 2. Возмущения являются стационарными гауссовыми процес- сами с дробно-рациональными спектральными плотностями. 3. Критерий оптимальности — минимизация дисперсии вы- ходного сигнала. В начальной стадии проекта были выполнены эксперименты, которые показали, что возмущения, встречающиеся в процессе нормальной эксплуатации, настолько малы, что систему можно описать линейными уравнениями. Результаты, полученные в этих экспериментах, были впоследствии проверены в экспери- ментах над системой, управляемой с помощью вычислительной машины. Обычный спектральный анализ показал, что флуктуации мож- но представить стационарными процессами. Было показано так- же, что возмущения имеют почти нормальное распределение. Иногда возникают «нарушения», которые приводят к боль-
Стратегии управления, минимизирующие дисперсию 207 шим отклонениям. Причинами возникновения нарушений мо- гут быть, например, неисправности оборудования. Для устране- ния нарушений требуются особые корректирующие действия. Маловероятно, что эти типы возмущений можно описать вероят- ностными моделями. В дальнейшем эти нарушения не будут учитываться. Вес является важной качественной переменной для крафт- бумаги. При продаже бумаги обычно указываются допуски пе- ременных качества. Контрольные процедуры потребителей обыч- но осуществляются таким образом, что бумага принимается, ес- ли переменные качества для контрольной выборки лежат внутри контрольных пределов с заданной вероятностью. Так как в про- цессе нормальной эксплуатации всегда существуют флуктуации качества, производители бумаги выбирают задание для регуля- тора веса бумаги значительно выше нижнего контрольного пре- дела, чтобы быть уверенным в том, что их продукция удовлет- ворит требованиям потребителей. Уменьшение колебаний веса бумаги позволяет сдвинуть задание для регулятора ближе к приемлемому пределу и при этом не изменить вероятность попа- дания внутрь контрольных пределов (рис. 6.8). Это дает воз- Рис. 6.8. Распределение плотности вероятности для двух процессов.
208 Глава 6 можность увеличить прибыль, которая может быть выражена в экономии сырья или в увеличении выпуска продукции. В нашем частном случае эта прибыль составила существенную часть при- были, полученной от внедрения управления с помощью вычис- лительной машины. Производство бумаги с небольшими флуктуациями перемен- ных качества имеет также другие преимущества, например уп- рощение последующей обработки бумаги покупателем. Однако эти преимущества очень трудно оценить объективно. Так как флуктуации веса бумаги нормально распределены, задача установления задания как можно ближе к допустимому пределу сводится к такому управлению процессом, при котором дисперсия выходного сигнала была бы наименьшей. Подведем итоги. Были найдены веские доводы, что теорию, описанную в разд. 4, можно применить к задаче управления ве- сом бумаги. И ничего нет странного в том, что эта теория была действительно применена. Доводы о применимости теории были проверены в том смысле, что результаты, предсказанные стоха- стической теорией управления, были получены на практике. Математическая постановка задачи управления весом бумаги На рис. 6.9 показана упрощенная схема той части бумагоде- лательной машины, которая представляет интерес для управле- ния весом бумаги. Густая волокнистая масса, т. е. смесь фибры с водой (концентрация фибры ~3%), поступает из машинной камеры. Волокнистая масса перемешивается с чистой водой, так что концентрация фибры в напорном ящике уменьшается до 0,2—0,5%. На сетке фибра отделяется от воды, и образуется по- лотно бумаги, из которго на прессах удаляется вода. После это- го бумага обезвоживается на сушильных цилиндрах сушильной части машины. В данном случае на вес бумаги можно влиять путем измене- ния потока густой волокнистой массы и (или) ее плотности (т. е. концентрации фибры в густой волокнистой массе). Обе эти переменные непосредственно влияют на количество фибры, вытекающей из напорного ящика, а следовательно, и на вес бу- маги. Воздействие на управляющие переменные осуществляется путем выбора задания аналоговых регуляторов, которые управ- ляют задвижками, регулирующими поток и плотность густой во- локнистой массы. Вес бумаги определяется измерителем с бета-лучами. Выход- ной сигнал с бета-измерителя пропорционален массе фибры и боды на единицу площади, т. е. весу влажной бумаги, так как ко-
Стратегии управления, минимизирующие дисперсию 209 эффициенты абсорбции бе- та-лучей в фибре и воде при- близительно одинаковы. Для получения веса сухой бума- ги, т. е. массы фибры на еди- ницу площади, показания бета-измерителя должны быть скорректированы на величину, учитывающую влажность бумаги. Измери- тель влажности емкостного типа в нашем случае может перемещаться вдоль полотна бумаги, хотя обычно он ус- танавливается в фиксиро- ванном положении. Бета-измеритель уста- навливается также и перед сушильной частью. Вес бу- маги измеряется оператором и в контрольных лаборато- риях. Когда рулон бумаги готов, определяют его вес и размер, что дает очень точ- ную величину среднего веса рулона. Эта информация ис- пользуется для градуировки других измерителей. Анализ информации о весе бумаги показал,что: 1. Информация о размере и весе рулона бумаги может быть использована для кор- рекции измерений при дрей- фе бета-измерителя. 2. Высокочастотные флук- туации в измерителе влаж- ности и бета-измерителе имеют сходные характери- стики, а хорошей оценкой веса сухой бумаги служит величина y = WSP(l — MSP), (6.1) где WSP — градуированный сигнал с бета-измерителя, а 14—403 Рис. 6.9. Упрощенная схема части бумагоделательной машины.
210 Глава 6 MSP сигнал с измерителя влажности. Разность между весом сухой бумаги и оценкой у в выражении (6.1) является по суще- ству стационарным случайным процессом, который содержит много высокочастотных составляющих. 3. Оценка веса сухой бумаги, полученная с помощью выра- жения (6.1), улучшается незначительно при учете лаборатор- ных измерений. Рис. 6.10. Ковариационная функция флуктуаций веса влажной бумаги, полу- ченная до установки управляющей вычислительной машины. Были исследованы флуктуации веса бумаги в процессе нор- мальной эксплуатации. Изменения веса вызваны как неточно* стью работы машины, так и другими причинами. В данном слу- чае было обнаружено, что изменения веса по разным причинам являются стабильными, если принять некоторые меры предосто- рожности. Наблюдаемые флуктуации можно описать нормаль- ными случайными процессами. Значительную часть составляют низкочастотные изменения. Результаты измерений были разде- лены на группы продолжительностью около пяти часов. Перед выполнением временного анализа было устранено смещение. На рис. 6.10 показана типичная ковариационная функция флуктуа- ций веса бумаги. Во всех изученных случаях было найдено, что колебания веса бумаги имеют стандартное отклонение, равное (или больше) 1,3 гс/м2. Была исследована возможность управления весом бумаги с помощью тщательного регулирования машинной скорости, по- тока густой волокнистой массы и плотности. Были проведены эк-
Стратегии управления, минимизирующие дисперсию 211 сперименты для определения корреляции между флуктуациями веса бумаги и флуктуациями потока и плотности густой волок- нистой массы. Результаты этих исследований показали, что в данном конкретном случае невозможно поддерживать вес бума- ги на постоянном уровне с помощью тщательного регулирова- ния машинной скорости и потока фибры. Поэтому было решено управлять весом бумаги с помощью обратной связи по измере- ниям потока и плотности густой волокнистой массы в конце су- шильной части бумагоделательной машины. Динамика процесса в бумагоделательной машине такова, что существует связь между весом сухой бумаги и ее влажно- стью. Увеличение потока густой волокнистой массы или ее плот- ности ведет к увеличению влажности, а также веса сухой бума- ги. Изменение давления пара в сушильной части влияет только на влажность бумаги и не влияет на ее вес в сухом состоянии. Эта связь не была известна заранее, но первые эксперименты по идентификации объекта обнаружили этот эффект. Особый ха- рактер связей позволяет рассматривать замкнутую систему уп- равления весом сухой бумаги как систему с одним входом и од- ним выходом. Однако управляющие воздействия этой системы (поток густой волокнистой массы) будут вносить возмущения в содержание влаги. Эти возмущения можно исключить, исполь- зуя поток густой волокнистой массы в качестве входной пере- менной в систему управления влажностью. Система управления весом сухой бумаги может быть, таким образом, рассмотрена как система с одной входной переменной (поток густой волокни- стой массы) и одной выходной переменной (переменная у, за- данная формулой (6.1)). Заметим, однако, что систему управ- ления влажностью необходимо рассматривать как систему с дву- мя входами и одним выходом. Выше мы видели, что дисперсия веса сухой бумаги является хорошей мерой качества системы управления весом. Следова- тельно, если оценка веса бумаги, определяемая выражением (6.1), отличается от веса сухой бумаги на величину, которая яв- ляется высокочастотным шумом, то минимизация дисперсии веса сухой бумаги будет эквивалентна минимизации дисперсии у. Отметим, что эти рассуждения неверны, если отклонения со- держат низкие частоты. Итак, управление системой должно осуществляться так, что- бы дисперсия выходного сигнала у была минимальной. Для пол- ной постановки задачи управления необходимо дать описание динамики процесса и характеристик возмущений. Коррекции, которые требуются для управления процессом во время нормальной эксплуатации, настолько малы, что система может быть описана линейными дифференциальными уравнени- ями с запаздыванием на входе. Время запаздывания Td зависит 14*
212 Глава 6 от времени, которое необходимо для транспортировки фибры в бумагоделательной машине. Уравнения, описывающие динами- ческие процессы, могут быть частично определены из уравнений непрерывности для потока. Однако степень смешения в бассей- нах является неопределенной величиной. Кроме того, механизм прохождения фибры через сетку также достаточно сложен. По- этому прямой вывод уравнений приводит к очень неопределен ной модели для динамики процесса. Поскольку при получении закона управления необходимо учитывать цифровую вычислительную машину, рассмотрим мо- дель с дискретным временем. Если предположить, что интервал дискретизации Ts выбран так, что Td кратен Ts, а сигнал управ - ления постоянен на интервале дискретизации, то динамику про- цесса можно представить обычной линейной моделью, описыва- емой уравнением (4.1). Так как объект линеен, можно использовать принцип супер- позиции и свести все возмущения к эквивалентному возмуще- нию на выходе (сравнить с выражением (5.5)). Если, кроме то- го, возмущения стационарны и имеют дробно-рациональные спектральные плотности, их всегда можно представить моделью (4.6). Таким образом, процесс и возмущения можно представить уравнением (4.7), которое можно свести к уравнению (4.8). Итак, получаем задачу управления системой, которая описы- вается уравнением (4.8) с критерием минимума дисперсии вы- ходного сигнала. Если коэффициенты полиномов 4, Ви Си целые числа п nk известны, решение задачи следует непосредственно из теоремы 4.1. На практике, однако, возникает дополнительная задача оп- ределения параметров модели. Идентификация процесса Как было установлено, очень трудно получить математичес- кую модель исходя только из физики процесса. Мы определили модель, заданную уравнением (4.8), непосредственно по наблю- дениям процесса. Для этого мы варьировали управляющие сиг- налы и наблюдали результирующие изменения на выходе. На основе записанных пар входных и выходных величин {u(t), y(t), /=1, 2, ..., N} определяли модель (4.8) процесса и возмущений. Так как полное описание методов идентификации не входит в круг вопросов, рассматриваемых в этой книге, мы не будем об- суждать детали проведенной работы. Некоторые замечания по вопросам идентификации процесса можно найти в разд. 7. Затем задача решается определением оценки параметров мо- дели на основе последовательности пар входных и выходных ве-
Стратегии управления, минимизирующие дисперсию 213 личин {«(/), */(О, ^=1, 2, N} по методу максимума правдо- подобия 0=(аи ап, bQ, bv---, bn_{, с{, с2,•••,£„) (в данном разделе предполагается, что коэффициент Ьп полино- ма В равен нулю). Максимизация функции правдоподобия эк- вивалентна минимизации функции потерь: А Г(е) = тХе2(/)’ (6'2)‘ 1=1 где числа е(/) связаны с входными и выходными сигналами уравнением С,(<7-,)е(О=Д’(<7“1)//(П-В*(Г1)«а-^). (6-3)- Числа е(/) можно интерпретировать как ошибки одношагового упреждения (сравнить с теоремой 4.1). А А После того как найдено 0 = 0, такое, что V(0) минимально, оценку максимума правдоподобия для X получают по формуле V = . (6.4) N Таким образом, задача идентификации сводится к задаче нахождения минимума функции нескольких переменных. Функция V минимизируется последовательно по методу гра- диента, который включает вычисление градиента V0 по пара- метрам для функции У, а также вычисление матрицы из вторых частных производных У00. Благодаря особому выбору структуры модели довольно легко можно вычислить производные функции потерь. Дело в том, что для больших N количество вычислений растет линейно с ростом порядка модели. Для получения начального значения для алгоритма макси- мизации положим с = 0. Тогда функция V будет квадратичной по а и b и алгоритм сходится за один шаг; при этом среднеквад- ратическая ошибка минимальна. Величину этой ошибки берем в качестве начальной точки для градиентного метода. Чтобы ус- тановить, имеет ли V (0) локальный минимум, выберем еще не- сколько других начальных точек. В работе [8] (см. литературу в разд. 7) показано, что при некоторых ограничениях оценка по методу максимума правдо- подобия состоятельна, асимптотически нормальна и эффектив- на. Эти ограничения тесно связаны с информационной матри- цей, оценка которой дается выражением / = v2voe. (6.5),
214 Глава 6 Матрица Ve0, которая была вычислена для установления -быстрой сходимости градиентного метода, имеет, таким образом, физическую интерпретацию. Эксперименты по определению динамики процесса Описанная выше процедура идентификации была широко применена в исследованиях на фабрике Billerud по управлению качеством бумаги, ее весом, влажностью и чистотой. Ниже об- суждены некоторые практические результаты, полученные при использовании описанных процедур в системе управления весом бумаги. При выполнении экспериментов применяли управляющую вычислительную машину. Управляющий сигнал представляли последовательностью чисел, записанных в памяти управляющей Время, ч Рис. 6.11. Результаты эксперимента по идентификации про- цесса.
Стратегии управления, минимизирующие дисперсию 215 вычислительной машины. Числа этой последовательности пери- одически считывались и преобразовывались в аналоговые сиг- налы с помощью цифро-аналогового преобразователя (Д/А) и программ регулярного цифро-аналогового (Д/Л) преобразова- ния. Выходные сигналы процесса преобразовывались в числа с помощью аналогово-цифрового преобразователя (Л/Д) управля- ющей вычислительной машины. Таким образом, входные и вы- ходные сигналы представляются числами, которые появляются в управляющей вычислительной машине точно так же, как они появляются в ней, когда вычислительная машина управляет процессом. Динамика датчиков сигналов, линий передачи, Д/Л- и Л/Д-преобразователей включается, таким образом, в модель. Возмущения в датчиках и преобразователях, а также ошибки округления включаются в возмущения, действующие на модель. Весь эксперимент выполняется по программе. Результаты ти- пичного эксперимента по идентификации приведены на рис. 6.11. Выбор входного сигнала Выбор входного сигнала базируется на следующих сообра- жениях. Амплитуда сигнала должна быть большой, чтобы полу- чить хорошие оценки. Однако большие входные сигналы могут вывести систему из линейного режима работы и привести к не- приемлемо большим колебаниям переменных процесса. В дан- ном конкретном случае все эксперименты проводились в процес- се нормальной эксплуатации, поэтому была использована до- вольно сложная процедура идентификации. Отметим, что для получения заданной точности возможен компромисс между вы- бором амплитуды сигнала и длиной реализации. При идентифи- кации моделей для расчета законов управления весом бумаги обычно использовались реализации длиной 1—5 ч. Амплитуды сигналов, показанных на рис. 6.11, в соответствии с полным раз- махом колебаний 1,7 гс/м2 являются типичными. Это значение было приемлемым в данном случае. Стандартное отклонение в процессе нормальной работы без управления обычно равно 1,3 гс/м2. В качестве входных сигналов с успехом были использованы псевдослучайные двоичные сигналы. Однако было обнаружено, что, если имеются некоторые сведения о процессе, желательно использовать в определенных случаях контрольные сигналы. Числовой пример идентификации Рассмотрим на конкретных примерах процедуру числовой идентификации. Примеры построены на основе данных рис. 6.11. Проанализируем математические модели, связывающие измене-
216 Глава 6 ния веса сухой (WSPO) и влажной бумаги (WSP) с изменения- ми потока густой волокнистой массы (задания для регулятора). Из рис. 6.11 видно, что выходной сигнал смещается. Это смеще- ние более заметно в контрольных экспериментах большей дли- тельности. Для учета смещений мы использовали модели, связывающие изменения на выходе и на входе: уу(0 = 1 + "'+&n-197 v«(t-k) + 1 1 n n—1 I . . . n l+£i£ 7“" (6.6) где V — следующий оператор: \У (t) = y(t) — y[t — V). Уравнение (6.6) можно переписать в виде У (/) = ?<)-+?1 ‘ + ^-1qу u (/ - fe) + 1 + Я ,—п e(t). (6.7) Временной интервал во всех случаях равен 0,01 ч. Все примеры базируются на данных, представленных на рис. 6.11, с времен- ным интервалом 21,53—22,58 ч. Процедура идентификации выполняется последовательно: сначала для системы первого порядка, затем для системы вто- рого порядка и т. д. Для получения величины k при фиксиро- ванном порядке идентификация повторяется со сдвигом входно- го сигнала. Пример 1. Модельt связывающая вес сухой бумаги с потоком густой волокнистой массы Рассмотрим модель, связывающую вес бумаги с потоком гус- той волокнистой массы. Прежде всего проведем идентификацию модели первого порядка, имеющей структуру (6.6). Применяя алгоритм числовой идентификации, получим результаты, пред- ставленные в табл. 1. Исходя из начальной оценки параметра 0 = 0, первый шаг алгоритма идентификации дает оценки параметров по методу наименьших квадратов. Затем эти оценки последовательно улуч- шаются до тех пор, пока функция потерь V(0) [формула (6.2)] не станет минимальной, т. е. пока не будет получена оценка по методу максимума правдоподобия.
Стратегии управления, минимизирующие дисперсию 217 Таблица 1 Параметры, полученные последовательно при итерациях, для модели первого порядка, связывающей вес сухой бумаги с потоком густой волокнистой массы (& = 4, Л7= 101) Шаг Ьо Ci V — - 105 да ^.10» дЬ dV 1Л- . 10° дс 0 0 0 0 6,7350 91 683 39 509 —91 683 1 —0,0122 13,0054 0 4,1603 0 0 193 777 2 —0,3924 13,9396 —0,6320 3,3764 —78 727 1 190 51 707 3 —0,3492 14,6689 —0,6542 3,3360 1 339 —69 2 575 4 —0,3502 14,6468 —0,6572 3,3360 106 —3 —165 5 —0,3500 14,6468 —0,6569 Отметим, в частности, значительное расхождение в оценках по методу наименьших квадратов (шаг 1) и по методу максиму- ма правдоподобия. Отметим также скорость сходимости. Мат* рица вторых частных производных на последнем шаге итерации имеет вид V v ее 19,28 —0,29 —8,86 —0,29 —8,86 0,04 0,06 0,06 12,05 Повторяя идентификацию для разных значений времени за- держки k, получим результаты, представленные в табл. 2. Таблица 2 Результаты идентификации моделей первого порядка, связывающих вес сухой бумаги с потоком густой волокнистой массы, для разных значений времени задержки k (к ь. X V 1 —0,807 9,846 —0,994 0,297 4,491 4 —0,350 14,647 —0,657 0,257 3,336 5 —0,749 1,286 —0,958 0,351 6,152 Из таблицы находим, что функция потерь V имеет наимень- шее значение при & = 4. Для определения точности параметров модели поступаем следующим образом. Оценка информационной матрицы Фишера получается из матрицы вторых частных производных VV
218 Глава 6 Можно показать, что эта оценка математическим ожиданием 0о и не сингулярна. Ковариация асимптотического асимптотически нормальна с ковариацией Ve0 1~1, если Кев распределения имеет вид '0,006 0,042 0,042 2,202 0,004 0,020 0,004' 0,020 0,008 Таким образом, получаем следующие числовые значения для наилучшей модели первого порядка (вычисления сделаны по 100 парам входных и выходных данных): k = 4, с=—0,66 ± 0,09, а =— 0,35 + 0,08, X = 0,257 ± 0,017, Ь = 14,6 ±1,5, V = 3,34 ± 0,44. Применяя алгоритм идентификации к модели второго поряд- ка, получим следующие результаты (опять на основе 100 пар входных и выходных данных): k = 3, ^=—0,46 ± 0,14, а2 = 0,04 ± 0,12, Ьа = 3,4 ± 1,6, &х = 12,3 ± 2,2, сг =—0,73 ± 0,18, с2 = 0,12 ± 0,16, % = 0,249 ± 0,017, V = 3,15 ± 0,43. Матрица вторых частных производных в точке минимума имеет вид 22,47 13,83 13,83 22,47 —0,08 —0,17 0,36 —0,08 —7,61 —4,94 — 1,87 —7,59 1 V „ = —0,08 —0,17 0,04 0,02 0,05 —0,05 k ее 0,36 —0,08 0,02 0,04 0,06 0,06 —7,61 —4,94 0,05 0,06 11,06 6,60 1,87 —7,59 —0,05 0,06 6,60 10,56 _ Предполагая, что возможно применение теории асимптоти- ческих приближений, можно решать различные статистические проблемы. Например, проверим нулевую гипотезу: модель имеет первый порядок Яо: (а° = &’ = ^ = 0). С помощью теории асимптотических приближений найдем, что статистика * v2 ’ з
Стратегии управления, минимизирующие дисперсию 219 (/) = +•••+&„! <?П+1 при нулевой гипотезе имеет распределение F(3, N—6). Символ V2 обозначает минимальную величину функции потерь для мо- дели второго порядка, Vi — минимальную величину для модели первого порядка, N\ — количество пар входных и выходных ве- личин. В этом частном случае g= 1,9. При уровне риска 10% имеем F (3,96) =2,7, т. е. нулевая гипотеза (гипотеза о том, что система первого порядка) должна быть, таким образом, принята. Результаты процедуры идентификации приведены на рис. 6.12, где и — входная переменная, у — выходная перемен- ная, уа — детерминированная выходная переменная, определяе- мая по формуле yd I “Г “1 Ч "Г • •• ГипЧ ed(t) =y(t)—yd(t) — ошибка детерминированной модели, л л y(t\t—1) —одношаговый упредитель, y(t)—y(t\t—1) —ошибка одношагового упреждения. Рис. 6.12 иллюстрирует качество идентификации. Детермини- рованная выходная переменная yd(t) показывает ту часть сиг- нала y(t) на выходе, которая обусловлена действием u(t) на входе. Ошибка ed(t) представляет, таким образом, часть выход- ного сигнала, которая вызывается возмущениями. Отметим, в частности, осциллирующий характер ошибки ed(t). Одношаго- вый упредитель иллюстрирует, насколько хорошо выходной сигнал может быть предсказан за один шаг. Напомним, что мо- дель была фактически построена так, чтобы минимизировать сумму квадратов ошибки одношагового упреждения. Процедура идентификации основывалась на допущении, что ошибки нормальны и не коррелированы. Осуществив идентифи- кацию и вычислив ошибки е(/) одношагового упреждения, мы получили возможность проверить это допущение. На рис. 6.13 приведена ковариационная функция ошибок од- ношагового упреждения. Пример 2. Модель, связывающая вес влажной бумаги с потоком густой волокнистой массы Во втором примере процедуры числовой идентификации ис- пользуем данные рис. 6.11 для определения модели, связываю- щей вес влажной бумаги с потоком густой волокнистой массы. В этом случае минимальная величина функции потерь для мо- дели первого порядка достигается при k=4, а коэффициенты наилучшей модели первого порядка равны k = 4, q =— 0,62 ± 0,10, аг =— 0,38 ± 0,05; 1 = 0,364 ± 0,025, Ьо = 27,1 ±2, V = 6,60 + 0,94.
Рис. 6.12. Результаты идентификации для модели первого порядка, связы- вающей вес сухой бумаги и поток густой волокнистой массы.
Стратегии управления, минимизирующие дисперсию 221 Рис. 6.13. Ковариационная функция ошибок для модели первого порядка. По предположению в теории идентификации г(т) должна обращаться в нуль при т#=0. Аналогично наилучшая модель второго порядка задается следующими коэффициентами: k = 3, сг =—0,82 ± 0,14, аг =— 0,64 ±0,11, с2 = - 0,21 ± 0,14, а2 = 0,22 ± 0,09, X = 0,335 ± 0,024, Ьь = 6,4 ± 2,0, V = 5,73 ± 0,80. Ь, = 20,2 ± 3,0, Матрица вторых частных производных в точке минимума име- ет вид
222 Глава 6 ’ 79,24 53,37 53,37 79,12 —0,13 —0,40 0,76 -0,13 — 12,68 —5,93 —0,13 - — 11,44 V = к ее —0,13 0,76 —0,40 —0,13 0,04 0,02 0,02 0,04 0,06 0,10 —0,07 0,10 -12,68 —5,93 0,6 0,10 17,64 7,83 —0,13 — 11,44 —0,07 0,10 7,83 15,12_ a 6 ~2 ---L y(tlt-D y-ya Рис. 6.14. Результаты идентификации моделей системы управления весом бумаги. jHiiw/ij _i_i.-., i_iN । । । । । 0 0,5 Ip Время, ч
Стратегии управления, минимизирующие дисперсию 223 Теперь проверим нулевую гипотезу: модель имеет первый по- рядок Я:(^ = &о = С° = О). С помощью теории асимптотических приближений находим, что 5=4,8, и, следовательно, гипотеза должна быть отвергнута. Уве- личение порядка системы до трех не приводит к существенному улучшению функции потерь. Таким образом, если в качестве выходной переменной систе- мы рассматривать вес сухой бумаги, модель будет иметь пер- вый порядок (рис. 6.14,а), а если в качестве выходной перемен- ной рассматривать вес влажной бумаги, модель будет иметь второй порядок (рис. 6.14,6). Это различие находит следующее физическое объяснение. Из рис. 6.11 видно, что изменение пото- ка густой волокнистой массы влияет на вес сухой бумаги и на ее влажность. При увеличении потока густой волокнистой массы вес сухой бумаги и влажность увеличиваются. Повышение влажности затем компенсируется системой управления влаж- ностью с обратной связью, которая устанавливает задание четвертой сушильной части бумагоделательной машины с по- мощью обратной связи и измерителя влажности. Эти два эф- фекта объясняют отклонения в весе влажной бумаги. Следовательно, на вес влажной бумаги влияет замкнутая цепь управления влажностью. Это служит еще одним аргумен- том в пользу использования веса сухой бумаги в качестве управ- ляющей переменной, когда замкнутая цепь управления весом бумаги рассматривается как система с одной входной и одной выходной переменными. Практические результаты управления весом бумаги Приведем некоторые результаты, полученные при использо- вании в контуре управления ЭВМ для управления весом бума- ги. Программа экспериментов преследовала две цели: получить управляющие стратегии для конкретного приложения и прове- рить применимость стохастической теории управления к практи- ческим задачам управления. Проведение некоторых эксперимен- тов продолжалось даже в тех случаях, когда конкретные систе- мы управления работали удовлетворительно. Были исследованы некоторые схемы управления. В качестве управляющих пере- менных выбрали поток густой волокнистой массы и ее концент- рацию и регулировали вес влажной и сухой бумаги. В первых экспериментах в качестве управляющей переменной брали кон- центрацию густой волокнистой массы. Позднее ее заменили по- током густой волокнистой массы, так как обнаружили, что вес
224 Глава 6 бумаги более чувствителен к изменениям задания для регулято- ра потока густой волокнистой массы. Кроме того, динамика ре- гулятора концентрации зависит от рабочих условий, что приво- дит к изменениям динамики системы управления. В общем случае на практике очень трудно оценить характе- ристики систем управления, и в частности трудно сравнить раз- личные законы управления. Главная причина этого состоит в в колебаниях уровня возмущений. Это означает, что для оценки различных систем управления необходимы контрольные перио- ды разной длины. Также очень трудно оценить эффективность системы управления, если не имеется каких-либо справочных величин. В нашем случае были известны результаты исследова- ния выполнимости поставленных требований: до установки уп- равляющей вычислительной машины стандартное отклонение в весе бумаги выбрали в качестве исходной справочной величины. На стадии исследований плановая величина флуктуаций веса бумаги равнялась 0,7 гс/м2. В настоящее время в процессе рабо- ты можно получать постоянно стандартное отклонение 0,5 гс/м2 для веса влажной бумаги и 0,3 гс/м2 для веса сухой бумаги. Управление весом бумаги с ЭВМ в контуре управления ус- пешно осуществилось 28 апреля 1965 г. в течение контрольного периода длительностью 10 ч. Первые эксперименты показали, что действительно можно получить дисперсии, предсказанные по результатам идентификации процесса. Можно было также показать, что отклонения для управляемой системы являются скользящими средними соответствующего порядка.Система уп- равления весом бумаги была подвергнута тщательным исследо- ваниям, а в 1966 г. была введена в действие и работает до сих пор в непрерывном режиме. При этом были выполнены два типа экспериментов. В пер- вом типе экспериментов система управления работала в режиме нормальной эксплуатации в течение нескольких недель. Некото- рые данные были объединены на сравнительно длинных выбо- рочных интервалах (0, 1 ч). Результаты глубоко не анализиро- вались, а характеристики системы управления оценивались на основе максимального отклонения от контрольных лаборатор- ных данных, изучения диаграмм с записывающих устройств и заключений операторов. Другой тип экспериментов проводился для периодов по 30— 100 ч. Важные переменные процесса устанавливались на интер- вале дискретизации, равном 0,01 ч. При анализе данных вычи- сляли ковариационные функции управляемых переменных и проверяли, являются ли они скользящими средними соответству- ющих порядков (теорема 4.1). Дисперсии сравнивались со спра- вочными значениями. В некоторых случаях проводили также идентификацию моделей динамики системы, вычисляли страте-
Поток густой Вес сухой Вес влажной волокнистой бумаги, бумаги, массы, гс/мг гс!мг гс[м.г 15 70 70 65 Стратегии управления, минимизирующие дисперсию Рцс. 6.15. Результаты исследования работы системы с ЭВМ в контуре управления весом бумаги.
226 Глава 6 гию управления, минимизирующую дисперсию и, если требова- лось, обновляли параметры алгоритмов управления. На рис. 6.15 приведена выборка за 24 ч работы системы уп- равления весом бумаги. Масштаб для управляющего сигнала (потока густой волокнистой массы) выбран таким же, как и для Рис. 6.16. Ковариационная функция для флуктуаций веса сухой бумаги в интервале времени с 23.00 до 12.00 (по данным рис. 6.15). веса сухой бумаги. Величина управляющего сигнала, следова- тельно, непосредственно дает величину уменьшения флуктуаций веса сухой бумаги при данном законе управления. Таким обра- зом, сигнал управления показывает приблизительно возмущения на выходе системы. Отметим различные характеристики возму- щений в разные моменты времени. Значительные возму- щения в 14.30 и 18.00 обусловлены большими флуктуациями плотности густой волокнистой массы. В работе системы наблю- дались два перерыва: один в результате разрыва бумаги и дру- гой в момент очистки сушильной части машины. В эти моменты система управления весом бумаги автомата- чески отключается, а сигнал управления поддерживается посто- янным до тех пор, пока не будут устранены возмущения, после чего система управления автоматически включается вновь. За- метим, что разрыв бумаги не вносит каких-либо серьезных воз- мущений. Также отметим, что имеются некоторые изменения,
Стратегии управления, минимизирующие дисперсию 227 качества, по которым можно судить о реакции управляемой си- стемы на шаговые изменения в справочных величинах. Для уп- равления степенью влажности между измерителем влажности и регулятором давления в четвертой сушильной части была введе- на обратная связь. Стандартное отклонение влажности равня- лось 0,4%. На рис. 6.16 приведена ковариационная функция ве- са сухой бумаги на временном интервале. Как и следовало ожи- дать из теоремы 4.1, ковариационная функция является скользя- щим средним четвертого порядка. (Сравнить с ковариационной функцией системы без вычислительной машины в контуре уп- равления.) Были также проведены эксперименты по определению харак- теристйк высокочастотных флуктуаций влажности и веса бума- ги. Было сделано предположение, что эти характеристики оди- наковы. Если бы оно было верным, то дисперсия веса сухой бу- маги не зависела бы от управления весом влажной или сухой бумаги. В табл. 3 приведены стандартные отклонения, записан- ные в течение 30 ч при попеременном управлении весом влажной и сухой бумаги. Таблица 3 Стандартные отклонения веса влажной и сухой бумаги (управляемые переменные) в течение 30 ч Стандартное отклонение веса бумаги влажной 1 сухой При управлении весом влаж- ной бумаги 0,50 0,38 При управлении весом сухой бумаги 0,52 0,28 Упражнение Определить стратегии управления, минимизирующие диспер- сию для моделей примеров 1 и 2 разд. 4. Проанализировать чув- ствительность оптимальных стратегий по отношению к измене- ниям параметров. 7. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА Результаты, изложенные в главе, взяты из работы [1]. Алго- ритм для к-шагового упреждения, приведенный в теореме 3.1, является новым результатом. Частный случай для к=1 рас- смотрен в работе [2]. Теорема 4.1 опубликована в работе [3]. 15*
228 Глава 6 Пример практического применения теории, рассмотренный в разд. 6, взят из этой же работы. Идея решения задачи управления и упреждения, состоящая в том, что случайные процессы представляются последователь- ностью независимых одинаково распределенных случайных пе- ременных, изложена в работе [4]. Близкий подход к задаче уп- равления приведен также в работе [5]. Дополнительный мате- риал о задаче управления производством бумаги приведен в ра- ботах [6, 7]. Применение метода максимального правдоподобия к задаче идентификации подробно рассмотрено в работе [8]. 1. Astrom К. J., Notes on the Regulation problem, Report CT211, IBM Nor- dic Laboratory, 1965. 2. Astrom K. J., Bohlin T., Numerical Identification of Linear Dynamic System from Normal Operating Records, in Theory of Self-Adaptive Control Sys- tems, P. H. Hammond (ed) pp. 94—111, Plenum Press, N. Y., 1966. 3. Astrom K., Computer Control of a Paper Machine — an Application of Linear Stochastic Control Theory, IBM J. Res. Develop., 11, 389—405 (1967). 4. Whittle P., Prediction and Regualtion, English Univ. Press, London, 1963. 5. Box G. E. P., Jenkins G. M., Time Series Analysis, Forecasting and Control, Holden Day, San Fransisco, 1970. 6. Astrom K. J., Control Problems in Papermaking Proc., IBM Sci. Comput. Symp. Control Theory and Appl., October 19—21, 1964. 7. Ekstrom A., Integrated Computer Control of a Paper Machine-System Sum- mary, Proc. Billerud, IBM Symp., 1966. & Astrom K. J., Bohlin T., Wensmark S., Automatic Construction of Linear Stochastic Dynamic Models for Stationary industrial Processes with Ran- dom Disturbances using Operating Records, Tech. Paper TP 18.150, IBM Nordic Laboratory (1965).
Глава 7 ТЕОРИЯ ФИЛЬТРАЦИИ И УПРЕЖДЕНИЯ 1. ВВЕДЕНИЕ В гл. 6 показано, что задача стохастического управления тесно связана со статистической задачей упреждения (предска- зания). В задаче для простого регулятора мы видели, что опти- мальная стратегия управления получается просто с помощью расчета к-шагового упредителя и выбора такого управляющего сигнала, чтобы к-шаговый упредитель был согласован с желае- мым выходом. В данной главе задача упреждения изучена бо- лее подробно. Цель главы — получение таких результатов тео- рии упреждения и фильтрации, которые необходимы для реше- ния задач линейного и квадратического управления в общем случае. Теория упреждения и фильтрации в настоящее время хо- рошо разработана. Мы не собираемся излагать ее здесь полно- стью, а сконцентрируем внимание на тех результатах, которые необходимы для решения задач стохастического управления. Постановка задач упреждения и фильтрации дана в разд. 2. Особое внимание обращается на задачу оценки состояния дина- мической системы. Изучена также связь между различными по- становками задач. Показано, что во многих случаях наилучшая оценка представляется как условное математическое ожидание предсказываемого сигнала относительно всех наблюдаемых дан- ных. В разд. 3 рассмотрены свойства условных распределений многомерных нормальных распределений. Дана геометрическая интерпретация полученных результатов. Оценка состояния для систем с дискретным временем обсуж- дается в разд. 4. Эта задача тесно связана с задачей восстанов- ления состояния, которая изучена в гл. 5. Показано, что восста- новление, полученное в гл. 5, действительно является оптималь- ным. Основным результатом является формула оценки состоя- ния для фильтра Калмана. Результат найден с помощью свойств многомерных гауссовых распределений, полученных в разд. 3. В разд. 5 показано, что задача фильтрации двойственна задаче оптимального детерминированного управления. Идея двойствен- ности используется затем в разд. 6 при получении решения зада- чи* оценки состояния для систем с непрерывным временем.
230 Глава 7 2. ПОСТАНОВКА ЗАДАЧ УПРЕЖДЕНИЯ И ФИЛЬТРАЦИИ Задачи фильтрации и упреждения можно сформулировать следующим образом. Рассмотрим два действительных стохасти- ческих процесса {s(0, tf. Т} и {«(/), ttT}, которые назовем со- ответственно сигналом и шумом. Допустим, что сумма У (f) = s (0 + п (/) наблюдаема и может быть измерена. В момент времени t полу- чаем реализацию г/(т), измеряемой переменной. На ос- нове этой реализации требуется определить наилучшую оценку величины сигнала в момент времени t\. При t\<t поставленная задача называется задачей сглаживания или интерполяции, при t\ = t — задачей фильтрации, при ti>t— задачей прогноза или упреждения. В несколько более общей постановке задачи требуется оце- нить функционал от сигнала типа dsfdt или J sdt, исходя из наб- людаемой суммы сигнала и шума. Множество наблюдений, которые служат для оценки s(/i), будем обозначать через У. Для процессов с дискретным време- нем множество Т является множеством целых чисел, а У есть вектор: г = (/&). 7(/о + 1),..., /(0). Для процессов с непрерывным временем У является функ- цией, определенной на интервале (/0, 0- Иногда будем явно указывать, что У зависит от t. Для этого будем использовать обозначение Yt. Пусть У и seS. Оцениватель (интерполя- тор, фильтр, упредитель) является функцией, которая отобража- ет 2/ в S. Значение этой функции при конкретном значении У на- А зывается оценкой и обозначается через Для полного описания любой из этих задач необходимо опре- делить, что представляют собой сигнал и шум, критерий, по ко- торому определяется наилучшая оценка, и ограничения на допу- стимые оцениватели. Сигнал и шум можно определить многими способами. Их можно представить процессами с дискретным и непрерывным временем, можно охарактеризовать ковариационными функция- ми, спектральными плотностями, стохастическими разностными или дифференциальными уравнениями. Много возможностей также существует для определения «наилучшей» оценки. Например, можно определить функцию по- терь / как действительную функцию со следующими свойства- ми: /^-0, /(х) =/(—х) и / не убывает для х>0. Тогда потери яв- А ляются стохастической переменной I(s—s), а наилучшая оцен-
Теория фильтрации и упреждения 231 Л ка, которая минимизирует средние потери EI(s—s). Оцениватель мы определили как функцию, которая отображает У в S. Можно потребовать, чтобы эта функция была линейной или имела ка- кие-либо другие свойства. Оценка состояния По-видимому, существует много возможностей для постанов- ки задачи оценки. Для стохастической теории управления наи- больший интерес представляет тот случай, когда сигнал и шум можно задать стохастическими разностными или дифференци- альными уравнениями. Для процессов с дискретным временем будем иметь уравнения вида х(* + 1)=Фх (0 + ?(0, (2.1) у(О = 0х(О + е(О, (2.2) где {у(0} и {е(0}—последовательности независимых гауссо- вых случайных переменных. Для процессов с непрерывным вре- менем имеем dx — Axdt + dv, (2.3) dy = Cxdt + de, (2.4) где {t»(0} и {e(0}—винеровские процессы. Предположим, что известна реализация наблюдаемого выхода у(х), и тре- буется оценить вектор состояния <(2.1) или (2.3). Эта частная задача называется задачей оценки состояния. Предварительные результаты Сделаем предварительно несколько замечаний, которые поз- волят установить эквивалентность различных постановок задач оценки. Прежде всего заметим, что вся необходимая статистиче- ская информация, извлекаемая из наблюдений стохастической переменной s(/j), содержится в условном распределении Р |$(/1)<л|0(т) = *1 (т), = F(a|r]). (2.5) Плотность распределения обозначается через /(%])• Предпо- ложим, что наилучшая оценка определяется как оценка, мини- мизирующая среднюю величину функции потерь /. Для нахождения наилучшего оценивателя необходимо, таким А А образом, найти функцию s=s(r]), ркую, что критерий El(s — s) (2.6)
232 Глава 7 имеет минимальное значение. Для этого перепишем критерий в л таком виде, в котором зависимость $ отт) будет явной. Имеем El (s - s) - £ {/ (s - s) | т)}], (2.7) где Е{-|т)} обозначает условное математическое ожидание при */(т)=т](т), /оА'гАА Минимизация выражения (2.7) по всем Л Л функциям s=s(r]) эквивалентна, таким образом, минимизации Л 00 А £{/(s —s)|t)}= J Z(G — s)f(a|r])da. (2.8) Фундаментальные результаты изложены в теореме 2.1. Теорема 2.1. Предположим, что условное распределение s(/i) при у=т] имеет функцию плотности, симметричную относитель- но условного математического ожидания т= Jaf(o|r])do и не- возрастающую при о^т. Пусть функция потерь / является симметричной и неубывающей для положительных значений аргумента. Тогда наилучшая оценка задается условным мате- матическим ожиданием s = s (г)) = Е {s | т)} = J af (о | г)) do. (2.9) Доказательство. Доказательство основано на следующей лемме для действительных функций: Лемма. Пусть g и h — две интегрируемые действительные функции со свойствами g (х) >0, h (х) > 0, g (х) = g (—х), h (х) = h (—х), g(x) не убывает при х;>0, h (х) не возрастает при х > 0. Тогда оо оо g (х + a) h (х) dx J g (х) h (х) dx, — оо — оо если интегралы существуют. Доказательство. Предположим, что интегралы существуют и что а>0. Тогда ©о —g/2 f [g(x + a)h(x) — g(x)h(x)]dx= j [g(* + a) — -ч OO —oo
Теория фильтрации и упреждения 233 — g(x)]/i(x)dx + J [g(x + а) — g(x)] h(x)dx = —a/2 = J [£(* — a) — £(*)] h(x)dx + J [g(x)~ a/2 a/2 — g(x — a)] [h (x — a)] dx = = f [g (x) — g (x — a)] [h (x — a) — h (x)] dx. a/2 Первое равенство получается с помощью разбиения ин- тервала интегрирования. Второе равенство следует из замены х->—х в первом интеграле и x-t-x—а во втором. Рассмотрим функцию g(x)—g(x—а). Имеем g(x) — g (х — а) — g(x) — g (a — х) > О при a/2 <. х С а, так как g не убывает при положительных значениях аргумента. По той же причине g (х) — g (х — а) > 0 при х > а. Следовательно, g(x)— g(x— a)>0 при x>a/2. Таким же образом находим, что Л (х) — h (х — а) < 0 при х > a/2. Итак, подынтегральное выражение [g(x)—g(x—а)] [й(х—a) — —Zi(x)] неотрицательно во всей области интегрирования, и лем- ма доказана. Для доказательства теоремы 2.1 заметим, что наилучшая л оценка s получается при минимизации функции Е [/(s— s) | г]] = J / (о — з) f (а |т]) da = J I (t + — оо — оо Л + m — s)f{t-srm\ri)di. Последнее равенство получается с помощью замены t=a—tn. При g(x)=/(x) и й(х) =|(^+аг|г]) полностью выполняются условия леммы. Таким образом, получаем £ [/ (s —s)|r|] = j I (t + m — s) f (t + m\r\) dt oo > У l^fit + m^dt.
234 Глава 7 где равенство достигается при АЛ ™ s — s (г)) = т— I о f (о | »]) do. — оо Теорема доказана. Замечание 1. Из теоремы следует, что, если условная плот- ность удовлетворяет условиям теоремы, выбор функции потерь несуществен, если только эта функция симметричная и неубы- вающая при положительных значениях аргумента. Замечание 2. Нормальная плотность удовлетворяет услови- ям теоремы. Для нормальных случайных переменных известно также, что условное математическое ожидание E{s | ц} является линейной функцией т). Таким образом, для нормальных процес- сов наилучшая оценка будет линейной функцией от наблюдений для всех функций потерь, удовлетворяющих условиям теоре- мы 2.1. Замечание 3. Если сигнал и шум заданы как случайные про- цессы второго порядка, задачу оценки можно сформулировать» используя критерий Е (s — s)2 = min л при условии, что оценка s линейно зависит от т]. Из замечания 2 следует, что наилучший оцениватель будет таким же, какой по- лучился бы, если положить, что процессы гауссовы с теми же моментами первого и второго порядка, что и у данных процес- сов второго порядка. Никакие ограничения на оцениватели не накладываются. Теорема 2.1 может привести нас к заблуждению, что услов- ное математическое ожидание всегда дает решение задач уп- реждения. Следующий пример показывает, что это, конечно, не так. Пример Рассмотрим стохастический процесс, определенный следую- щим образом: dx =—xdw, (2.10) где teT}—винеровский процесс с бесконечно малой дисперсией rdt. Определим наилучший упредитель на интерва- ле (t, когда критерий равен минимуму среднеквадратиче- ской величины и наиболее вероятной величине. Так как уравнение однородно по времени, можно определять упредитель на интервале (0, h). Уравнение (2.10) имеет реше- ние
Теория фильтрации и упреждения 235 - (t» (0+4- x(f) = е I > х(0). Условное распределение log(x(0) при условии х(0) являет- ся, таким образом, нормальным: N f---rt + log х (0), , а условное распределение x(t) при условии х(0) будет лога- рифмически нормальным. Функция плотности равна f (В, 0 = —exp g V 2nrt log (1/X (0) + rt 4rt B>0, f (g,O = o, | <o. Для среднего значения имеем £*(/)= J V(B,0<£ = *(O). о Мода распределения, т. е. величина при которой функция плотности f(£, /) достигает своего максимума, дается формулой хо(0 = e"3/2rZx(0). Отсюда находим, что «минимальный среднеквадратический» упредитель x(t-\-h), полученный из наблюдений x(t), дается формулой х (I + h 10 = х (0, в то время как «наиболее вероятным» упредителем будет х (t + h/t) — е 3/"rhx (0. Упражнения 1. Пусть сигнал {s(0, t е Т} и шум {n(0, teT} являются независимыми стационарными стохастическими процессами с ковариационными функциями rs(0 и rn(t) соответственно. По- ложим, что линейная комбинация y=s-\-n наблюдаема и требуется предсказать s на интервале длиной h с помощью линейной операции
236 Глава 7 /\ t Г s(t + h) = J g(t — т)у(t)dt = J g (и) у (t — u) du. --=>O 6 Показать, что среднеквадратическая ошибка упреждения определяется выражением Е [s(t + h) — s(t + й)]2 = rs(0) — 2 J g(и)rs(h + u)du + 0 + J g («) du f g (v) [r$ (u — v) + rn (u — o)] dv. o’ o' Задачу упреждения можно сформулировать, таким образом, как задачу минимизации среднеквадратической ошибки упреж- дения. 2. Рассмотреть среднеквадратическую ошибку упреждения, полученную в упражнении 1, как функционал от весовой функ- ции g упредителя оо оо j [я] = rs(0) — 2 g(u)rs(u + h)du + g(u)[rs(u — v) + о’ Q + rn(u — v)] g(v)dudv. Показать, что первая и вторая вариации этого функционала имеют вид J [s’ + = J [s] + Л + A, где — 2 J 8g (и) |rs (u + h)~ J [rs («— v) + () 0 + r„(u — i»)] g(v) dv] du, h = J J (“) 8g <u) frs (u~v) + rn (« — »)] dudv. J Q Показать также, что необходимым и достаточным условием того, чтобы g была весовой функцией оптимального упредителя, будет rs(t + h)-^[rs(i-v) + rn(t-v)]g(v)dv = O, t>0 (2.11) О и Гв+гп—положительно определенные функции. Интегральное уравнение (2.11) называется уравнением Винера—Хопфа.
Теория фильтрации и упреждения 237 3. Рассмотреть скалярный стохастический процесс {y(t)t t € Т} с дискретным временем y(t) = S g(i,n)e(n), n==i0 где {e(t), teT} — последовательность независимых одинаково распределенных нормальных с параметрами (0, 1) случайных переменных и g(t, /)=#0 для каждого t. Определить наилучший среднеквадратический ^-шаговый упредитель и ошибку упреж- дения для этого процесса. Указания. Величины е(/о), е(/0+1), .... е(0 можно вычислить по значениям y(to), у(А>+1 ),•••, {/(0- Сравнить с результатами разд. 3 гл. 6. 4. Рассмотреть скалярный стохастический процесс {«/(/). t е Т} с непрерывным временем t У(!) = J g(t,s)dw(s), ^0 где {w(t), teT}—винеровский процесс с единичной диспер- сией. Определить наилучший среднеквадратический упредитель на интервале (t, t-\-h). Определить также ошибку упреждения. Ограничиться случаем g(t, s) — (t—s)e~tt~s) и t0=—оо. Указание. Оператор G t Gu = J (t — s) e~{t~s} и (s) ds --------00 имеет обратный оператор , d2u . n du . G“1w=------F 2-----F u. dt2 dt Наилучшим упредителем тогда будет t y(f + h)= f (t + h— s) e~(t+h~s) y(s)ds + 2 —ds + J L ds \ ds / J — oo Заметим, что dyfdt непрерывно в среднеквадратическом смыс- ле. Интегрирование по частям дает A du y(t + h) — (1 + h)e~h у(t) -J--he~h . 5. Оптимальный упредитель из упражнения 4 содержит диф- ференциатор. Определить наилучший среднеквадратический уп- редитель вида
238 Глава 7 y(t + h)=ay(t) для задачи из упражнения 4. Сравнить с результатами упраж- нения 4. 3. ПРЕДВАРИТЕЛЬНЫЕ РЕЗУЛЬТАТЫ В этом разделе получены некоторые предварительные ре- зультаты, необходимые при решении задачи оценки. Сначала выведены некоторые свойства условных распределений для га- уссовых случайных переменных. Затем даны геометрическая интерпретация полученных результатов и краткое обобщение на случай бесконечного множества переменных. Многомерное гауссово распределение Пусть у есть n-мерный нормальный вектор с математичес- ким ожиданием т и ковариационной матрицей R, Распределе- ние называется вырожденным (сингулярным), если,/? — вырож- денная (сингулярная) матрица, и невырожденным (регуляр- ным), если R регулярна. Все массы вырожденного распределе- ния располагаются на гиперплоскости в n-мерном пространстве. В этом разделе мы полагаем, что R — невырожденная матрица. Это не является сильным ограничением, так как, если распреде- ление вырожденное, всегда можно сделать проекцию на гипер- плоскость, на которой распределены массы, и получить невы- рожденное распределение. Формально эту задачу можно ре- шить введением псевдоинверсии, когда требуется инверсия ко- вариационной функции. Функция плотности вероятности нормальной переменной с математическим ожиданием т и ковариацией R имеет вид f (х) = (2л) “л/2 (det 7?)~1/2 ехр |-- (х — т)Т Z?-1 (х — т) |. (3.1) (Сравнить с результатами гл. 2.) Часто представляет интерес анализ свойств двух векторов, имеющих совместное гауссово распределение. Теорема 3.1. Пусть х и у есть п\\- и рХ1-мерные векторы. Предположим, что вектор [*] имеет гауссово распределение с математическим Тогда вектор \тх\ » п ожиданием и ковариациеи R = I Rx Ryx RXy Ry J Z = x — тх~ RxyRy'(y — Шу) (3.2) не зависит от у, имеет нулевое математическое ожидание и ко- вариацию
Теория фильтрации и упреждения 230 Rz — RX Rxy Ry ^ух- (3.3} Доказательство. Имеем Ez = Ex — тх — Rxy R^1 (Еу — ту) = 0. Рассмотрим равенства Ez (у — ту)Т = Е(х-- тх) (у — ту)Т — — Rxy R71 Е(У — ту) (У — ту)т = Rxy — Rxy Ry1 Ry = 0, из которых следует, что векторы г и у не коррелированы. По- скольку эти векторы гауссовы, то они также и независимы. Так как £*2=0, то Rz = EzzT = E[x — mx —RxyR^ (у — Шу)] [x — mx — — Rxy Ry1 (у — mv)]T = E[x — mx][x — mx]T — — E(x~ mx) (y — tny)T Ry1 Ryx— — ERxy R? (y — my) (x — mx)T + RRxy Ry (У rny) (y my) Ry Ryx = Rx Rxy Ry Ryx. Теорема доказана. Теорема 3.2. Пусть х и у — векторы, имеющие совместное гауссово распределение. Если условное распределение х отно- сительно у является нормальным с математическим ожиданием Е [х | у] = mx + Rxy Ry1 (у — ту) (3.4} и ковариацией Е {[х — Е (х | z/)] [х — Е (х | у)]Т /у} = Rx — Rxy R~' Ryx = Rz, (3.5) то стохастические переменные у и х — £[x|z/] независимы. Доказательство. Теорема может быть доказана непосред* ственно из определения условной плотности и из формулы (3.1} для плотности вероятности гауссовых векторов. Алгебраичес- кие преобразования будут проще, если использовать перемен- ные z и у, определяемые следующим образом: z — Г .У~ту J I 0 Следовательно, ’х— тЛ __ .У-~ту\ -RxyR? х — тх У ГПу Z У~ту. 1 V71] 0 I Так как якобиан преобразования равен 1, то совместную плот- ность х и у можно переписать в виде
240 Глава 7 f (х, у) = (2л) (det R)~1/2 exp {—[zr R7'z + + («/ — nty? my)] , где R = R* Rxy . Ryx Ry. Плотность вероятности у равна f («/) = (2л)-р/2 (det ^)"1/2 exp {— -Ь {у — ту)т R7' (у — ту)|. Но det R = det ' R* -Ryx Rxy = det ^xy 1 %yx Ry . - Ryx 0 Ry. = det (Rx — Rxy Ry1 det Ry = det Rz det Ry. Второе равенство получено вычитанием второй строки, умно- женной слева на RxyR~l,M3 первой. Условная плотность х отно- сительно у принимает вид f (х | у) = = (2л)~л/2 det А>Г1/2 exp -1- zT R71 г 1 = = (2п)~"/2 (det Rz)~'/2 exp {—Ь [х — тх — — Rxy R71 (у — ту)]Т R71 [х — тх — RXy Ry (у Шу)] j. Из этого выражения видно, что условное распределение яв- ляется нормальным с математическим ожиданием (3.4) и кова- риацией (3.5). Последнее утверждение теоремы следует из те- оремы 3.1. Теорема 3.3. Пусть х, и и v — случайные векторы с совмест- ным гауссовым распределением, и пусть и и v независимы. Тогда Е [х|«,о] = Е [х| и] + Е [х| о] — Ех. (3.6) Доказательство. Положим
Теория фильтрации и упреждения 241 Тогда О Rv cov к, у]=Е[х — тх] [у — ту]т = = Е к — тх\ и — ти V — mv — (Rxu> Rxv)- Следовательно, Rxy Ry — (Rxut Rxv) 'Ъ' о -- {.RxuRu >RxvRv )' По теореме 3.2 получим Е [х | и, v] — mx + (Rxu Ru Rxv Rv ’) и — mu v — mv = mx + Rxu R71 (u — mu) + Rxv R^1 (v — m„) = = E [x | и] + E [x 1o] — mx. Доказанным теоремам дадим интерпретацию с точки зре- ния задач оценки. Для этого возьмем два стохастических век- тора х и у, имеющих совместное гауссово распределение. Рас- смотрим задачу оценки х по наблюдениям у так, чтобы средне- квадратическая ошибка оценки была наименьшей. л ~ Пусть х обозначает наилучшую оценку и х — ошибку, полу- ченную при этой оценке. Согласно теореме 2.1, наилучшая оцен- ка дается условным математическим ожиданием £[х|г/]. Из те- оремы 3.2 следует, что наилучшая оценка равна л -1 х = Е[х|у] = тх + RxyRy (у—ту) и ошибка при этой оценке имеет ковариацию R [хх |f/] = Rx RxyRy Ryx- Из теоремы 3.1 и 3.2 следует, что ошибка оценки ~ л х = х —х = х — Е[х\ у] = х~тх — Rxy Ry (у — ту) не зависит от у. Для интерпретации теоремы 3.2 рассмотрим задачу оценки х на основе наблюдений и и v, где мио независимы. Пусть л- Л Л х(м), х(о) и х(м, о) обозначают наилучшие оценки х, основан- ные на наблюдениях и, v и (и, v) соответственно. Тогда из теорем 16-403
242 Глава 7 3.2 и 3.3 следует, что наилучшая оценка х, основанная на наблю- дениях и и и, равна Л Л Л X (и, V) — X (м) + х (v) — tnx. Геометрическая интерпретация Дадим геометрическую интерпретацию (близкую к интуитив- ной) теоремам о многомерных гауссовых распределениях, кото- рые доказаны выше. Для этого рассмотрим сначала простейший случай двух стохастических переменных х и у. Для простоты' предположим, что обе переменные имеют нулевые математичес- кие ожидания. Представим переменные х и у как элементы ев- клидова пространства, в котором определено скалярное произ- ведение (х, z/) = cov [х, t/J. (3.7) Следовательно, норма вектора равна ||х||2 — (Х, X) = COV [х, X]. (3.8) Для определенности возьмем две линии /1 и /2, которые пересе- каются в начале координат и угол 9 между которыми определя- ется по формуле Стохастическая переменная х представляется вектором дли- ны ||х||=К Дх2, направленным вдоль li, а стохастическая пе- ременная у — вектором длины ||«/|| = И Еу2, направленным вдоль/2 (рис. 7.1). Из допущения о нулевых математических ожиданиях и из теоремы 3.1 следует, что стохастическая переменная z = х — Rxy Ry1 у (3.10) не зависит от у. Следовательно, (г, у) = cov [г, у] = 0. Таким образом, из теоремы 3.1 следует, что переменная г орто- гональна переменной у и норма г равна ||z||2 = Rx - Rxy R^ Rxy = ||x||2- . Заметим, что проекция x на у определяется следующим обра- зом: х у = (х’ . ’ IW Пг/Н ||£/112 = Rxy Ry1 У = Е [х| у}, (3.11)
Теория фильтрации и упреждения 243 где второе равенство получается из выражений (3.7) и (3.8), а последнее равенство следует из теоремы 3.2. Таким образом, переменную х—z=RxyR71 У — Е[х\у], кото- рая равна наилучшей среднеквадратической оценке х, основан- ной на наблюдениях у, можно интерпретировать геометрически как проекцию % на у (см. рис. 7.1). Для интерпретации теоремы 3.3 введем трехмерное евклидо- во пространство. Так как и и v независимы, соответствующие Рис. 7.1. Геометрическая интерпретация условных средних значений нормальных случайных переменных. Условное сред- нее Е[х1у] изображено проекцией х на у. векторы ортогональны. Из геометрической интер- претации теоремы 3.2 сле- дует, что £[х|и, у] можно интерпретировать как ор- тогональную проекцию х на линейное пространст- во, натянутое на и и v9 можно интерпре- тировать как ортогональ- ную проекцию х на и9 а Efxjy] —как ортогональ- ную проекцию х на v. Итак, из теоремы 3.2 вы- текает, что проекция х на двумерное подпростран- ство равна сумме проек- ций на векторы ортого- нального базиса в этом подпространстве. Эту интерпретацию лег- ко распространить на случай более высоких размерностей. Отметим, что геометрическая интерпретация зависит только от свойств вторых моментов стохастических переменных. Поэто- му не обязательно предполагать распределения гауссовыми. Од- нако, если распределения не являются гауссовыми, проекции нельзя интерпретировать как условные математические ожида- ния. Для вероятностной интерпретации проекций используем свойство, вытекающее из теоремы 3.4. Теорема 3.4 (теорема о проекции). Пусть z/i, у2, ..., yi и х — элементы эвклидова пространства и Y—линейное подпространст- во, натянутое на z/i, //2, Уъ Тогда существует единственный л элемент хеУ, такой, что Л ||х — = inf ||х — z||. Л 2€У ... Доказательство. Пусть х — ортогональная проекция х на У. Тогда Л (х — xf у;) = 0 для i = 1,2,...,/. 16*
244 Глава 7 Возьмем любой вектор геУ, т. е. z = IX У1- 1=1 Тогда Л Г N (х — x,z) = (x — х, 2а,- yt) = 2а; (х — х, &) = 0. Следовательно, , Л Л Л Л 1,2 = (х — г, х — г) = (х — х — (г — х), х — х — (z — х)) = АЛ Л Л Л Л = (х—х, х — х)— 2 (х —х, z — х) + (г — х, z — х), Л где второй член равен нулю, так как z—хе У. Из этого следует ||x-z||2 = ||x-x||2+||z-x||2. Следовательно, ||х—z||2>||x —х||2, Л где равенство достигается при z=x. Таким образом, если имеются стохастические переменные, которые не являются гауссовыми, проекцию х на У можно ин- терпретировать как линейную оценку х по наблюдениям г/i, Л Л t/г, , Уъ минимизирующую критерий ||х—х||2=£(х—х)2. Упражнения 1. Стохастическая переменная х имеет нормальное распреде- ление N(a, со)- Переменную х измеряют, и ошибку измерения можно считать нормальной стохастической переменной N(0, о), не зависящей от х. Определить оценку х, наилучшую в смысле минимума Е\х—х|, исходя из априорных знаний и измерений. 2. Рассмотреть задачу упражнения 1 и допустить, что ис- пользуются два измерения. Предположить, что ошибки измере- ний независимы и нормальны: Af(O, Oi) и N(0, 02) соответ- ственно. Определить оценку и ее дисперсию. Определить также предел оценки при ст0—>-оо. 3. Стохастический вектор х является нормальным с матема- тическим ожиданием тх и ковариацией Rx. Пусть можно изме- рить линейную комбинацию у — Сх + е, где ошибка измерения е не зависит от х и имеет нормальное
Теория фильтрации и упреждения 245 распределение с нулевым математическим ожиданием и кова- риацией Re- Что будет наилучшей среднеквадратической оцен- кой х, полученной на основе измеренных величин и априорной информации? Чему равна дисперсия оценки? 4. Пусть х и у — нормальные стохастические векторы. Пока- зать, что всегда можно найти матрицу А соответствующей раз- мерности и нормальный стохастический вектор е, такие, что х = Ау + е, где е не зависит от у. Дать вероятностную итерпретацию вели- чины Ау. 5. Рассмотреть скалярные стохастические процессы t x(t)= % g(t,s)v(s), S=to t y(t) = S A(/,s)e(s), s=f0 где {i»(0} и {e(0}—коррелированные последовательности не- зависимых нормальных N(0, 1) переменных и h(t, t) #= 0. Оп- ределить наилучшую среднеквадратическую оценку x(t), осно- ванную на наблюдениях y(t), y(t—1), .... y(to)- Указание. Использовать результат упражнения 4. Так как {и(^)} и {е(£)}—последовательности независимых перемен- ных, будем иметь г. ,, [0, t — s^=t, Ev(t)e(s)= (a, t— s = т. Условие т>0 приводит к задаче упреждения, а т<0 — к зада- че сглаживания. 6. Рассмотреть скалярные стохастические процессы t x(t) = § g(t,s)dv(s), s=tQ t y(t)= J h(t — s)de(s), (3.12> S—t0 где {e(0} и {o(s)}—стандартные винеровские процессы. Пред- положить, что оператор, определенный интегралом (3.12), имеет обратный оператор t е(/) = J k(t,s)dy(s). S=to
246 Глава 7 Определить оценку x(t) на основе y(s), t0^s^t, которая ми- нимизирует ошибку среднеквадратической оценки. Определить дисперсию ошибки оценки. 4. ОЦЕНКА СОСТОЯНИЯ ДЛЯ СИСТЕМ С ДИСКРЕТНЫМ ВРЕМЕНЕМ Постановка задачи В разд. 2 показано, что решение задачи оценки для гауссо- вых процессов и большого класса критериев дается условным математическим ожиданием. В этом разделе рассмотрена зада- ча оценки состояния для системы с дискретным временем, опи- сываемой уравнением состояния х(/+ 1) = Фх(0 + о(0, y(t) = Qx(t) + e(t), ' (4.1) где х—n-мерный вектор состояния, у — р-мерный вектор наблю- даемых выходных переменных и {€»(/), teT}, {e(t), teT}—по- следовательности независимых гауссовых векторов с нулевыми математическими ожиданиями и ковариациями Ev (t) vT (t) = Rlt Ev(t)eT (/) = 0, (4.2) Ee(t)eT(t) = R2. Пусть начальное состояние x(t0) для системы (4.1) не зависит от v и е и имеет нормальное распределение с математическим ожиданием т и ковариацией Ro. Матрицы Ф, 0, R\ и 2?2 могут зависеть от времени. Предположим, что R2 — положительно оп- ределенная матрица. Рассмотрим задачу получения такой оценки х(/-|-1) по наб- людениям выходной переменной y(i), y(t—1), ..., y(t0), которая минимизирует критерий Eg(aT(x(t+ 1)— х)). (4.3) Предположим, что функция g симметричная и неубывающая при положительных значениях аргумента. Заметим, что пара- метрический вариант этой задачи был решен в разд. 4 гл. 5. Оценка, минимизирующая критерий (4.3), обозначается че- А А ~ рез х(/+11/), а ошибка оценки х—х—через х(/+1|/). В обоз- начениях используются два аргумента, чтобы подчеркнуть, что оценка х(/+1) основывается на наблюдениях до момента вре- мени t. Используются также и более короткие обозначения ^(/+1)=х(/ + 1|0 и x(t + V)=x(t+\\t).
Теория фильтрации и упрежоения 247 Предварительные замечания Из теоремы 2.1 следует, что решением поставленной задачи служит условное математическое ожидание x(t + 110 = £[х(/+ 1)|*/(/0) = У W>-, У (0 = n(OJ- <4-4) Для упрощения записи введем вектор Ут, определяемый следу- ющим образом: Yt = (yT(t0), yT(t0 + (4-5) Теперь уравнение (4.4) принимает вид х(/+ 1 \t) = Е [x(t+ 1)| KJ. (4.4) Так как стохастические процессы {x(t)9 teT} и {//(/), teT} гаус- совы, условное математическое ожидание определяется по тео- реме (3.2). Однако проводить вычисления непосредственно по этой теореме не совсем удобно. Кроме того, на практике изме- рения часто проводят последовательно во времени. Поэтому да- л дим рекуррентную формулу для оценки, допуская, что x(t\t—1) известно. Основной результат Имеем х (t + 1 Ю = Е [х (/ + 1) | Yt] = Е [х (t + 1) | у (/)]. (4.6) Для вычисления условного математического ожидания отно- сительно заданных Yt-i и y(t) сделаем сначала замену пере- менных с тем, чтобы получить независимые переменные. Из теоремы (3.2) следует, что Yt—x и У (0 = У (0 — Е [у (01 = У (0 — Е [0х (0 + е (/) | = = у (t) — 9х (/) = Ох (0 + е (0 (4.7) независимы. Величину y(t)9 иногда называемую невязкой в мо- мент времени /, относят к порожденным процессам, так как она является частью измеряемого выходного сигнала, которая со- держит некоторую ранее отсутствующую информацию. Таким образом, вместо вычисления условного математичес- кого ожидания х(/+1) относительно Yt-i и y(t) будем вычис- лять условное математическое ожидание относительно преобра- зованных переменных Yt-i и y(t). Получим
248 Глава 7 х (/ + 1) = Е [х(/ + 1 I Yt_vy{t)] = Е [х(/ + 1) I Yt_vy{t)] = = Е [х(/ + 1)17^] + E[x(t + 1)|Н0]- — £х(/+1), (4.8) где последнее равенство следует из теоремы 3.3. Вычислим те- перь все члены правой части уравнения (4.8). Имеем Е [х (t + 1) | = Е [Фх (0 + v (01 Yt_,] = Е [Фх (01 У#-1] = = ФЕ [х (О У/_! ] = Фх (И t — 1), (4.9) где первое равенство следует из уравнения (4.1), а второе — из независимости о(0 от x£s) и e(s) для s^t. Для вычисления Е[х(/-М) |f/(0] используем теорему 3.2. Имеем R^~ = cov fx (t + 1), у (/)] = cov [Фх (t) + v (/), 0x (t) + e ft)] = = E [Фх (/) + v (/) — ФЕх (/)] [0x (t) + e (/)]T = = 5 [Ф(х(/) + x(/)) xr(Z)0T] = Ф(£х(/)) xT(Z)0r, (4.10) тде второе равенство следует из уравнений (4.1) и (4.7), тре- тье— из определения ковариации, четвертое — из того, что e(t), v(f) и x(f) независимы и имеют нулевые математические ожи- дания. Пятое равенство следует из теоремы 3.2, в силу которой -X(t) и x(t) независимы. Имеем также = cov [у (/), (01 = Е [0х (/) + е (/)] [0х (/) + е (f)]T = = 0 [Ex (t)xT (010Г + Я2, (4.11) так как e(t) и х(0 независимы. Вводя P(t) = Ex(t)xT(t) (4.12) и используя теорему 3.2, получим Е [х (t + 1) | у (/)] = Ex (t + 1) + К (0 у (0, (4.13) тде К (о = = ФР (0 0Г [0Р (0 0Г + ЯзГ1. (4.14) Из выражений (4.8), (4.9) и (4.13) получим рекуррентное урав- нение для оценки х(/+1|/) = Фх(Ф-1) + Л(0Ж (4-15)
Теория фильтрации и упреждения 249 = (4.16) Начальное условие для уравнения (4.15) определяется из равенства х(4+11М = £[*(4+1)|!/(А))]. Используя теорему (3.2), находим х +i\t0) = E[x(t0 +1)1 z/(/0)] = =фт + Фяоег [ероег + р2]-! [у(/0) - ет], (4. п> р (t0 +1) = фяофг + - ф яоег [ероег + р2]-’ея0Фг- (4.18) Из подобия выражений (4.15) и (4.17) видим, что начальное ус- ловие для оценки (4.15) можно задать в виде x(U*o-l) = m. (4.19) Остается определить P(t). Вычитая выражение (4.15) из выра- жения (4.1), получим x(t + l\t) = (T>x(t\t- 1) + v(t)-R(tfy(t) = = [Ф — К (t) 9] x (t 11 — 1) + v (/) — R (t) e (t). (4.20) Таким образом, ошибка для данной оценки удовлетворяет сто- хастическому разностному уравнению и £х(/ + 1|0 = 0. Следовательно, величина P(t), определяемая равенством (4.12), является ковариационной матрицей ошибки при данной оценке. Для получения уравнения для матрицы ковариаций P(t) умно- жим выражение (4.20) на его транспонированное выражение и возьмем математическое ожидание (сравнить с теоремой 3.1 гл. 3): Р (f + 1) = (Ф - R (f)P® (01Ф - K(t) 9]г + + К (0 RJ? (0 = = фр (/) фг + Rt—фр (о ег [ер (/) ег + p2]_I ер (t) фт = = [Ф-7<(0е]Р(0ФГ + Р1. (4.21) Последнее равенство получено с помощью (4.14). Из подобия выражений (4.18) и (4.21) находим, что начальное условие для уравнения (4.21) можно задать в виде P(t0) = R0. (4.22) Результаты сформулированы в теореме 4.1.
250 Глава 7 Теорема 4.1 (Теорема Калмана). Оценка состояния системы, описываемой уравнениями (4.1), в момент времени /+1 по на- блюдениям «/(г'о), 1/(^о+1), -> {/(0> которая минимизирует крите- А рий (4.3), задается условным математическим ожиданием х(^+ + 1|/), удовлетворяющим рекуррентному уравнению X(t+ 1 (/) = Фх(/|/- 1) + К(/)[^(/)-0х(/|/- 1)], х(/0|/0—1) = т. (4.23) Матрица K(t) имеет вид /<(0 = ФР(О0Г [0Р(О 0Г + К2]-1, (4.14) где P(t) —ковариация ошибки оценки Р (t + 1) = ФР (0 Фг + Ki — ФР (/) 0Г [0Р (/) 0Г + р2] -10Р (/) Фг= = [Ф-К(О0]К(ОФТ + К1 = = [Ф—К (о 0] р (о [Ф-к (0 0]г + Кх + К (0 К2 Кт (о, Р (А>) = Ко- (4.21) Замечание 1. Ковариация P(t) не зависит от наблюдений. Величину P(t), а следовательно, и R(t) можно вычислить за- ранее. Если оптимальный фильтр находится в контуре с вычис- лительной машиной, то можно сократить время на решение за- дачи, заранее вычисляя P(t) и K(t) и записывая K(t) в память машины. Замечание 2. Для получения наилучшей оценки в действи- тельности необходимо вычислить условное распределение jc(Z+1) относительно Yt. Так как распределение гауссово, то юно полностью характеризуется математическим ожиданием л х и ковариацией Р. Таким образом, уравнения (4.23) и (4.21) можно трактовать как алгоритм для вычисления условного рас- пределения вероятностей. Замечание 3, В процессе вычислений нет необходимости за- поминать все наблюдаемые значения выходной переменной. Так как Р и К можно вычислить заранее, условное распределение х(/-Н) относительно Yt однозначно определяется условным А математическим ожиданием x(t + 1) — E[x(t + 1) | У^]. Если через р обозначить условную плотность, то р [х (/ + 1) I = р [х (t + 1) | х (t + 1)]. (4.24) Таким образом, условное математическое ожидание является достаточной статистикой для условного распределения х(/+1) относительно Yt, т. е. это означает, что, когда дело касается ус-
Теория, фильтрации и упреждения 251 л ловного распределения, знание равносильно знанию Отметим также, что этот вывод можно распространить на совместное условное распределение будущих значений х\ p[xtf+ 1), х(1 + 2),..., х(/ + k) | yj = = p[x(t + 1), x(t + 2),...,x(t 4-fe)|x(/ + 1)]. (4.25} Рис. 7.2. Блок-схема модели сигнала [выражение (4.1)] и оптимального фильтра Калмана [выражение (4.23)]. Замечание 4. Из сравнения теоремы 4.1 с параметрическим подходом к задаче восстановления состояния, приведенным в разд. 4 гл. 5, видим, что структура восстановителя состояния, определяемая формулой (4.4) в гл. 5, в действительности явля- ется оптимальной. Замечание 5. Из доказательства следует, что теорема также справедлива, если матрицы Ф, 0, и R2 зависят от времени. Представляя зависимость от времени в явном виде, модель (4.1) можно описать уравнениями х(/+ 1) = Ф(/+ + y(t) = 0(Ох(О + е(0,
252 Глава 7 где 7?i(0 и Rz(t) —ковариации v(t) и e(t). Оптимальная оценка задается тогда формулами (4.14), (4.23) и (4.21), в которых •ф=ф(/-]-1, t), 0=9(7), Ri=Ri(t) и R2=R2(t). На рис. 7.2 при- ведена блок-схема оптимального фильтра Калмана. Невязки Исследуем некоторые свойства невязок y(t), определяемых вы- ражением (4.7). Эти величины можно интерпретировать как раз- ность между выходной переменной в момент времени t и оцен- кой y(t), основанной на наблюдениях y(t—1), y(t—2), ..., у (to). Теорема 4.2. Невязки y(t) и y(s) независимы, если и cov [у (/), у (01 = 6Р (/) 0Г + R2. (4.26) Доказательство. Имеем Из теоремы (3.2) следует что y(t) и Yt—i независимы. Для s<Zt функция y(s) является линейной функцией от ys-i. Так как y(t) не зависит от Y t—i, то y(t) также не будет зависеть и от y(s). Алгебраическое доказательство теоремы 4.2 Теорему 4.2 можно также доказать чисто алгебраически. Из выражений (4.7) и (4.20) следует, что невязки y(t) описывают- ся уравнениями x(t+ 1)= [Ф-К(09] + y(t) ==Qx(t)+e(t). (4.27) Для доказательства этого введем матрицу Т: Т(/+ 1; = ® — и Т (f + k + 1; t) = ¥(t + k + 1; t + k)W (f + k,t). Для s>t получим ~ ~ 1s-1 x (s) = T (s; t) x (0 + £ ¥ (s; k + 1) [v (k) — K(k)e (A)]. (4.27a) k=t Затем находим E {У (s)7 (01 = E [0x (s) + e (s)] [0 x (/) + e (Of = = QEx(s)xT (/) 0r + 0 Ex (s) eT (t).
Теория фильтрации и упреждения 253 Но Ex(s)xT (t) = Т (s, t)P(t), и из выражения (4.27а) следует, что Ex (s)ет (t) = - Т (s, t + 1)К (О /?2. Следовательно, Е [у (s)yT (/)] = 0Т (з; /) Р (О 6Г - ВТ (s; t + 1) K(t) Р2 = = 0Т (s; t+1) {[Ф - К (t) е] Р (t) 0Г - к (/) Я2! = О ДЛЯ t #= 3, так как из формулы (4.14) видно, что члены, в фигурных скоб- ках равны нулю. Поскольку z/(s) и y(t) имеют гауссовы рас- пределения, они независимы. Уравнение (4.26) вытекает из вы- ражения (4.11). Представление процесса {y(t), teT} Теорема 4.2 имеет большое значение для представления сто- хастического процесса на выходе. Из уравнения (4.1) следует, что этот процесс можно представить с помощью уравнений х (t + 1) = Фх (/) + v (/), y(t) = Qx(t)+e(t), (4.1) где {о(0, teT} и {е(/), teT}—последовательности независи- мых гауссовых векторов с нулевыми математическими ожида- ниями и ковариациями cov [о(/)> у (/)] = cov е(/)] = Т?2. По теореме 4.2 стохастические векторы y(s) ну (/) независимы при /=/=з. Таким образом, {у (/), teT} является последователь- ностью независимых гауссовых векторов. Процесс {y(t), teT} может быть представлен стохастическими уравнениями x(t+ V) = ®x(t) + ky(t), y(t)=Qx(t) + y(t). (4.28) Представление (4.28) интересно с той точки зрения, что для не- го формула для оценки тривиальна. Исключая у, получим х(/+ 1) =ф2(о + К(/)[ИО-0*(ОЬ (4.29)
254 Глава 7 Следовательно, при известном х(/0) оптимальная оценка зада- ется формулой (4.29). Отметим, что матрицы Ф и 0 в уравнениях (4.1) и (4.28) одни и те же, а переменные состояния в уравнении (4. 28) ин- терпретируются как наилучшие оценки вектора состояния в уравнении (4.1) (ср. с теоремой 4.1). Геометрическая интерпретация задачи оценки состояния Используя геометрическую интерпретацию многомерных га- уссовых распределений, данную в разд. 3, можно получить гео- метрическую интерпретацию задачи оценки состояния. Для простоты будем предполагать, что начальное состояние х(/0) имеет нулевое математическое ожидание. Тогда стохастические переменные x(t) и у (t) имеют нулевые математические ожида- ния. Вводя евклидово пространство, в котором скалярное про- изведение имеет вид (3.7), из результатов разд. 3 получим, что наилучшая оценка х(/+1) является проекцией х(/+1) на ли- нейное подпространство, натянутое на //(/), y(t—1), ..., у (to). Пусть У (0 —это подпространство, a Proj [х(^+1) | У (t) ] —про- екция на него. При этом задача оценки состояния сводится к за- даче вычисления проекции в евклидовом пространстве. Для об- легчения вычисления проекции введем сначала ортогональный базис в У (0- Это осуществляется с помощью процедуры Гра- ма—Шмидта. Таким образом, получим У (0) = У (0) — Proj [у (Ь)\у &)] = У (4) — Proj [у (4)|У (to)], у (t2) = у (h) — Proj \у (4) | у (/0), у (4)] = у (4) — Proj (у (4)|У (h)], y(t) =y(t) — ’Pro']{y(t)\y(t0),...,y(t—\)]=y(t)~Pvo] \y(t)\Y (t— 1)], где у (to), y(ti), y(t) —ортогональный базис в Y(t). Отметим, что у(t) можно интерпретировать как разность между измеряе- мой выходной переменной и наилучшей оценкой выходной пере- менной, найденной по результатам измерений [ср. с выражением (4.7)]. Переменная y(t) соответствует, таким образом, невязкам. Построив ортогональный базис, легко вычислить проекции Proj [х(/ + 1)1 у (01 = Proj [х(/ + 1)1 У (t- 1), y(t)] = = Proj [х (/ + 1) I У (t - 1)] + Proj [x (t + 1) I y(t)], (4.30)
Теория фильтрации и упреждения 255 так как y(t) ортогонально У(/—1) [ср. с выражением (4.8)]. С помощью уравнения (4.1) получим Pro] [х (t + 1) | Y (0] = Proj [Фх (0 + e (0 | Y (t - 1)] + + Proj [x(Z+ 1) |^(0] =Ф Proj [x(/)| Y (t— (4.31), поскольку e(t) ортогонально Y(t). Уравнение (4.31) идентично уравнению (4.15). Величину K(t) можно определить непосред- ственно, используя ортогональность x(Z-|-l)—Proj[х(t-{-1) | У(£)] и /(/). В геометрической интерпретации теорема 4.2 ста- новится почти тривильной, так как она следует непосредственно из построения y(t). Упражнения 1. Рассмотреть динамическую систему х (t + 1) = ах (/) + v (I), y(t) = x(t)-\-e(t), где {и(£), и {e(t), teT} —последовательности независимых нормальных с параметрами (0, 1) и (0, а) стохастических пере- менных. Начальное состояние имеет нормальное (1, оо) распре- деление. Определить оценку оптимального состояния данной си- стемы и оценку установившегося состояния при а=1. 2. Рассмотреть системы, описываемые уравнениями (4.1) и (4.2), в которых 0 = (1 0), Я2=1. Определить коэффициент усиления К. для фильтра установивше- гося состояния и ковариацию Р оценки установишегося со- стояния. 3. Рассмотреть систему х (t + 1) = Фх (0 + Ги (/) + v (/), у которой выходная переменная задается уравнением у (t) = 0х (/) + е (I), где {е(/)} и {у(0} — нормальные белые шумы с дискретным временем, нулевыми математическими ожиданиями и ковариа- циями Ev(t)vT(s) = 8s,tR1,
256 Глава 7 Ev(i)eT(s) = Ss,f Ян, £e(')er(s) = 6SJtf2. Л A Показать, что оптимальные оценки x(t)=x(t\t—1) задаются формулой х ч- 1) = Ф х (0 + Гм (0 + К [ (0 — о (01» в которой наилучшее значение Я равно К - К (0 = [ФР (О ег + Я18] [о р (I) ет + Я2]-1, где р (/ +1) = фр (/) фт + _ к (/) [я2 + qp (/) ег] О). Сравнить с упражнением 2 разд. 4 гл. 5. 4. Рассмотреть систему x(t+ 1) = Фх(0 + Ге(0, у (t) = 0х (0 + е (/), где {е(/)}— последовательность независимых нормальных слу- чайных переменных с нулевыми математическими ожиданиями и ковариацией R2. Начальное состояние имеет нормальное распре- деление с математическим ожиданием а и ковариацией Ro. Пред- полагается, что матрицы Ф, Г и 0 постоянны, а все собственные значения матрицы Ф—Г0 лежат внутри единичного круга. Опре- делить оценку x(t4-1Ю установившегося состояния, которая является оптимальной в смысле минимума критерия (4.3). Определить также ошибку оценки установившегося состояния. Указание. Показать, что для произвольных К. P(t 4-1)= [Ф-Я0] Р(О[Ф-Л0]Г 4- 4- [К - Я12 ЯГ1] Я2 [К - Я12 ЯГ1]т 4- Ях - Я18 ЯГ1 Я21. 5. Пусть х и у — скаляры. Рассмотреть систему х(/4-1) = х(0 + М0, У if) = х (0 4-e(0, где {е(0} — последовательность независимых нормальных с па- раметрами (0, 1) случайных переменных. Пусть начальное со- стояние х(£0) является нормальным (0, о0) и не зависит от e(t) при всех t. Определить наилучшие в среднеквадратическом смыс- Л л ле упредители х(/+1|/) и и ошибки упреждения. Проанализировать частный случай tQ -> —оо. Указание. Рассмотреть отдельно случаи |&—11 <1 и| b—11 >
Теория фильтрации и упреждения 257 6. Рассмотреть задачу упражнения 5. Определить упредитель л 11), используя теорему 3.1 гл. 6. Сравнить с результатами упражнения 5. 7. Рассмотреть систему, заданную уравнениями (4.1) и (4.2). Показать, что наилучшая в смысле минимума средних квадра- л тов оценка х(/+1|/) определяется уравнением x(t + 1) = ф{(0 + K(t + 1)-0Ф?(О], где K(t) = P(t)eT [R2 + QP(f) О7]'1, P(t) = Ф5(/- 1)ФГ + Ри S(t) = P(t)-K(t)QP(t), S(/0) = P0. Сравнить с упражнением 3 разд. 4 гл. 5. Указание. P{t) = Ex(t\t—X)xT(t\t - 1) и S(f) = Ex (t\f) xT (/|/). Л 8. Пусть x(t-f-k]t) обозначает упредитель для x(t-\-k), осно- ванный на Yt, и пусть P(t-{-k\t) —ковариация ошибки соответ- ствующего упреждения. Показать, что x(t + k+ 1 Ю =Фх(/+ &)/), p(t + k+1 io = ФР(/ + ^и)Фг+₽1, Л и вывести рекуррентную формулу для x(t~\~k\t) при фиксирован- ном k. 9. Рассмотреть систему из упражнения 4. Определить рекур- л рентное уравнение для упредителя х(/+&|/) в установившемся состоянии. Определить также ошибку упреждения в установив- шемся состоянии. 10. Доказать теорему 4.1, показав, что из выражений (4.8) и (4.9) следует, что восстановитель имеет структуру x(t+ 1)=Фх(0 + Л^(0. Затем использовать результаты теоремы 4.1 гл. 5 для нахожде- ния оптимального К. 11. Теорему 4.1 о фильтре Калмана можно применить к па- раметрической идентификации. Рассмотреть систему = 1)«(/-!) + е(0, 17—403
258 Глава 7 где a(t+ 1) = а(0 + МО, b(t + 1) = b(t) + v2(t), a {eG)}> {^i(0} и {MO}—белые гауссовы шумы с дискрет- ным временем с дисперсиями г2, Гц и г22. Показать, что теорему 4.1 можно применить для получения оценок а и Ь. Определить рекуррентные уравнения и наименьшее количество информации, используемой при вычислениях. Указание. Рассмотреть параметры а и b как состояния дина- мической системы. Отметим, что в этом случае матрицы Р и К нельзя вычислить заранее. 12. Показать, что теорему 4.1 можно обобщить на случай, когда распределения {е(0} и {v (0} имеют постоянные, но неиз- вестные математические ожидания. 13. Уравнение (4.1) можно записать в виде х(/+1)=Ф(/+1,/0)*(и+ £ Ф(/ + 1; S)v(s), у (/) = ех (0 + е (/). Вывести теорему о фильтре Калмана, используя результаты упражнения 3 разр. 2 в специальном случае х(/о)=О. Указания. Сначала записать выходную переменную в виде У (0 = V Ф (/; S) е (s). s t0 14. Рассмотреть систему /1 2\ /0\ x(t -h 1) = L 1р(о+ У (f) = (1 0)x(/) + e(/), где {e(/)}—последовательность независимых нормальных с параметрами (0, 1) случайных переменных. Определить фильтр Калмана и ковариационную матрицу оценки для установивше- гося состояния. Обобщить результаты. 15. Определить ковариационную функцию ошибки оценки для фильтра Калмана. 16. Доказать теорему (4.1) путем непосредственного вывода соотношения между представлениями (4.1) и (4.2) и решения за- дачи фильтрации для невязок, описываемых уравнением (4.27).
Теория фильтрации и упреждения 259 17. Рассмотреть систему х (t + 1) = Фх (/) + Ги (/) + v (/), y(t) = 0х(О + е(О, которая идентична системе, описываемой уравнением (4.1), за исключением члена Г u(t) в правой части первого уравнения. Допустить, что функция teT} известна. Показать, что ус- ловное математическое ожидание x(t) относительно Yt-\ задает- ся уравнением X (t + 1) = Фх (/) + Ги (/) 4- К (/) [у (/) - 0Х (01. 18. Решить задачу упреждения (рассмотренную в разд. 3 гл. 6), используя теорему фильтрации Калмана. 19. Рассмотреть стохастический процесс, описываемый урав нением (4.1). Пусть 7<(Z; t) —оптимальный коэффициент усиле- ния оценки состояния х(ф) =Ф(/; t~ l)x(Z — 1|Z — 1) + + 0 H-0(W; t~ 1) ik- 1)] и /<(/-|-Z; t)—оптимальный коэффициент усиления /-шагового упредителя х (t + l\t) = Ф (t + Z; t + I ~ 1) x (/ 4-1 — 1 ]/ — 1) + + #(/ + /; /) [у(О-0(/)Ф(/; t + l~ 1) x(Z + Z—1|Z—1)]. Показать, что + Z; 0 = Ф(t + Z; 0O; 0 = = Ф(/+ Z; ^+Z—1)Ф(^+Z—1; Z+Z-2)---®(/+l; Z)K(Z). 5. ДВОЙСТВЕННОСТЬ В данном разделе показано, что задача оценки состояния яв- ляется двойственной задаче оптимального управления. Рассмот- рим систему, описываемую уравнениями х(/ + 1)=Фх(/) + у(/), (5.1) y(l) = 0x(Z) + e(t), (5.2) где Т — множество целых чисел, начальное состояние x(tQ) име- ет математическое ожидание m и ковариацию а {е(0, teT} и {^(/), te Т} —последовательности некоррелированных случай- ных векторов с нулевыми математическими ожиданиями и кова- риациями 17*
260 Глава 7 Ev(t) ur(/)=7?1, Ev(t) eT (/) = 0, (5.3) Ее (t)eT (t)--=R2. Матрицы Ф, 9, Ri и /?2 могут зависеть от t. Допустим, что тре- буется найти оценку ат x(fj), линейную по y(ti—1), y(tt—2), у (to) и m и такую, что критерий Е [ат х (4) — ат х (/х)]2 (5.4) имеет минимальное значение. Поскольку оценка линейная, то л б-i аг х (/j) = — ^ м?(0 У (0 + Ьтtn. (5.5) Знак минус введен для получения окончательного результата в более компактной форме. Задача оценки, таким образом, явля- ется задачей определения векторов b, u(ti—1), u(t\—2), ..., u(to). Величины и определяются таким образом, чтобы критерий (5.4) имел минимальное значение. Для этого введем векторы z(t), оп- ределяемые рекуррентным соотношением z(t) = ®Tz(t + 1)4- егм(/ + 1) (5.6) с начальным условием — 1) = а. Следовательно, ат X (4) = zT (ix — 1) X (4) = zT (t0 — 1) х (to) 4- *1-1 4- X [гт(t)x(t+ \)-ZT(t—l)x(t)]. (5.7) t=t. Из выражений (5.1) и (5.6) следует zT (t) х (t 4- 1) = zT (t) Фх (t) 4- zT (t) v (t), zT (t — 1) x (t) = zT (t) Фх (t) -\-uT (t) 9x (t). Подставляя эти выражения в соотношение (5.7), получим *1-1 атх (tT) = zT (t0 - 1) х (t0) + £ \zT (t) v (t) - uT (t) 9x (/)]. (5.8)
Теория фильтрации и упреждения 261 Уравнения (5.2) и (5.5) дают л (^) = — £ / (О У (О + m = t=tQ /х-1 = — £ \ит (I) бх (О +иг (О е (/)] + bTm. (5.9) —/о Объединяя соотношения (5.8) и (5.9), получим атх (/J — атх (/].) = zT (t0 — 1) х (Q — bTm + + £ [zr (t) V (t) - ит (/) e (/)], t=to Возводя в квадрат и беря математическое ожидание, критерий (5.4) можно записать следующим образом: Е \атх &) - атх (/х)]2 = [(z (/0 - 1) - b)T т\2 + (5 10> + гг(/0-1)Я(М-1)+ £ [гГ (ОRiz (t) + ит(/)R2и(/)]. t=t„ Для того чтобы критерий был минимальным, необходимо, таким образом, выбрать параметр b = z(ta—1), а величины и опреде- лить так, чтобы функция / (/0 - 1) (f0 - 1) + ‘s [zT (0 RiZ (0 + ит (О Я2 и (/)] (5.11) t=^to имела наименьшее значение. В результате получаем теорему 5.1. Теорема 5.1. (теорема двойственности). Задача оценки со- стояния для системы, описываемой уравнениями (5.1) и (5.2), эквивалентна задаче нахождения управляющего сигнала и для системы (5.6), который минимизирует критерий (5.11). Упражнения 1. Показать, что задача получения для системы, описывае- мой уравнениями (5.1) и (5.2), оценки агх(/[), линейно завися- щей от y(ti—1).......... y(to), двойственна следующей задаче управления: 2(/) = фгг(^+ 1) + 6Tw (/+ 1), z (/х) = Ф~'а,
262 Глава 7 zT (f0 — 1) RqZ (t0 — 1) 4- 2 [zT (t) RrZ (0 4- uT (/) R2 u (/)]. 2. Можно сформулировать другие теоремы двойственности, применяя к задаче оценки состояния метод максимального прав- доподобия. Для этого рассмотреть систему, описанную уравне- ниями (4.1) и (4.2). С точностью до нормирующего множителя функция правдоподобия L равна совместной плотности вероят- ности х(/0), х(^о+1), х(М и y(t0), y(to+i)f ...» y(ti)- Тогда логарифм L равен - 2 log L = £ [у (k) - 0х (Л)]т RT1 [у (k) - 0х (k)] 4- k = t0 4-2 vT(k)R7'v(k) + + k (*o) — m]T [x (/0) -- m] + const, (5.12) где x и v связаны формулой х (t + 1) = Фх (0 + v (/). (5.13) Задачу оценки можно теперь свести к задаче нахождения про- цесса {у(/)}, такого, что система (5.13) оптимальна по крите- рию (5.12). Показать, что этот метод дает следующее уравнение для наилучшей оценки: Л Л х(/ + 1 = Фх (q/x) + RMt + 1), X (/) = ФГХ (/ 4- 1) 4- tfRT1 \у (0 - 0х (01 • (5.14) Граничные условия имеют вид Л(/о) =7?^ [х (zo) — m], Х(/х + 1) = 0, где Л Л % (^0 I ^1) ~ % (^о) • 3. Показать, что решение задачи оценки, данное в упражне- нии 2, эквивалентно решению, данному теоремой (4.1) (на осно- ве вывода рекуррентных уравнений для х(ф) и P(t) из (5.14)). 4. Показать, что метод, использованный в упражнении 2, так- .же приводит к решению задачи фильтрации.
Теория фильтрации и упреждения 263 6. ОЦЕНКА состояния для ПРОЦЕССОВ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ В разделе рассмотрена задача оценки состояния для процес- сов с непрерывным временем. Цель раздела — вывод уравнений Калмана — Бьюси для оценки состояния. Решение задачи для процессов с непрерывным временем значительно труднее реше- ния задачи для процессов с дискретным временем. В последнем случае большую часть анализа можно проводить в конечномер- ном евклидовом пространстве. Для процессов с непрерывным временем необходимо бесконечномерное пространство. Поэтому при решении задачи для процессов с непрерывным временем ис- пользуют теорию гильбертова пространства. Существует также еще и другая трудность: даже применяя теорию гильбертова пространства, нельзя естественным способом ввести понятие бе- лого шума, которое было успешно использовано в случае ди- скретного времени. Результаты раздела получены не прямо из понятия двойст- венности. Сначала показано, что задача оценки состояния явля- ется двойственной задачей детерминированного управления, а потом выведены формулы, необходимые при использовании ре- зультатов детерминированной теории оптимального управления. Постановка задачи Дадим постановку задачи оценки состояния для процессов с непрерывным временем. Рассмотрим стохастический процесс с непрерывным временем, описываемый уравнениями dx — Axdt + dv, (6.1) dy = Cxdt + de, (6.2) где начальное состояние x(t0) имеет математическое ожидание пг и ковариационную матрицу Ro- Предположим, что {у(О, t е Т} и {e(t), teT} являются стохастическими процессами с не- коррелированными приращениями, ковариации которых равны R\dt и Ridt соответственно. Допустим, что процессы {e(t), teT} и {о(0, teT} взаимно не коррелированы и не коррелированы с х (t0). Задачу оценки состояния можно теперь сформулировать следующим образом. Допустим, что реализацию выходного сиг- нала у наблюдали на интервале (to, f). Определить наилучшую оценку величины вектора состояния в момент времени t. Для полной постановки задачи надо указать; каковы допустимые оценки и что понимается под наилучшей оценкой. Предполага- ется, что допустимые оценки являются линейными функциями
264 Глава 7 наблюдаемого выходного сигнала, а критерий состоит в мини- мизации среднеквадратической ошибки оценки. По предположению о линейности оценки aTx(t\) допустимые оценки имеют вид Л 6 атх (4) = — JV (0 dy (t) + bTm. (6.3) t. Критерий состоит в минимизации величины Е [атх (^) — атх (^)]2. (6.4) Знак минус в (6.3) введен для получения конечного результа- та в более компактной форме. В такой постановке задача оцен- ки состояния сводится, таким образом, к задаче нахождения функции и и вектора Ь. Предполагается, что и является непре- рывной функцией времени. Двойственность Покажем, что задача оценки состояния двойственна задаче детерминированного управления. При этом выберем путь, близ- кий к тому, которому следовали в разд. 5 в задаче с дискретным временем. Для этого перепишем сначала критерий в другом ви- де. Из уравнений (6.2) и (6.3) получаем л атх (О = — j иТ (О &У (0 + bTm= to tl = — J [мг(0 Cx (f) dt + uT (/) de (/)] + bTm. (6.5) to Введем вектор z, определяемый как решение дифференциально- го уравнения — = — Атг — Сти (6.6) dt с начальным условием z (4) = а. (6.7) Тогда h ат х (/О = zT (tt) х &) = гт (/0) х ((0) + [ d [zT (/) х (/)] . (6.8) to Но d (zTx) = dzTx + zTdx = — zTAxdt — uTCxdi + zTAxdx + zTdv = = — uTCxdt + zTdv.
Теория фильтрации и упреждения 266 Следовательно, атх (ti) = гт (/0) х (i0) + j* [— ит (t) Сх (t) di + zT(t) dv (/)]. (6.9) t. Из уравнений (6.5) и (6.9) находим [х (4) — х (у] = гг (/0) х (Q — bT tn + Ту + [ [zT(t)dv{t) +uT(t)de(t)\ . (6.10) Ге Беря математическое ожидание, получим Еат [х (4) — х (4)] = [г (/0) — b\T tn. Видно, что если положить b—z(t0), оценка, заданная формулой (6.5), будет несмещенной при всех а и при любом выборе и. Возводя выражение (6.10) в квадрат и беря математическое ожидание, получим Е [атх (4) - атх (4)]2 = [(г (4) - b)T tn]2 + zT (t0) Roz (4) + h + | [zT (0 (0 + UT (0 /?2и (/)] dt. (6.11) Таким образом, нахождение функции и, такой, что линейная оценка, задаваемая с помощью (6.3), является оптимальной в среднеквадратическом смысле, эквивалентно задаче нахожде- ния сигнала управления для динамической системы (6.6) с на- чальным условием (6.7) и критерием zT (4) R„z (4) + J [гг (/) Rtz (/) + ит (/) R2u (/)] di. (6.12) t. Выводы сформулированы в теореме 6.1. Теорема 6.1. (теорема двойственности). Задача оценки со- стояния для системы, описываемой уравнениями (6.1) и (6.2), эквивалентна задаче нахождения наилучшего закона управле- ния для линейной детерминированной системы (6.6) с критери- ем (6.12). Задача детерминированного управления - Задача, к которой мы только что подошли, немного отлича* ется в обозначениях от обычной формулировки в теории линей- ного оптимального управления. Для облегчения сравнения 18—403
266 Глава 7 сформулируем результаты в стандартной форме. Рассмотрим систему — = Ах+Ви (6.13) dt с заданным начальным условием x(tQ). Требуется найти закон управления, минимизирующий критерий хт (/О QOX (/,) 4- ]' [хг (/) (0 + и (0 Q2u (/)] dt. (6.14) ^0 Предполагается, что матрицы Qo и Qi — положительно полуоп- ределенные, a Qz — положительно определенная. Элементы' всех матриц являются кусочно-непрерывными функциями вре- мени. Решение такой задачи дается линейным законом управления и = — Lx (6.15) при Л = (2Г1Вг5, (6.16) где S — решение уравнения Риккати _ = Xrs + + Qi — SBQT'BTS (6.17) dt с начальным условием 5^-Qo. (6.18) Если уравнение Риккати имеет решение, то решение постав- ленной выше задачи существует и единственно. Доказательство можно найти в книгах по детерминированной теории управле- ния. Доказательство есть также в разд. 7 гл. 8 данной книги. Из сравнения со стандартной формулировкой вытекает, что за- дача (6.6) и (6.12) имеет решение u(t) = — KTz(t), (6.19) где Х= PCTR^ (6.20) И = АР + РАТ 4- - PCTRT'CP, P(t0) = R0. (6.21/. Эквивалентность задачи (6.6) и (6.12) и стандартной задачи оптимального управления (6.13) и (6.14) проиллюстрирована в следующей таблице:
Теория фильтрации и упреждения 267 Стандартная задача Задача оценки состояния оптимального управления t —t ^1 /1 tQ А Ат В Ст Qo ^0 Qi Pi Q2 R2 S Р L Кт Основной результат С помощью результатов детерминированной теории управле- ния была определена функция и, дающая наилучшую оценку. Запишем этот результат так, чтобы получить для оценки сто- хастическое дифференциальное уравнение. Оценка задается формулой Л атх (/J =— j ит (/) dy (/) + bTm, (6.5) где и определяется выражением (6.19). Для получения стоха- стического дифференциального уравнения продифференцируем выражение (6.5). Отметим, что и и b неявно зависят от ti. Поэ- тому перепишем уравнение (6.5) в таком виде, в котором эта зависимость будет явной. Из уравнений (6.6) и (6.19) находим = — Атг — Сти = — (Л — KC)Tz. (6.22) Пусть W(t; ti) —решение дифференциального уравнения — =(Л — КС)Ч (6.23) dt с начальным условием Т(/1;/1)=/. (6.24) Тогда решение уравнения (6.22) с начальным условием z(/i) = а (6.25) равно z(f) = ЧТ (6.26) Следовательно, u(t) = _KTWT (6.27) 18а—403
268 Глава 7 & = (к,to) а. (6.28) Уравнение (6.5) для оценки принимает вид л атх (^) = ат f Т (/,, /) Rdy (/) + атЧ (/,; Q m. (6.29) to Следовательно, если выберем л х(О = J + (6.30) to Л получим оценку х, такую, что среднеквадратическая ошибка оценки будет минимальной при всех а. Дифференцируя выраже- ние (6.30), получим dx (t,) = [ f t} Kdy (f) + ml dt, + Kdy (t,) = lJ Ot1 oti J to = (Л - КС) X (У dtL + Kdy (0 = = Ax (/x) dtr + К [dy (0 — Cx (/x) dtr]. (6.31) Таким образом, линейная оценка, минимизирующая средне- квадратическую ошибку оценки, удовлетворяет линейному сто- хастическому дифференциальному уравнению. Начальное зна- чение получаем из условия (6.30). Имеем л х(/0)=т. (6.32) Вычитая выражение (6.31) из выражения (6.1), находим, что ошибка оценки удовлетворяет стохастическому дифференци- альному уравнению dx = (Л — КС) xdt + dv— Kde. (6.33) С помощью результатов гл. 3 получаем, что ковариация ошибки оценки удовлетворяет дифференциальному уравнению = AQ + QAT + R, - KCQ - QCTKT + К^КТ = at = AQ + QAT + R, — PCTRTlCQ - QCTRT'CP + PCfRz'CP (6.34) с начальным условием <2(/o) = ^o- (6-35) Второе равенство в выражении (6.34) следует из выражения
Теория фильтрации и упреждения 269 (6.20). Вычитая уравнение (6.34) из уравнения (6.21), получим J- (Q _ Р) = A (Q - Р) + (Q - Р) Ат - (Q - Р) CTRTlCP - at -PCTR2lC(Q — P). Так как Q(/q) =^(^о) =/?> то Q(t) = P(t) (ср. с леммой 5.1 гл. 5). Таким образом, ковариация ошибки оценки определяется урав- нением (6.21). Результаты сформулированы в теореме 6.2. Теорема 6.2. (теорема Калмана—Бьюси). Линейная оценка вектора состояния системы, описываемой уравнениями (6.1) и (6.2), удовлетворяет стохастическому дифференциальному урав- нению dx = Axdt + К [dy — Cxdt], (6.31) х (/0) = m, (6.32) где k = pctrt\ а Р — ковариация ошибки оценки, удовлетворяющая уравнению — = АР + РАТ + — РСТР^СР, (6.21) dt Р (*о) ~ ^о. Замечание 1. Поскольку уравнение (6.31) является стохасти- ческим дифференциальным уравнением, его решение можно представить только с помощью стохастических интегралов (см. гл. 3). Строго говоря, это означает, что уравнение (6.31) не может описывать линейный фильтр, действующий на функ- ции выборки наблюдаемого процесса. Замечание 2. Так как стохастические процессы {%(/), teT} и {#(/), teT}—гауссовы, условное распределение x(t) относи- тельно y(s) при будет также гауссовым. Условное ма- л тематическое ожидание равно х, а условная ковариация рав- на Р. Невязки Исследуем свойства невязок. Результаты аналогичны ре- зультатам, полученным в разд. 4 для процессов с дискретным временем. Теорема 6.3. Стохастический процесс {y(t), teT}, определяе- мый равенством 18а*
270 Глава 7 y(t) = y(t)-£(t), (6.36) имеет независимые приращения с нулевыми математическими ожиданиями и ковариациями приращений R2dt. Доказательство. Имеем dy (/) = dy (t) — dy (t) — Cx (t) dt + de — Cx (t) dt = = Cx(t)di + (&(/). (6.37) Так как x и e имеют нулевые математические ожидания, dy также имеет нулевое математическое ожидание. Пусть Рассмотрим Е \у(/Лу—~у (4)] [у — у (4)]т = Л «2 = Ej J [C(s)x(s)ds + de(s')][C(f)'x(t)dt + de(t)]T = S—t3 t = h t2 t2 = I f C(s)R~(s, t)CT(t)dsdt+ ,f f C(s)E[x(s)deT(t)]ds. (6 38) Первое равенство следует из выражения (6.37), а второе — из того, что процесс { e(t) } имеет независимые приращения • и de(s) не зависит от x(t) при 5^> t. Из (6.33) следует х (s) = T (s; t)x(t) + | Т (s; т) [dv (т) — .К (т) de (т)], I где V определяется с помощью (6.23) и (6.24). Следовательно, Ex (s) deT (/) =— ¥ (s;0 К (/) R2 (t) dt. (6.39) Из уравнения (6.33) и теоремы 6.1 гл. 3 получаем /?7(5,0 = Т(з;/)Р(/), (6.40) где Р определяется выражением (6.21). Из уравнений (6.38) — (6.40) находим Е [у (t4) — у (4)] [у (4) — У (4)]т = ^4 ^2 = С CC(s)4’’(s;0[P(0Cr(4—R(t)R2(t)]dsdt=Q, I Z (6.41) где интеграл равен нулю, так как подынтегральное выражение равно нулю. Это следует из выражения (6.20). Поскольку
Теория фильтрации и упреждения 271 {у(0, te. Т} —винеровский процесс, [z/(/4) — (y(t3)] и [y(t2) — —£/(^1)] имеют нормальные распределения. Условие (6.41) влечет независимость приращений. Процедура определения ковариации приращений процесса {y(t), teT} аналогична выводу формулы (6.38). Замечая, что первый член в выражении (6.38) имеет по- рядок (dt)2, находим Е [у (4) — у (ii)] Ту &) — У (4)]т = = Е j J de (s) deT (t) + о (dt) = J /?2 (t) dt + о (dt). t==it t. Таким образом, ковариация приращений равна и теорема доказана. Представление процесса {y(t)> teT} Теорема 6.3 позволяет получить интересное представление стохастического процесса {у(/), teT}, определяемого уравнени- ями (6.1) и (6.2). Из теоремы 6.3 следует, что этот процесс мож- но представить следующим образом: ЛА ~ dx = Axdt -г Kdy, dy = Cxdt + dy, (6.42) где x (/0) = m (6.43) и {r/(Z), t eT]—винеровский процесс с ковариацией прираще- ний Rzdt. Отметим, что представление (6.42) обратимо, т. е. при решении у можно выразить непосредственно через у и наоборот. Это означает, что операции, которые требуются для решения за- дач фильтрации и упреждения, очень легко осуществляются в представлении (6.42) (ср. с выводами разд. 3 гл. 6 и упражне- нием 6 разд. 3 данной главы). Отметим также, что состояние х в представлении (6.42) интерпретируется как условное матема- тическое ожидание состояния системы, описываемой уравне- нием (6.1). Упражнения 1. Рассмотреть стохастический процесс dx = axdt + dv, dy = xdt + de,
272 Глава 7 где { v(t) } и { e(t) } — независимые винеровские процессы с ковариациями приращений rxdt и r2dt соответственно. Допус- тим, что начальное состояние нормально N(m, V r0). Показать, что коэффициент усиления оптимального фильтра равен /<(0 = Р(/)/г2, где р _ (гг/Р) shft + Гр [ch р/ + (<Х/Р) Sh PZ] ch р/— (а/p) sh р/+ [r0/(r2P)] sh PZ ’ P = j/a2 J_ 2. Показать, что решение уравнения Риккати — = АР + РАТ + Ri — РСТ ЯГ1 СР с начальным условием P(t0) = R0 можно представить в виде Р (0 = [Л21 (t- /0) + Л22 (/; t0) fl0] [Лп (/, /0) + Л12 (/; Q Яо]-\ где /о) ((> /о) _Л21 (/; /0) ;Л22 (/; /0) _ является решением линейного уравнения dK _ Г— Лг Ст rt'c А с начальным условием Л(/о; to)=I (единичная матрица 2«Х2п). 3. Рассмотреть стохастическое дифференциальное уравнение dy + aydi = budt + de, где {e(/)}—винеровский процесс с параметром дисперсии г, а параметры а и b удовлетворяют уравнениям da = — aadi + dv, db = — pb dt + dw, где { v(t) } и {—независимые винеровские процессы с параметрами дисперсии ги и г22. Использовать теорему (6.2) при выводе рекуррентных уравнений для выбора параметров а и b по критерию минимума средних квадратов. 4. Применяя к задаче оценки состояния метод максимума правдоподобия, можно вывести теорему двойственности, кото-
Теория фильтрации и упреждения 273 рая отличается от теоремы 6.1. Можно показать, что функция правдоподобия для задачи, заданной уравнениями (6.1) и (6.2), имеет вид — 2 log L = [х (/0) — m] т RT1 [х (/0) — т] + t + [ [г/ (/) - Сх (/)]т гг1 [у (/) - Сх (/)] dt + to t + J vT(t) v (t) dt -r const. (6.44) to Задача оценки состояния сводится к задаче нахождения управ- ляющего сигнала v для системы dx Л --- = Ах ~Г V, dt который минимизирует критерий (6.44). Показать, что данный подход к задаче дает те же результаты, что и теорема 6.2. 5. Показать, что теорему 6.2 можно формально получить пре- дельным переходом в соответствующей задаче с дискретным временем, рассмотренной в разд. 4 (теорема 4.1). 6. Показать, что теорему 6.2 можно обобщить на случаи, ког- да процессы {и(/)} и {^(0} являются суммами винеровских процессов и детерминированных функций У1(/) и ei(t) соответст- венно, где t'i и — неизвестные константы. Указание. Рассматривать щ и ei как дополнительные пере- менные состояния. 7. Рассмотреть систему, для которой С= [1,0], Определить фильтр Калмана и ковариационную матрицу Pq для оценки установившегося состояния системы. Найти предел пе- редаточной функции оптимального фильтра при г2-*0- 8. Рассмотреть задачу упражнения 7. Определить оптималь- ный фильтр Калмана при г2=0. Указание. Если /"2=0, переменную состояния Xi(t) можно измерить точно. Благодаря этому можно уменьшить размер- ность задачи. 9. Рассмотреть систему dx — Axdt -г Bde, dy — Cxdt + de,
274 Глава 7 где {e(t), teT}—винеровский процесс с ковариацией прира- щений R%dt. Пусть А, В, С и Rz— постоянные матрицы. Допус- тим, что все собственные значения матрицы А—ВС лежат в ле- вой полуплоскости. Определить коэффициент усиления фильтра Калмана для установившегося состояния и ковариацию уста- новившегося состояния. 10. Рассмотреть задачу оценки состояния для систем dx =--= Axdt + Bdu, dy = Cxdt + de, dz — — AT z dt + CT dv, dy = BT zdt + dn, где ( u(t), teT}, {e(t), teT\, \ v(t), teT и {n(t), teT} — про- цессы с ковариациями приращений Ridt, Rzdt, R~ldt и R~ldt со- ответственно. Начальные состояния имеют нормальные распреде- ления с ковариациями /?о и соответственно. Показать, что задачи оценки состояния двойственны, и найти взаимосвязь между уравнениями Риккати для этих задач. 11. Рассмотреть систему, описываемую уравнениями (6.1) и (6.2). Показать,что оптимальный среднеквадратический упреди- тель для x(s) относительно Y/ при s>/ имеет вид X (si/) = Ф (s; t) х (/), а ковариация упредителя P(s \t) удовлетворяет уравнению = A(s',P (st) + Р (s't) Ат(s) + ($), ds P(t\t) = P(t). Вывести рекуррентную формулу для упредителя. 12. Пусть х и у — скаляры. Рассмотреть систему [dx = xdy 4- bde, \dy — х dt + de, где {e(/), teT} — винеровский процесс с единичным параметром дисперсии. Пусть начальное состояние имеет нормальное рас- пределение с параметрами (0, У г0).Определить наилучшую сред- неквадратическую оценку x(t) относительно Yt, коэффициент усиления фильтра для установившегося состояния и дисперсию оценки установившегося состояния. 13. Случайный дрейф гироскопа упрощенно описывается сле- дующей математической моделью: dxr = (х2 + х3) dt,
Теория фильтрации и упреждения 275 dx2 = О, dx3 -----— -х3 dt + os 1 / — dv, ’ Т У т где —угол дрейфа, х2— постоянный дрейф, х3— случайный дрейф, {у(/), teT} —винеровский процесс с единичным парамет- ром дисперсии. Допустим, что Xi(0)=0, Ех2(0)=0, Ех3(0)=0, . дисперсии varx2(0) и varx3(0) равны и о2 соответственно и Xi измеряется без ошибки. Определить оценки компонент х2 и х3, имеющие минимальные дисперсии. 14. Рассмотреть уравнение Риккати = АР + PAT+RU P(t0)=P0. at Пусть P = QQT и Ро = QoQo. Показать, что матрица Q удовлет- воряет дифференциальному уравнению <2(м = <?о. at 2 I 15. Предположим, что уравнение Риккати (6.21) имеет ре- шение, положительно определенное при всех t. Показать, что об- ратная матрица Р~1 удовлетворяет уравнению „ — = —P~1A—ATp-1~p-1P1p-1+CTR21C, dt p-l(t0) = p^. , 16. Объединив результаты упражнений 14 и 15, получить уп- рощенный алгоритм для решения уравнения Риккати (6.21) в частном случае, когда Ri = 0. 7. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА Задачи фильтрации и упреждения впервые поставлены и ре- шены Колмогоровым и Винером [1, 2]. Колмогоров рассмотрел эти задачи для систем с дискретным временем, а Винер — для систем с непрерывным временем. Колмогоров дал представле- ние случайных процессов, предложенных Винером [3]. Доступное изложение подхода Колмогорова приведено в ра- боте [4]. Винер свел задачу к некоторому интегральному уравнению, называемому уравнением Винера — Хопфа. Для этого требуется, чтобы процесс можно было представить как реакцию стаци- онарного объекта на белый шум. Оригинальная работа Винера читается довольно трудно; Упрощенный подход к теории Винера изложен в работах [5, 6]. В работе [6] результат Винера обоб-
276 Глава 7 щен на случай, когда сигнал является суммой случайного про- цесса и полинома с неизвестными коэффициентами. Теория Винера — Колмогорова изложена в настоящее время во многих учебниках [7—9]. Существенный вклад в теорию внесли Калман и Бьюси. В ра- ботах [10—13] они обобщили теорию на случай конечных ин- тервалов наблюдений и на нестационарные процессы. Преиму- щество теории Калмана — Бьюси в том, что она очень удобна для вычислений. Интересно новое доказательство теории Кал- мана—Бьюси, приведенное в работе Кайлата [14]. Подход Кайлата дает изящное решение задачи сглаживания [15]. В настоящее время связь между теорией Винера — Колмого- рова и теорией Калмана—Бьюси установлена достаточно ясно. Показано, что интегральное уравнение Винера—Хопфа, связан- ное с задачей Калмана — Бьюси, можно свести к задаче на- чального значения для уравнения Риккати [16]. Идея сведения решения интегрального уравнения к решению дифференциального уравнения с заданным начальным усло- вием приводится в работах [17, 18]. Замечание о совпадении для нормальных процессов оценок по методу наименьших квадратов с многими другими критери- ями содержится в работе [19], где дана также более общая форма теоремы 2.1. Доказательство теоремы фильтрации приво- дится в статьях Калмана. Уравнения Калмана были также по- лучены Брайсоном [20], который использовал метод макси- мального правдоподобия. Брайсон распространил результаты Калмана на задачу сглаживания. Сравните упражнение 2 разд. 5 и упражнение 4 разд. 7. Изящное решение задачи сглажива- ния приведено в статье Кайлата и Фроста [15]. Задача сглажи- вания была решена также в работе [21]. Теорема двойственности впервые сформулирована Калма- ном и Бьюси в работе [13]. Другая теорема двойственности по- лучена в работе [22]. Модель системы n-го порядка может иметь порядок, мень- ший п. Такие примеры можно найти в гл. 6, когда полином С имеет меньший порядок, чем полином А. В терминах простран- ства состояний подобная ситуация возможна, когда матрица R? вырожденная. Это обычно называют шумом при измерениях. Ин- туитивный метод решения такой задачи приведен в работе [23]. Эта задача рассмотрена также в работе [24]. Прямое доказательство теоремы 6.2, основанное на непо- средственном вычислении условной плотности вероятности, мож- но найти в работе [25]. Результаты гл. 7 можно обобщить на нелинейную задачу оценки состояния системы dx — f (х, t) dt + (х, t) do,
Теория фильтрации и упреждения 277 dy = g (х, t) dt + (х, t) de, где {e(0, teT} и {y(Z), teT}—винеровские процессы. При этом можно вывести фундаментальное уравнение для условной плотности распределения х(/) относительно Yt. В скалярном случае получаем следующее уравнение условной плотности рас- пределения х(^) относительно Уг: dp 1“Т"+ 4-Й dt + L дх 2 дх2 J + [g — J'gpdx] [dy — (j gpdx. dt\. Эти функциональные уравнения впервые получены Страто- новичем [26], который определяет стохастический дифференци- ал, используя интеграл Стратоновича. Вывод функциональных уравнений для условных плотностей распределений с использо- ванием интегралов Ито, приведен в работе [27]. 1. Колмогоров А. Н., Интерполяция и экстраполяция стационарных случай- ных последовательностей, Вестник МГУ, сер. мат., 5 (1941). 2. Wiener N., The Extrapolation, Interpolation, and Smoothing of Stationary Time Series with Engineering Applications, Wiley, N. Y., 1949. 3. Wold H., A Study in the Analysis of Stationary Time Series, Almqvist and Wiksell, Uppsala, 1938. 4. Whittle P., Prediction and Regulation, Van Nostrand, Princeton, 1963. 5. Bode H. W., Shannon С. E., A Simplified Derivation of Linear Least-Square Smoothing and Prediction Theory, Proc. IRE, 38, 417 (April 1950). 6. Zadeh L. A., Ragazzini I. R., An Extension of Wiener’s Theory of Prediction, J. Appl. Phys., 21, 645—655 (1950). 7. Davenport W. B., Jr., Root W. L., An Introduction to the Theory of Ran- dom Signals and Noise, McGraw-Hill, N. Y., 1958. Русский перевод: В. Б. Давенпорт, В. Л. Рут, «Введение в теорию случайных сигналов и шумов», ИЛ, М., 1960. 8. Lee Y. W., Statistical Theory of Communication, Wiley, N. Y., 1960. 9. Яглом A. M., Введение в теорию случайных функций, УМН, 7, № 5 (1955). 10. Kalman R. Е., A New Approach to Linear Filtering and Prediction Prob- lems, J. Basic Eng., 82, 34—45 (March 1960). 11. Kalman R. E., New Methods in Wiener Filtering Theory, Proceedings of First Symp. on Eng. Appl. of Random Function Theory and Probability, Wiley, N. Y., 1963. 12. Bucy R. S., Optimum Finite-Time Filters for a Special Nonstationary Class of Inputs. Internal Memorandum, BBD-600, Johns Hopkins Univ. Applied Physics Lab., 1959. 13. Kalman R. E., Bucy R. S., New Results in Linear Filtering and Prediction Theory, Trans. ASME, Ser. D., J. Basic Eng., 83, 95—107 (December 1961) 14. Kailath T., An Innovations Approach to Least-Squares Estimation. Part. 1: Linear Filtering in Additive White Noise, IEEE Trans. Autom. Control, AC-13, 646—655 (1968). 15. Kailath T., Frost P., An Innovations Approach to Least-Squares Estimation. Part II: Linear Smoothing in Additive White Nouse, IEEE Trans. Autom. Control, AC-13, 655—660 (1968). 16. Schumitzky A., On the Equivalence between Matrix Riccati Equations and Fredholm Resolvents, J. Computer and Sys. Sci., 2, 76—87 (1968).
278 Глава 7 17. Bellman R. E., Functional Equations in the Theory of Dynamics Program- ming-VII: A Partial Differential Equation for the Fredholm Resolvent, Proc. Am. Math. Soc., 8, 435—440 (1957). 18. Kailath T., Fredholm Resolvents, Wiener-Hopf Equations and Riccati De- ferential Equations, Report, Stanford University. 19. Sherman S., Non Mean-Square Error-Criteria, Trans. IRE IT-4, 125—126 (1958). 20. Bryson A. E., Ho Y., Optimal Programming, Estimation and Control, Blaisdell, N. Y., 1968. 21. Zachrisson L. E., An Optimal Smoothing of Continuous Time Kalman Pro- cesses, Rep. № R24 (1968), The Royal Institute of Technology, Sweden. 22. Pearson I. O., On the Duality between Estimation and Control, SIAM. J. Control, 4, 594—600 (1966). 23. Bryson A. E., Johansen D. E., «Linear Filtering for Time-Varying Systems Using Measurements Containing Coloured Noise», Trans. IEEE on Autom. Control, 10, № 1, 4—10, (January 1965). 24. Bucy R. S., Rappaport D., Silverman L. M., Correlated Noise Filtering and Invariant Directions for the Riccati Equation, Report, University of Southern California, 1969. 25. Bucy R. S., Joseph P. D., Filtering for Stochastic Processes with Applica- tions to Guidance, Wiley N. Y., 1968. 26. P. Л. Стратонович, Условные марковские процессы и их применение к тео- рии оптимального управления, Изд-во МГУ, 1966. 27. Kushner Н. J., On Dynamical Equations of Conditional Probability Density Functions with Applications to Optimal Stochastic Control, J. Math. Anal, and Appl., 8, 332—344 (1964).
Глава 8 ЛИНЕЙНАЯ СТОХАСТИЧЕСКАЯ ТЕОРИЯ УПРАВЛЕНИЯ 1. ВВЕДЕНИЕ В гл. 6 рассмотрена простая задача регулирования для сис- темы с одним входом и одним выходом. Помехи, действующие на систему, представляли собой случайные процессы. Задача управления сформулирована как вариационная задача, а в ка- честве критерия выбрана дисперсия выходного сигнала. На простом примере обнаружена тесная связь между сто- хастической теорией управления и теорией упреждения. Из основных результатов, полученных в гл. 6, вытекает, что дейст- вие оптимального регулятора можно объяснить следующим образом. Управляющий сигнал необходимо выбрать так, чтобы прог- ноз (упреждение) выходного сигнала системы отличался от же- лаемого выходного сигнала на величину, равную запаздыванию во времени процесса. Тогда ошибка управления будет равна ошибке упреждения. В данной главе рассмотрены гораздо более общие задачи уп- равления. Предполагается, что система все же остается линей- ной. Однако она может иметь несколько входов и выходов и не быть стационарной. Критерий выбирается так, чтобы минимизи- ровать математическое ожидание квадратичной формы пере- менных управления. Основным результатом является теорема разделения, или так называемый принцип полной эквивалентно- сти. По теореме разделения оптимальную стратегию управления можно составить из двух частей: оптимальная оценка вектора состояния системы по наблюдаемым выходам и закон линейной обратной связи. По этому закону управляющий сигнал является линейной функцией оценки состояния. Закон линейного управ- ления формулируется так же, как и в том случае, если бы поме- хи отсутствовали и вектор состояния был известен точно. Этим объясняются термины «принцип полной эквивалентности» и «те- орема разделения». Теорема разделения очень важна для теории управления. Хорошо известно, что в детерминированной теории оптимально- го управления нет различий между системой с обратной связью и разомкнутой системой. Введение помех создает различия меж-
280 Глава 8 ду этими системами. В линейной стохастической теории управ- ления это различие можно учесть. Постановка задачи для систем с дискретным временем рас- смотрена в разд.2. В разд. 3 изложены предварительные резуль- таты. Основной результат содержится в лемме 3.1, которую можно рассматривать как решение статистической задачи опти- мизации в случае неполной информации о состоянии. Решение задачи для случая полной информации о состоянии с использованием динамического программирования приводится в разд. 4. В разд. 5 изложено решение задачи для случая непол- ной информации о состоянии. Теорема разделения доказывается непосредственно. Этот метод основан на построении решения фильтра Калмана. Другое доказательство теоремы разделения приведено в разд. 6. Оно основывается на тождестве из вариа- ционного исчисления и не требует подробного решения за- дачи фильтрации. Таким образом, получается общая теорема разделения, которая включает случай упреждения при измере- ниях. Это доказательство позволяет дать физическую интерпре- тацию членов, входящих в выражение для минимального зна- чения функции потерь, а также сравнение детерминированного случая со случаями полной и неполной информации о состоянии. Задача для систем с непрерывным временем рассмотрена в разд. 7 (постановка задачи и доказательство теоремы разделе- ния). Доказательство теоремы разделения является непрерыв- ным аналогом доказательства, приведенного в разд. 6. 2. ПОСТАНОВКА ЗАДАЧИ Сформулируем задачу стохастического управления. Рассмот- рим систему, описываемую разностным стохастическим уравне- нием х (t + 1) = Фх (0 + Ги (0 + v (0, (2.1) у(О = 0х(О + е(/), (2.2) где t €?={..., —1, 0, 0, ...}, х есть n+1-мерный вектор состояния, и—рХ1-мерный вектор управляющих переменных, у—гХ1 -мер- ный вектор выходных сигналов, а {гД/), И {е(0> 7} — последовательности независимых нормальных случайных вели- чин с нулевыми средними значениями и ковариационными мат- рицами cov [у (/), v (/)] = cov [у (/), е(/)] = 0, (2.3) cov [е(/), е (/)] = Т?2. Матрицы Ф, Г, 9, и Rz могут зависеть от времени. Пред-
Линейная, стохастическая теория управления 281 положим, что e(t) и v(t) не зависят от x(t) и что начальное состояние x(t0) нормально, причем Ex(to) = m, cov [х (/0), х (/0)] = Ro- (2-4) Предположим также, что Ro и Ri— неотрицательно определен- ные матрицы, а /?2— положительно определенная матрица. Действие системы характеризуется скалярной функцией потерь N—1 l = xT (N)Qox(N} 1 V [лг(/) QL х (f) + uT(l')Q2 u(t)]. (2.5) t=^t0 Матрицы Qo и Qi симметричны и неотрицательно определенные, матрица Q2 предполагается положительно определенной. Огра- ничение на матрицу Q2 может быть ослаблено. Все матрицы могут зависеть от времени. Так как функция потерь является стохастической перемен- ной, то непосредственно нельзя определить, что понимается под минимальным значением I. Можно, например, считать, что l\ меньше Z2, если Zi<Z2 с вероятностью I, если max^/idnin^ или если EZl<£,/2. В качестве критерия мы выберем математи- ческое ожидание функции потерь N~ 1 El = Е (R) Qo х (R) + V хт (/) Qi х (t) + ит (f) Q2 и (/)]. (2.6) t—to Следовательно, задачу стохастического управления можно сформулировать следующим образом. Задача 2.1 Найти допустимую стратегию управления системой, описы- ваемой уравнениями (2.1) и (2.2), которая минимизирует крите- рий (2.6). Для полной постановки задачи необходимо уточнить, что подразумевается под допустимой стратегией управления. Для задачи стохастического управления в отличие от детерми- нированной задачи очень важно указать начальные условия для определения управляющего сигнала. Если матрица 9 в урав- нении (2.2) равна единичной матрице, a e(Z)=O, то уравнение (2.2) принимает вид у(г) =х(/). Это означает, что сигнал на выходе системы в момент времени t дает точное значение вектора состояния,, т. е. имеем полную информацию о состоянии. В этом случае закон, или стратегия управления, является функцией, отображающей пространство
282 Глава 8 состояний Rn в пространство управляющих переменных Rp. Отметим, что поскольку уравнение (2.1) представляет стоха- стическую модель состояния, то нельзя получить какую-либо дополнительную информацию о будущем поведении системы по измерениям в прошлом. В большинстве задач переменные состояния точно не извест ны. Такая ситуация называется случаем с неполной информа- цией о состоянии. При этом значение управляющего сигнала в момент t является функцией всех наблюдаемых выходных сигналов в моменты времени, предшествующие t. По аналогии с задачей фильтрации (гл. 7) введем величину Yt для обозна- чения наблюдаемых выходов или имеющейся информации. Для систем с дискретным временем Yt = [/(9, /(/о + 1),...,/(/)], где Таким образом, стратегия управления является функ- цией, которая отображает пространство наблюдаемых выходных сигналов в пространство допустимых управляющих сигналов. Из анализа ясно, что случай с неполной информацией о со- стоянии является гораздо более сложным, поскольку размер- ность пространства °&t возрастает при увеличении t. Пути прео- доления этих трудностей являются основными в стохастической теории управления. 3. ПРЕДВАРИТЕЛЬНЫЕ ЗАМЕЧАНИЯ Вывод основного результата осуществляется в несколько этапов. Чтобы легче следить за выводом, рассмотрим упрощен- ный вариант задачи. Статическая задача оптимизации Сначала рассмотрим задачу стохастической оптимизации без учета динамики процессов. При этом мы получим фундамен- тальную лемму теории стохастического управления, из которой явно вытекает различие между случаями полной и неполной информации о состоянии. Она также иллюстрирует важность точного определения информации имеющихся данных, необхо- димых для решения задачи стохастической оптимизации. Пусть хеХ и yeY— две скалярные случайные переменные, определенные на вероятностном пространстве, и ueU — управ- ляющая переменная. Пусть функция потерь I отображает XX ХУХ^ в множество действительных чисел. Тогда среднее зна- чение функции потерь можно написать в виде Е/(х,г/,н), (3.1) где Е — математическое ожидание по х и у.
Линейная стохастическая теория управления 283 Рассмотрим задачу минимизации выражения (3.1). Пред- положим сначала, что допустимые стратегии управления пред- ставляют собой функции, отображающие XX У в (случай полной информации о состоянии). Затем рассмотрим случай, когда допустимая стратегия управления является функцией, которая отображает У в U (случай неполной информации о со- стоянии). Случай полной информации о состоянии Пусть min£7(x, у, и) означает минимум Е1(х, у, и) относитель- и(х,у) но всех стратегий управления, отображающих XX У в U. Тогда справедлива лемма 3.1. Лемма 3.1. Предположим, что функция /(х, у, и) имеет единственный минимум относительно ueU для всех хеХ, хеУ. Пусть ц°(х, у)—значение и, при котором это выражение до- стигает минимума. Тогда min El (х, у, и) = Е1 (х, у, и° (х, у)) = Е min I (х, у, и). (3.2) и(х,у) и Доказательство. Для всех допустимых стратегий / (х, у, и) (х, у, и° (х, у)) = min I (х, у, и). и Следовательно, Е1 (х, у, и) Е1 (х, у, и° (х, у)) = Е min I (х, у, и). и Минимизируя левую часть неравенства по всем допустимым стратегиям, получим min El (х, у, и) Е1 (х, у, uQ (х, у)) = Е min I (х, у, и). (3 3) и(х,у) и Так как и°(х, у) является допустимой стратегией, то El (х, yt и° (х, у)) min El (х, у, и). (3.4) и(х,у) Объединяя неравенства (3.3) и (3.4), получаем равенство (3.2), и лемма доказана. Замечание. Выражение min Z(x, у, и) определяет и как функ- цию х и у. Из леммы следует, что операция минимизации отно сительно допустимых стратегий управления и математическое ожидание по совместному распределению х и у перестановочны. Случай неполной информации о состоянии Ограничим допустимые стратегии управления классом функ- ций, отображающих У в U. При этом выбор управляющего сиг- нала основывается только на информации об одной переменной.
284 Глава 8 Пусть min£/(x, у, и) означает минимум Е1(х, у, и) относительно всех допустимых стратегий управления. Тогда справедлива лемма 3.2. Лемма 3.2. Пусть £[•1у] означает условное среднее при дан- ном у. Допустим, что функция f(y, и)=Е[1(х, у, и) |г/] имеет единственный минимум относительно ueU для всех yeY. Пусть и°(у) —значение и, при котором достигается минимум. Тогда min El (х, у, й) = Е1 (х, у, и° (у)) = Е (min Е [/ (х, у, и) | у]}, (3.5) и(у) у и ' где Е означает среднее значение относительно распределения у. Доказательство. Для всех допустимых стратегий f (У, “)>f(y, и0 (у)) = min f (у, и), и Следовательно, Д/ (х, у, и) = Ef (у, и) Ef (у, и° (у)) = Е1 (х, у, и, и° (у)) = У У = Е 1тт£ [Z(x,z/, и)|«/]}. У и Минимизируя левую часть по всем допустимым стратегиям, по- лучим min El (х, у, и) Е1 (х, у, и° (у)) = Е (min Е [/ (х, у, и) | у\}. (3.6) и{у) у ' и J’ Так как uQ(y) —также допустимая стратегия, то Е1 (х, у, и° (у)) min El (х, у, и). (3.7) и(У) Объединяя неравенства (3.6) и (3.7), получим равенство (3.5), и лемма доказана. Замечание 1. Условное среднее £[• |у] является функцией у, и операция min f(x, и) определяет функцию Таким обра- зом, операция min£[-1 у] определяет функцию Y-+U. и Замечание 2. Из леммы вытекает, что операция минимизации по допустимым стратегиям и: Y-+U и операция условного мате- матического ожидания перестановочны. Замечание 3. В случае, аналогичном рассмотренному, очень важно указать допустимые стратегии управления. Из неравен- ства min El (х, у, и) min El (х, у, и). (3.8) и(у) и(х, у) вытекает, что функция потерь в случае состояния с полной ин- формацией не больше, чем в случае с неполной информацией о состоянии.
Линейная, стохастическая теория управления 285 Среднее значение квадратичной формы нормальных случайных переменных Для вычисления математического ожидания типа Ехт Sx, где х — нормальная случайная переменная, докажем лемму 3.3. Лемма 3.3. Пусть х — нормальный вектор со средним m и ковариационной матрицей /?. Тогда Ехт Sx = mTSm + tr SR. (3.9> Доказательство. Так как Ex=m, то Ехт Sx = Е(х — m)T S(x — m) + EmT Sx + ExT Sm — EmT Sm — = E(x — m)T S (x — m) + mT Sm. (3.10} Кроме того, (x — m)T S(x — m) = ir(x — m)S(x — m) = tr S(x — m) (x — m)T. Перейдя к математическому ожиданию, получим Е (х — m)T S(x — m) = EtrS(x — m)(x — m)T = = trSE(x — m)(x— m)T= tr SR. (3.11} Подстановка выражения (3.11) в выражение (3.10) приво- дит к соотношению (3.9), и лемма доказана. Упражнения 1. Пусть и — вектор управления, у — выходной сигнал, а состояние предполагается нормальным со средним m и ковариа- ционной матрицей R. Векторы х, у и и удовлетворяют равенству у = Аи + х. Рассмотрим оптимизацию функции потерь I = q0 + ql у + qlu + у ут Qx у + ут (?12 м-f- у wrQ2 и. Определить стратегию управления и, минимизирующую среднее значение функции потерь при отсутствии информации о состоя- нии (т. е. стратегия управления и должна быть функцией толь- ко априорной информации) или при наличии полной информации о -состоянии (т. е. стратегия управления и является функцией х). Определить также минимальные средние потери в обоих слу- чаях.
286 Глава 8 2. Предложенной в упражнении 1 моделью описали амери- канскую экономику в период депрессии1). Переменные имеют следующие значения (в млрд, руб.): z/i — фонд заработной платы, и2 — косвенные налоги, и3— пра- вительственные расходы на товары и обслуживание, у\ —общее потребление, у2 — общие капиталовложения, z/3 — «переменное распределение». Значения являются отклонениями от желаемых величин. Были выбраны следующие параметры: ’ 0,666 Л= -0,052 0,285 —0,188 -0,296 2,358 0,671 0,259 -1,427 “—5,39 " —3,704 —0,729 ?0 — 0, Q1 — Q1 Q2 — Л Q12 — 0. Определить оптимальное управление для случая неполной информации о состоянии. Указание. Решения Рузвельта были следующими: = 0,54, и2 =— 2, и3 ==— 1,14. 4. СЛУЧАЙ ПОЛНОЙ ИНФОРМАЦИИ О СОСТОЯНИИ Решим задачу стохастического управления, сформулирован- ную в разд. 2, для случая полной информации о состоянии, т. е. предполагается, что система описывается уравнением (2.1), выб- ран критерий (2.6) и допустимые стратегии управления являют- ся функциями, которые отображают пространство расстояний X в пространство управляющих переменных U. Для решения за- дачи (2.1) используем метод динамического программирования. Сначала выведем функциональное уравнение, а затем дадим ме- тод его решения. Функциональное уравнение Рассмотрим ситуацию в момент времени t. Исходя из резуль- татов наблюдений переменных состояний x(tn), x(tn), x(/n+l),».., х(/), необходимо определить управляющий сигнал u(t). Так как закон управления системой удовлетворяет стохастическому раз- ностному уравнению, то условное распределение вероятностей будущих состояний при заданных прошлых значениях состояний 1 Theil Н., Optimal Decision Rules for Government and Industry, North Holland, Amsterdam, 1964.
Линейная, стохастическая теория управления 287 является только функцией x(t). Таким образом, достаточно вы- брать u(t) как функцию х(/). Среднее значение потерь можно представить как сумму двух членов: 7V—1 Е [Z (N) Qo х (N) + V хт (s) Qi х (s) + ит (s) <?2 и (з)] = S=/o /—1 =Е | £ хт (з) Qi х (s) + ит (s) Q2 и (s)] + S=t0 t-1 +Е [хг (N) Qo x (N) + S xT (s) Qix <s) + uT(s) Q2 u(s)]. (4.1) s—t Первый член не зависит от н(/), ..., u(N—1). Для мини- мизации функции потерь относительно этих управляющих пере- менных достаточно минимизировать второй член выражения (4.1). Предположив, что минимум существует, применим лемму 3.1 и получим N—1 min Е (N) Qo x(N)+ J] xT (s) x (s) + uT (s) Q2 и (s)j = s=t = E[V(x,t)}, (4.2) где N—1 V (x, t) = min E [xr (N) Qo x (N) + S xT (s) Qx x (s) + u(f)........u(W-l) s=t + Mr(s)Q2M(s)|x]. (4.3) Минимум берется no u(t), и(t + 1,..., u(N—1). Из леммы 3.1 следует, что V (х (t), t) = min Е \хт (/) Q140+ ит (/) Q2 и (t) + U(t) + min£kr(/+ l)Qxx(/+ l) + ur(/+l)Q2tz(/+ 1) + «(/4-1) + minE ... I x (t + 1)1 I x (t + 1)|. w(/4-2) J 1 Отметим, однако, что определение V(xf t) [выражение (4.3)] дает следующее выражение: v{x(f + 1М+ 1) =min£{xr(Z + l)Qix(^ + 1) + + ит (f + 1) Qzu(t -}- 1) + min£...| x(t + 1)) = «(<+2)
286 Глава 8 N—l = min E {xr (N) Qo x (N) + xT (s) x (s) + s=?+l 4-u7’(s)Q2u(5)|x(/+1)J. (4.4) Уравнения (4.3) и (4.4) приводят к следующему функционально- му уравнению относительно V: V (х, /) = min Г [хг (t)Q1x(t) + ит (/)Q2m(/) + V(x(/ + 1); /+1)|х] = = min [хг (/) Qj х (/) + ит (/) Q2 и (t) + u«) + E{V(xtf+ 1), /+ l)|x)]. (4.5) При t = N получим V (x, N) — min E [xr (JV) Qo x (N) | x] — xT Qo x. (4.6) Выражение (4.6) представляет начальное условие для уравне- ния (4.5), которое называется уравнением Веллмана. Решение уравнения Беллмана Докажем, что решение функционального уравнения (4.5) с начальным условием (4.6) представляет собой квадратичную функцию V(x,t) = xTS(i)x + s(t), (4.7) где S — неотрицательно определенная матрица. Для t=N утвер- ждение очевидно. Применим метод индукции. Преположим, что выражение (4.7) верно для /+1, и докажем, что оно верно так- же и для t. Таким образом, V(x(f + 1), /+ 1) =хг(/+ 1)3(t + 1)х(/+ l) + s(/ + l). (4.7а) Для оценки функционала (4.5) необходимо определить условное распределение х(£-j-1) при x(t) = х. Из уравнения (2.1) получим х (t + 1) = Фх (t) + Ги (/) v (i). Таким образом, х(г4~1) при x(t) =х имеет нормальное условное распределение со средним Фх4-Гм и ковариационной матрицей Ri. Используя лемму 3.3, получим £[V(xtf + 1), t+ 1)|х] = [Фх-f-Гы]г S(/+ 1) [Фх + Гы] + + tr^S(/+ l) + s(/ + 1). (4.8) Подставив выражения (4.7а) и (4.8) в уравнение (4.5), получим V (х, t) = min {хт Qj х + uTQ2 и + (Фх + Гы)г S(t + 1) (Фх + Гм) + + trT?!3(/ + l) + s(Z+ I)} = min {хг[ФгS(/4- 1)Ф +
Линейная стохастическая теория управления 289 + Q1-Lr(Q2 + r7’S(/+ 1)Г)ф + + (и + Lxf (Q2 + Гг S(t + 1)Г) (и + Lx) + + tr/?1S(/ + l) + s(f+ 1)} = = хт [Фг5(/ + 1)Ф + Qr-I.7 (Q2 + Гг5(/ + 1)Г)А]х + + tr7?1S(/+ l) + s(/ + l), (4.9) где £ = /,(/) = [& + Гг5(/+ 1) Г]-*Гг5(/ + 1)Ф. (4.10) Второе равенство получено дополнением до полного квадрата. Так как Q2 — положительно определенная, a S(/+l)—неотри- цательно определенная матрица, то матрица Ф2+ГТ3(/+1)Г имеет обратную матрицу. Таким образом, минимум достигается при и — — L(t)x, (4.11) а оптимальная стратегия является линейной функцией, представ- ленной матрицей L(t), или линейной обратной связью по всем переменным состояния. Итак, функциональное уравнение (4.5) имеет решение (4.7), где $ (/) = Фг S (/ + 1)Ф + ~ LT [Q2 + Гг S (/ + 1) Г] L, (4.12) s(t) — s(t-\- l) + trR1S(t+ 1). (4.13) Чтобы закончить доказательство, необходимо показать, что S(Z)—неотрицательно определенная матрица. Для этого ис- пользуем уравнения (4.10) и (4.12) и получим 5(/)=фг$(/+ 1)[Ф-ГЛ] +QX = = [Ф — TL]rS(( + 1)Ф + <?1,- (4.12а) Q2L = rrS(/+1)[Ф~Г£)]. (4.14) После умножения выражения (4.14) слева на LT и вычитания находим S(/)= [Ф—rLfS((+ 1)[Ф-Г£] + LTQ2L + Ql. (4.15) Следовательно, если матрица S(Z-j-l) —неотрицательно опреде- ленная, то S(t) —также неотрицательно определенная матрица. Минимум функции V(x, N) всегда существует и определяет- ся выражением (4.6). Повторяя процесс в обратном направле- нии, легко убедиться, что минимум функции V(x, t) ) также су- ществует. Выводы сформулированы в теореме 4.1. Теорема 4.1. Пусть допустимые стратегии управления такие, что u(t) является функцией x(t) и Л Пусть Q2 — положительно
290 Глава 8 определенная, a Qi — неотрицательно определенная матрицы. Тогда решение задачи 2.1 можно представить в виде u(t) =— L(t)x(t) (4.11> при L(t) — [Q2 + VTS(t+ 1)Г]-'Гг5(/+ 1)Ф, (4.10> где S(t) определяется рекуррентным уравнением S(0 = <DrS(/-r 1)Ф + <21-Фг£(*+ 1)Г [q2 + + Гг S(/+ 1)Г]-1 TrS(/+ 1)Ф = [Ф —ГЛ (0]Г5(/+1)Ф + + &= [ф-гл(/)]г$(г-ь 1)[ф-гл(/)] + + z7(0Q2L(0 + Q1 (4.12> с начальным условием S(^) = Q0. Минимальное значение функции потерь равно N—1 min Е (N) Qq x(N) + Yi хТ (5) Qi х ($) + (s) Q2u (s)] = S=f0 = E\V (x, /0)J =mT S (/0) m + tr S (Zo) Ro + + £ tr^S^ + 1). (4.16> s=f0 Фиг. 8.1. Блок-схема системы (2.1) с оптимальным регулятором (4.11) в слу- чае полной информации о состоянии.
Линейная, стохастическая теория управления 291 На рис. 8.1 приведена блок-схема системы (2.1) с оптималь- ным регулятором (4.11). Замечание 1. Оптимальная стратегия аналогична стратегии в детерминированном случае при отсутствии помех. Замечание 2. Предположение о положительной определенно- сти С?2 не является необходимым. Для получения однозначной стратегии управления достаточно, чтобы матрица Q2+rTS (t+1) Г была положительно определенной для всех /. В общем случае это условие может выполняться даже тогда, когда Q2 не является по- ложительно определенной матрицей. Если Q2+TrS (/+1) Г не является положительно определенной матрицей, то закон управ- ления, минимизирующий среднее значение функции потерь, опре- деляется неоднозначно. Замечание 3. Члены mTS (tQ)m+trS (Zo)в выражении (4.16) зависят от функции распределения начального состояния. Члены Ztr/?iS (/+1) обусловлены помехой vt воздействующей на си- стему. Упражнения 1. Рассмотреть систему X (t + 1) = X (f) + и (t) + V (/), где х и и — скаляры, а {у(/)}—последовательность независи- мых нормально распределенных переменных с нулевыми средни- ми значениями и ковариационной матрицей г. При начальном нормальном состоянии с параметрами (/п, о) и с функцией потерь tv /= у x2(k) + u2(k) k=l определить стратегию управления, которая минимизирует сред- ние потери, и найти минимальное значение функции потерь, ког- да допустимые стратегии управления такие, что u(t) —функция x(t). Найти также ограничения на закон управления при N—^оо. 2. Рассмотреть систему х (t 4- 1) = ах (t) + bu (/) + v (/) с функцией потерь tv I = £ х2 (/). f=i Предположить, что допустимые стратегии управления такие, что u(Z) есть функция х(/). Определить стратегию, которая мини- мизирует средние потери. 3. Рассмотреть систему и функцию потерь упражнения 2. Оп- ределить стратегию управления, минимизирующую средние по-
.292 Глава 8 тери, когда допустимые стратегии управления такие, что u(t) является функцией x(t—1). 4. Показать, что теорема 4.1 верна для случайных некорре- лированных переменных, если допустимые стратегии управления выбраны так, что u(t) —линейная функция x(t). 5. Показать, что выражение (4.11) является оптимальной стратегией среди всех допустимых стратегий, при которых u(t) является функцией %(/), x(t—1),... . 5. СЛУЧАЙ НЕПОЛНОЙ ИНФОРМАЦИИ О СОСТОЯНИИ (ПОДХОД 1) Обобщим результаты разд. 4 на случай неполной информа- ции о состоянии. Рассмотрим линейную систему, описываемую уравнениями (2.1), (2.2), с критерием (2.6). Предположим, что допустимые стратегии управления такие, что значение управля- ющего сигнала в момент t является функцией наблюдаемых вы- ходных переменных вплоть до момента t—1. Таким образом, единственное отличие данной задачи от задачи разд. 4 заключа- ется в наличии данных для определения стратегии управления. Пусть — вектор наблюдаемых выходных переменных вплоть до момента Yt = [Z(/o),/(/o+ 1)../(Of. (5.1) .Вектор Yt, очевидно, является вектором в пространстве раз- мерности rXG—/о+О, а допустимые стратегии управления являются функциями, которые отображают Yt~XT в U. Заметим, что размерность пространства увеличивается со временем. Для определения стратегии управления, минимизирующей -средние потери (2.6), сначала выведем методом динамического программирования функциональное уравнение, а затем перей- дем к его решению. Функциональное уравнение Рассмотрим ситуацию в момент Л Задача заключается в том, -чтобы по выходным сигналам y(to), z/(^o+l)> ..., y(t—1) опре- делить стратегию управления, минимизирующую критерий. Кри- терий можно представить в виде t—i Е р хг (s) Qi х (s) + ит (s) Q2 «($)] + s=t 0 N-l 4- E [xr (N) Qo x(N)+ £ xT (s) Q, x (s) + uT (s) Q2u (s)] s=t (5.2)
Линейная стохастическая теория управления 293 где только второй член зависит от u(t). Допуская, что сущест- вует единственный минимум, из леммы 3.2 получим 7V—1 min Е \хт (N) Qox (N) + S хт (s) Qtx (s) + ит (s) Q2u (s)l = “ (i> L J N-l = E min E ГxT (N) Qox (N) + У xT (s) Qtx (s) + U(/> L s=f + U4s)Q2M(s)|r/_1], (5.3) где £[• | Yf—i] означает условное математическое ожидание от- носительно Yt-i, первый символ Е в правой части — среднее от- носительно распределения У/_ь а минимум берется по всем стратегиям, при которых u(t) определяется как функция Yt-\. Повторяя проведенные выше рассуждения для t=N—1, jV—2, и предполагая, что существующие минимумы единст- венны, получим N min Е \хт (N) Qox (N) + У хт (s) Qtx (s) + ит (s) Q»u (s) 1 = и (t) ы (AT—1) L s= -I = EV {Yt_vt] , (5.4) где минимум берется по всем допустимым стратегиям управле- ния, представляющим u(t) как функцию Yf—i, а функция V удо- влетворяет функциональному уравнению V (К,-,, = min Е [хг (/) Qxx (f) + ит (/) Q2u (/) + + V(Yt,t+ 1) , (5.5) которое представляет собой уравнение Веллмана для случая неполной информации о состоянии. Функциональное уравнение (5.5) довольно сложно, так как размерность Yt повышается при увеличении t. Для упрощения функционального уравнения используем особенности структуры системы, заданной уравнениями (2.1) и (2.2). Для этого иссле- дуем условное распределение x(t) и Yt относительно У/_ь Из выражения (5.1) вытекает, что W = [^./(о]. Первая компонента вектора Yt идентична той же компоненте вектора Yt-i. Таким образом, для определения условного рас- пределения Yt относительно Уf-i достаточно знать условное рас- пределение y(t) относительно У^-ь Но [см. выражение (2.2)] 19—403
294 Глава 8 у (t) = Qx (t) + е (ty, следовательно, условное распределение y(t) относительно Yt—i определяется однозначно условным распределением xt относи- тельно Yt-\. Используем результаты теории фильтрации, полученные в гл. 7. Из замечания 3 теоремы 4.1 гл. 7 следует, что условное среднее X (0 = Е [х (t) I Yt_t] (5.6) является достаточной статистикой для условного распределения x(t) относительно Таким образом, левый член уравнения л (5.5) является функцией x(t). [Сравните это с формулой (4.24) гл. 7.] Введем функцию W (х (0, О = V (Yt-!,t) = min Е [хг (N) Qox (N) + u(t).......................u(N—l) N—l + £ XT (s) Qrx (s) + uT (s) Q3iz (s) I У<_1] = s=t N—l = min E [xr (N) Qox (N) + V xT (s) Qxx (s) + u(O.u(N-l) + uT (s) Q2u (s) I x] , (5.7) где последнее равенство следует из формулы (4.24) гл. 7, а ми- нимум берется по всем стратегиям, которые представляют u(t) как функцию Yt-i. Используя функцию W, найдем, что функци- онал (5.5) можно представить в виде Г (х (0,0 = min Е \хт (/) Q,x (Z) + uTQ.2u + W (х (/+1), М-1) | Г,-,] = и = min Е [хг (0 Qxx (г) + uTQ2u + W (х (/+ 1), t + 1)[х (/)] . « (5.8) Л Это представление значительно проще, так как аргумент х функ- ции W имеет постоянную размерность. Размерность х часто зна- чительно меньше размерности Yt. Начальное условие для функ- ционала (5.8) имеет вид W (х, N) = Е [хг (N) Qox (N) | х] . (5.9)
Линейная стохастическая теория управления 295 Решение функционального уравнения Перейдем к решению задачи (5.8) с начальным условием (5.9). Для этого используем теорему 4.1 гл. 7, согласно которой условное распределение x(Af) относительно Yn~\ нормально со л средним х и ковариационной матрицей P(Af). Из леммы 3.3 следует, что W{x,N)=xTQox + tvQQP(N). (5.10) Покажем, что задача (5.8) имеет решение, которое можно пред- ставить квадратичной формой W(x,t) = хт S(t)x + s(t). (5.11) При t=N это очевидно. Предположим по индукции, что выраже- ние (5.11) справедливо для ^+1, и покажем, что оно справед- ливо также и для t. Для оценки правой части выражения (5.8) необходимо знать условные распределения x(t) и х(/+1) относительно У/-ь Из теоремы 4.1 гл. 7 следует, что условное распределение xt отно- л сительно У/-1 нормально со средним x(t) и ковариационной матрицей P(i). Из леммы (3.3) вытекает, что Е [хг (t) Q1X (01 yz_i] = хт (/) Qxx (/) + tr QXP (f). (5.12) Из теоремы 4.1 гл. 7 следует также, что x(t + 1) = Фх(0 + Ги(0 + K(t) [«/(/)— 0х(О]. (5.13) [Сравните это с выражением (4.23) гл. 7.] Находим у (Г) - 9х (0 = 0 (х (0 - х (/)) + е (0 =у (/). (5.14) л Так как условное распределение y(t)—0х(/) относительно Yt_1 нормально с нулевым средним и ковариационной матрицей 9Р(09т+Я2, то £[Х(/+ 1)1^-!] =Фх(0 + Гн(0, (5.15) cov[x(/+l) + R2]KT(t). (5.16) В результате получим W (х (<), t) = min {х (t) tQ2x (/) 4- tr QXP (f) 4- uTQ2u 4- u 4- [Фх (0 4- Гц] TS (t 4- 1) [Фх (0 4- Гм] + 19*
296 Глава 8 + tr S (t + 1) К (О [9P (0 0 т + Я2] К т (0 + S (t + 1)J = = min(xr [Фг5(/ 4- !)<!) + & —Lr(Q2 + и . +rrS(/+ 1)Г)л]х + (« + Лх)г [Q2 + rrS(/+ 1)Г] x X (и + Lx) + trQrP(0 + trS(t + 1)0) [eO)0r + + P2] KTtt) + s(/ + 1)} =хт [Ф(/ + 1)Ф + Qr- -Lr(Q2 + rrO+ l)r)L}x + trQ1P(O + + trS(O 1)O)[0P(00T +#Ж(/) + «(/+1), (5.17) где L(t) = {Q2 + rTS(t+ 1) Г]-1Гг5(/+ 1)Ф. (5.18) Минимум достигается при u(t) = — L (t)x(t). (5.19) Проведенный анализ совершенно аналогичен анализу случая системы с полной информацией о состоянии, рассмотренному в разд. 4. Итак, задача (5.8) имеет решение (5.11), в котором S (/) = Фг5 (t + 1) Ф + Qx - LT (0 [Q2 + Гг5 (t + 1) Г] L (t) = = [Ф-Щ<Ж 1)Ф + <?! = = [Ф - ГЛ (О? S (t + 1) [Ф - FL (0] + L (0 Q2Lt (t) + (5.20) S (0 = s (/ + 1) + tr QxP (0 + tr s (OI) Д’ (0 [op (0 0Г + Pl] Кт (0• (5.21) Минимальное значение функции потерь определяется выраже- нием N-1 min E\xT(N)CLox(N)+ £x-r(s)Qix(s) + ur (s)<?0«(s)] = u (Af—1) L . 5—I о = E [IF (x (/0), f0)] =E [xr (/0) S (Ze) x (t0) + s (/0)] = ЛГ-1 — mTS(f0)m+ tr QiP (s) + S===t о + tr S (s + 1) К (s) [OP (s) eT + P2] KT (s) + tr Q0P (N). (5.22, s=t0
Линейная стохастическая теория управления 297 Минимальное значение функции потерь можно представить в форме, имеющей физическую интерпретацию. Для этого рас- смотрим выражения (5.20) и (4.21) из гл. 7: р а +1) = фр (/) фг + рх _ к (/) [ер (/) ег + р2] /сг (/), 5(/) = Фг5(/+ 1)® + QX-LT(O [rrS(^+ 1)Г + + Q2] L (/). Умножив слева первое уравнение па S(Z-|-1), второе на P(t) и вычисляя след разности, получим trP(/ + 1)S(/ + 1) — tr P(t)S(t) == = trS(/+ 1)PX —trS(/ + 1)О)[0Р(О9Г + Я2] КЧ/)- - tr P (/) Qx + tr P (/) LT (/) [rrS (t + 1)] Г + Q2] L (t). Суммируя no t от tQ до N—1, получим N—l trP(N)S(N) + £ {trP(0Qi + trS(/ + l)/C(0[eP(/)9r-J- s=^0 N-l + R2] Kt (ol = tr P (to) s (to) + £ {tr PXS (t + 1) + t = to + trP(t)LT(t)[rTS(t + l)r + Q2]L(t)]. (5.23) Объединяя выражения (5.22) и (5.23) и используя (4.10), най- дем минимальное значение функции риска N—1 min Е\хт (N)QqX(N) + £+ = и (tQ),...,u (Лт—1) L I —Го N-1 = mrS (to) m + tr Po5 (^o) + S tr PXS (t + 1) + t=t0 AT-1 + £ tr(P)(t)LT(t)rTS(t+ 1)Ф- (5.24) t=to Остается доказать, что минимум существует. Доказательство л существования минимума W(к, N) тривиально. Проверив все предыдущие выкладки, придем к выводу, что поскольку все рассмотренные функции являются квадратичными, то мини- мальная величина всегда существует. Результаты сформулиро- ваны в теореме 5.1. /Теорема 5.1. Решение задачи оптимального управления для случая неполной информации о состоянии дается стратегией уп- равления
298 Глава 8 u(f) = — L(t)x(t), (5.19) где Lit) = [Q2 + rrS(/+ 1) Г]-1Гг5 (/+ 1)Ф, S (/) = <DrS (t + 1) Ф + Qj - LT (t) [Q2 + Гг5 (/ + 1) Г] L (f) = = [Ф-ГЛ(0]Г5(/+ 1)O + Q1== [Ф-ГЛ(/)]Г x X S (t + 1) [Ф - ГЛ (01 + Lr (/) Q2£ (0 + Qlt S(N) = Qo, (5.20) A a x(t)—условное среднее, определяемое формулой х('+ 1) = Фх(0 + IW) + О) 9х(о] . (5.25) Минимальные средние потери вычисляются по формуле N-1 minEl = mTS(/0) tn + tr S (/0) /?0+ trS(t + 1) (t) + N—4 + S trP(0Lr(0rrStf+l)®. t=t. Блок-схема оптимальной системы приведена на фиг. 8.2. Замечание 1. Оптимальную стратегию, определяемую урав- нениями (5.19) и (5.25), можно разделить на два этапа. Урав- нение (5.25) является алгоритмом для вычисления наилучшей среднеквадратической оценки переменных состояния по наблю- даемым данным, а уравнение (5.19) можно интерпретировать как линейную обратную связь по оцениваемому состоянию. Матрица L обратной связи зависит только от динамики систе- мы Ф и Г и параметров функции потерь Qo, Qi и Q?, но не зави- сит от характеристики помех. Замечание 2. Матрица обратной связи L — та же матрица, которая получается при решении задачи оптимального управле- ния для детерминированной системы x(t + 1) =Фх(0 + Гы(0 с критерием N—1 хт (У) Qox (N) + £ х т (/) С^х (/) + ит (0 Q2u (/), t=t„ Замечание 3. Из теоремы 5.1 следует что матрицы Ф, Г, 0, Qi, Q2, Ri и Т?2 могут зависеть от времени.
Линейная, стохастическая теория управления 299 Фиг. 8.2. Блок-схема системы (2.1), (2.2) и оптимального регулятора в слу- чае неполной информации о состоянии. Свойства замкнутой системы Теорема 5.1 дает мощный метод синтеза линейных систем управления. Рассмотрим свойства замкнутой системы, описыва- емой уравнениями (2.1) и (2.2), управление которой осущест- вляется по оптимальной стратегии (5.19) и (5.25). Таким образом, замкнутая система описывается уравнения- ми х(/ + 1)=Фх(/) + Ги(/) + у(0, У (t) = ex (/) + е (t), u(t) = — Lx(t), АЛ Л X (t + 1) = Ф X (/) + Гн (0 + к [у (/) - 0Х (0] •
300 Глава 8 Такая система имеет порядок 2п. Заменив координаты в прост- л ранстве состояний х и х на х и х, где х (t) = х (/) — x(t), получим х (t + 1) — [Ф — ГЛ] х (I) + ГЛ х (/) Ч- v (/), х(/+1)= [Ф-К0]х(/) +у (')-№(/). Итак, динамика замкнутой системы определяется матрицами Ф—ГЛ и Ф—kQ, т. е. динамикой соответствующей детерминиро- ванной системы и динамикой фильтра. Если матрицы [Ф—ГЛ] и [Ф—Л0] постоянны, то собственные значения оператора систе- мы совпадают с собственными значениями матриц [Ф—ГЛ] и [Ф—ЛФ]. Упражнения 1. Рассмотреть систему x(t + 1) =- x(t) + u(t) -t v(/), y(t) = x(t) + e(t), где {o(0} и {e(0} — последовательности независимых гауссо- вых случайных переменных с нулевыми средними значениями и дисперсиями rt и г2. Допустим, что начальное состояние нор- мально с параметрами (т, о), и предположим, что функция по- терь имеет вид •V /== £ x2(k)~ qut (1г). k=i Определить стратегию управления, минимизирующую средние потери, если а) Г1 = г2 = 0, б) п=/=0, Г2=0, в) ri=¥=0, г2=й 0. В случае в) предполагается, что u(t) является функцией y(t-\), y(t-2), ... . 2. Рассмотреть задачу упражнения 1. Определить переда- точную функцию, выражающую закон оптимального управле- ния при N-^oo. Привести асимптотическую формулу для сред- них потерь и дать физическую интерпретацию ее членов. 3. Рассмотреть систему x(t + 1) = Фх(0 + е(0, где {е(£)}—последовательность нормальных случайных пере- менных с нулевыми средними значениями и ковариационной
Линейная стохастическая теория управления 301 матрицей R(t). Начальное состояние нормально со средним m и ковариационной матрицей Ro. Показать, что t—1 Е [х^) Qo х + S хТ (s) Qix («)] = S—tt = mT S (M tn + tr S (Q Ro + £ tr S (6 + 1)/?(£), k=t0 где $(0 = Фг5(/ + 1)Ф + <21, S(t1) = Q0. 4. Система описывается уравнением (2.1) с критерием (4.1). Предположить, что стратегия управления такая, что управляю- щая переменная в момент t является функцией состояния х в момент t—1. Показать, что оптимальная стратегия определя- ется формулой U(t) = — Л(/)Фх(/ — 1) — L(t) ru(t— 1) = — L(t) Ф (/; t— 1)х Xx(t — 1) —Л(/)Г(/ — — 1), где L удовлетворяет уравнению (5.18). Определить минималь- ное значение функции потерь. Указание. Ввести N—1 V (x(t— 1), t) = min£ p/(Af)Qox(Af)+ У xT(k)x k=t X Qi x (k) + uT (£) Q2 u (k)\x(t — 1)] и использовать метод динамического программирования. 5. Система описывается уравнением (2.1) с критерием (4.1). Предположить, что управляющая переменная такая, что и явля- ется функцией только априорных данных (управление по разомк- нутому циклу). Показать, что оптимальный управляющий сиг- нал имеет вид u(t) = — где m (t + 1) = Фт (/) + Ги (/) = (Ф — ГЛ) m (/), m (Zo) = Ex (/0) = m. Найти минимальное значение функции потерь.
302 Глава 8 Указание, Ввести N-1 V (т (t), t)=min Е \хТ (N) Qo х (AQ + S х? (Ф Qix(k) + иг (k)Q2 и (k) j *=i и использовать метод динамического программирования. 6. Сравнить теорему 4.1 с упражнениями 4 и 5 и обсудить необходимость точного указания информации для определения значения управляющей переменной в момент/. Сравнить резуль’ таты для разомкнутой и замкнутой систем. Исследовать влия- ние на функцию потерь задержки на одну единицу времени при измерении вектора состояния. 6. СЛУЧАЙ НЕПОЛНОЙ ИНФОРМАЦИИ О СОСТОЯНИИ (ПОДХОД 2) В этом разделе теорема разделения доказана методом, от- личным от непосредственного доказательства, приведенного в разд. 5. Этот метод основан на тождестве из вариационного ис- числения. Он позволит обобщить теорему 5.1 и получить допол- нительные сведения о задаче. Сначала докажем тождество, а затем покажем, как его мож- но применить к линейной задаче управления в детерминирован- ном случае и в случае полной и неполной информации о состоя- нии. Тождество Рассмотрим систему, описываемую стохастическим разност- ным уравнением х (/ + 1) = Фх (/) + Ги (/) + v (/). (6.1) Справедлива следующая лемма. Лемма 6.1. Предположим, что разностное уравнение S(/)=OrS(Z+ 1)Ф + Qi —фг5(/+ 1) Г [Q2+ Гг$(/+1)Г]-1х ХГГ$(/ + 1)Ф (6.2) с начальным условием S(W) = Qo (6.3) имеет решение, которое является неотрицательно определенной матрицей на отрезке Пусть матрица L имеет вид L(t) = [Q2 + Гг5(/4- 1)Г]-1 Гг S(Z + 1)Ф. (9.4)
Линейная стохастическая теория управления 303 Тогда N-Л xt(N)Qqx(N) + I xT(t)Q1x(t) + uT(t)Q2u(t)=xT(tQ)S(t0)x(tQ) + N-l + x [И(О + А(/)х(0]г[Гг$(Ш)Г + 321 [и(0+ t=t0 N-l + L(t)x (0] + X ! vT (t) S (f + 1) [Фх (/) + Гы (0] 4 t—to + [Ox(0 + r«(/)]TS(/+l)u(0+yr(W+lM0h (6.5) Доказательство. Справедливо следующее тождество: хт (N) Qo х (N) = хт (N) S (N) x (N) = xT (/„) S (t0)x (/„) + N—1 + X]^(^+l)5(/+l)x(^+l)-xr(0S(/)x(0]. (6.6) t=to Рассмотрим члены суммы. Выполняются следующие равенства: Z(/+l)S(/+l)x(/4-l) = [Фх(/)+Ги(0 + + u(/)]rS(N-l) [Фх(0+Ги(0+а(/)] (6.7) И хт (/) S (/) X (0 = хт (О [Фг 5(/+1)Ф + <21 — - LT (/) [ГгХ(/ + 1)Г+<?2] L(t)}x(t). (6.8) Подставив равенство (6.7) и (6.8) в тождество (6.6), по- лучим хт (N) Qo х (N) = хт (/0) S (t0) х (t0) + N-l + X {[Фх(/) + Ги(/)]г5(/+1М0 + + vT (t) S (/+1) [Фх (0+W)] + vr(0 S (t + 1) <(ol + N-l + X [rrS(/+ l)r+Q2]H(0 + t=ta + uT (t) rT S(t+1) Фх(0+хг (t) Фт S (t+1) Ги (t) + + xT (t) LT (t) [Гг S (/+1) T+Q2] L (t) x (t) + + xT (t) Q1x(t)~uT (t) Q2 u (/)},
304 Глава 8 где в последней сумме добавлен и вычтен член uTQ2u. Выпол- ним перестановку членов, и лемма доказана. Из леммы 6.1 вытекают достаточные условия оптимальности. Детерминированный случай Для детерминированной системы у(/)=0. Из леммы 6.1 следует, что N-1 xT(N)Qox(N) + YixT{t)(iix(t) + uT(t)Q2u(t)^xT(t0)S(t<s)x(t0) + t=t0 N-l + S [M(0+M0*(0]r[rrStf+l)r+Q2] [u(0 + L (/)%(/)]. (6.9) Так как матрица S(/) является неотрицательно определенной, то второй член выражения (6.9) неотрицателен. Так как S не зависит от и, то xT(N)Qox(N)+ %хт(f)Q1X(t)+ итQ2u(t)^xT(/0)S(/0)x(/0), (6.10) t=t0 где равенство вытекает из закона управления «(/) = —£(/)*(/). (6.11) Результаты сформулированы в теореме 6.1. Теорема 6.1. Рассмотрим систему, описываемую стохастиче- ским разностным уравнением (6.1), при y(Z)=O: х(/ + 1) = Фх(/) + Ги(/), (6.12) где начальное состояние нормально со среднием m и ковариаци- онной матрицей Ro. Пусть критерий определяется функцией по- терь N-1 l=xT(N)Qox(N) 4- У [xr(/)Q1x(0 4-«r(0Q2«(0]» (6.13) t—t9 и пусть допустимые стратегии такие, что u(t) является функци- ей x(t). Допустим, что уравнение (6.2) с начальным условием (6.3) имеет неотрицательно определенное решение, так что сумма Q2+rTSr неотрицательно определена для всех t. Тогда существует единственная стратегия управления (6.11), которая минимизирует средние потери. Минимальное значение средних потерь вычисляется по формуле min El=mT S (Zo) m + tr S (/0) RQ. (6.14) Уравнение (6.14) следует из уравнения (6.10) и леммы 3.3.
Линейная стохастическая теория управления 305 Случай полной информации о состоянии Рассмотрим снова систему, описываемую уравнением (6.1). Стратегии управления, минимизирующие средние потери при допустимых стратегиях, представляющих u(t) функцией x(t), можно получить из леммы 6.1. Перейдя в выражении (6.5) к математическому ожиданию, находим N—1 Е [хт (N) Qox (N) + S хт (/) Qx х (t) + ит (/) Q2 и (/)] = t=t0 N—L = El[xT(t0)S(t0)x(t0) + £ ar(/)S[Z+ l)v(0 + t~t9 N—1 + S [«(0 + L(0^(01r X X [rrS(/-M)F + Q2][M(/) + L(0x(0]}. (6.15) так как d(/) не зависит от x(t) и u(t). Из леммы 3.3 получим Ехт (/0) S (t0) х (Q = mT S (/0) m + tr S (Q #0, EvT (t) S (t + 1) v (t) =tr S (t + l)7?i (0- Следовательно, AZ—1 E [xr (N) Qox (N) + S xT (t) Qtx (t) + / (t) Q2 u (t) > N-l >mrS(t‘0)m + trS(/0)7?0+ У trS(/ + (6.11) f=t0 так как последний член в выражении (6.15) является средним значением неотрицательной величины. Выражение (6.16) пре- вращается в равенство при законе управления вида u(t) = — L(t)x(t)9 (6.17) который является допустимой стратегией в случае полной ин- формации о состоянии. Теорема 6.2. Рассмотрим систему, описываемую стохастиче- ским разностным уравнением (6.1). Пусть доустимые стратегии управления такие, что u(t) является функцией x{t). Предполо- жим, что уравнение (6.2) с начальным условием (6.3) имеет ре- -шение S, в котором матрица S является неотрицательно опреде- ленной, a Q2+PTSr — положительно определенной. Тогда суще- ствует единственная допустимая стратегия управления (6.17),
306 Глава 8 которая минимизирует средние потери. Минимальное значение функции потерь N—1 min El = тт S (/0) т 4- tr S (0) /?0 + S tr S (/ + 1) /?i (/). (6.18) Замечание. Стратегия управления (6.17) аналогична стра- тегии (6.11). Сравнивая минимальные значения средних потерь в детерминированном случае и в случае полной информации о состоянии, найдем, что член StrS(Z+O^i (0 обусловлен поме- хой V. Случай неполной информации о состоянии Рассмотрим случай неполной информации о состоянии. Пусть допустимые стратегии управления такие, что u(t) есть функция Yt-\. В этом случае также справедливо уравнение (6.15). Но поскольку стратегия (6.17) не является допустимой, то член Е Е («(0 + L (/) х (t)]T [гг S (/ + 1) Г + QJ [ы(0 + L(t)x (/)! (6.19) t=t0 равен нулю. - л Обозначим через х условное среднее x(t) =E[x(t)\Yf_i] (6.20) и через Р условную ковариационную матрицу Р (/) ^ cov [х (/) I У/—1L (6.21) Из леммы 3.2 следует, что min Е {[и (/) + L (/) х (Of [Гг S (/ + 1) Г + Q2 ] [и (0 + L (/) х (t)]| = = £min£ '[«(/) + L(t)x(t)]T [Гг5(/ + 1)Г + 4- Q2] [и (t) + L(t)x (011 У/-1}, (6.22) где минимум берется по всем допустимым стратегиям управле- ния, т. е. по всем стратегиям, для которых u(t) есть функция Vt-i. Условия леммы 3.2 выполнены, так как функция квадра- тична. Из леммы 3.3 следует
_____________Линейная стохастическая теория управления 307 Е + L(t)x(t)]T [Гт S (t + \)Г + Q2][u(t) + = = tr P (t)LT (t) [Гг S (t + 1) Г + Q2] L (t) + H- [u (t) + L (t)x (t)]T [Гг S (/ 4- 1) Г + Q2] [u (t) + L(t)x (/)]. (6.23) Так как P(t) не зависит от и (сравните с упражнением 4.3 гл. 7), то оптимальная стратегия имеет вид и (/) = — L (t)x (t)= — L (t) E [x (t) | Yt-1], (6.24) а минимальное значение функции потерь вычисляется по фор- муле N—1 min Е [/ (N) Qox (N) + £ хт (/) Q1X (/) + ит (t) Q2u (/)] = t=t0 AZ-l = mT S (t0) m + tr S (t0) Ro+ 5 trS(/+ 1)^ + t—t0 + jftr P (0 LT (/) [rr S (t + 1) Г + Q2 ] L (/)• (6.25) t-t0 Результаты сформулированы в теореме 6.3. Теорема 6.3. Рассмотрим систему, описываемую стохастиче- ским разностным уравнением 6.1. Пусть допустимые стратегии управления такие, что ut есть функция Yt-\. Допустим, что урав- нение (6.2) с начальным условием (6.3) имеет неотрицательно определенное решение S, в котором матрица Q2+FTST положи- тельно определена для всех t. Тогда существует единственная допустимая стратегия управления (6.24), которая минимизиру- ет средние потери. Минимальное значение функции потерь вы- числяется по формуле (6.25). Замечание, Объединяя эту теорему с теоремой 4.1 гл. 7, по- лучим доказательство от противного теоремы разделения 5.1. Отметим, однако, что доказательство от противного не требует уравнения для условного среднего в явной форме. Таким обра- зом, легко применить теорему 6.3 в других случаях, т. е. когда u(t) является функцией Yt. Интерпретация минимального значения функции потерь Интересно сравнить минимальные значения средних потерь в различных случаях. В детерминированном случае минималь- ное значение функции потерь — это квадратичная форма на- чального состояния mTS(Z0)m, где m — начальное состояние.
308 Глава 8 Если начальное состояние случайно и имеет нормальное рас- пределение с ковариационной матрицей /?0, то добавляется член tr/?0S(/0). В стохастическом случае с полной информацией о состоянии влияние помех на систему приводит к добавочному члену (/+1). Наконец, в случае неполной информации о состо- янии минимальный риск увеличивается вследствие добавления члена 2 tr Р (Z) LT (t) [Гт S (t + 1) Г + Q2] L (t), который представляет собой дополнительный риск, обусловлен- ный неопределенностью в оценке состояния. Упражнения 1. Рассмотреть систему x(t + 1) = ax(t) + u(t — k) + v (/), y(t) — x (/) + *(/), где {у(0} и {e(0—последовательности независимых гауссо- вых случайных величин с нулевыми средними значениями и дис- персиями Г\ и г2. Допустить, что начальное состояние нормально с параметрами (т, о) и функция потерь имеет вид N I = х2 (k) + qu2 (k). k=i Определить стратегию управления, которая минимизирует сред- ние потери и при которой u(t) есть функция y(t), y(t—1),... . Определить асимптотическую формулу для минимального зна- чения средних потерь при N-^oo. 2. Доказать теорему разделения для случая, когда допусти- мые стратегии управления такие, что u(f) есть функция Yt. 3. Рассмотреть систему, описываемую уравнением у (t) + ay (t — 1) = u(t — 1) + ba (t — 2) + e(t) + ce (t — 1), где {e(0}—последовательность независимых нормальных слу- чайных величин с параметрами (0, 1). Показать, что систему можно представить в виде y(f) = [1 0] х (0- Определить стратегию управления, которая минимизирует сред- ние потери
Линейная стохастическая теория управления 309 когда допустимые стратегии управления такие, что u(t) есть функция y{t), y(t— 1),... . 4. Рассмотреть систему из упражнения 3. Допустить, что критерий минимизирует средние потери СуЁ* /г=0 когда допустимые стратегии управления такие, что u(t) есть функция y(t) y(t— 1),... . 5. Рассмотреть систему x(t + 1) = Фх(/) + v (Z), где {^(Z)}— последовательность независимых нормальных слу- чайных величин с нулевым средним. Ковариационная матрица v(t) равна /?i(Z), а не зависит от x(Z). Начальное состоя- ние нормально со средним значением ш и ковариационной мат- рицей 7?0. Показать, что N-1 Е [хт (N) QqX (N) + J] хт (s) QjX (s)j = mT S (Zo) m -j- t=t0 N— 1 + trS(/0)₽0+ StrS(*+1)^(6), S(if) = Or S(/+ 1)Ф + SR = Q0. 6. Рассмотреть систему x (t + 1) — Фх (Z) + Ги (t) + v (Z), где {v (Z)} — последовательность независимых нормальных слу- чайных переменных с нулевым средним значением. Предполо- жить, что v(t) не зависит от x(Z). Ковариационная матрица v(t) равна /?i(Z). Начальное состояние нормально со средним значе- нием т0 и ковариационной матрицей Ro. Функция потерь имеет вид w-i I = хт (N) Qox (N) + S Хт (k) Q±x (k) + UT (k) Q2 и (k). k=tQ Показать, что для разомкнутой системы оптимальное управле- ние имеет вид и (Z) = — L (I) m (Z), где~£ определяется формулой (6.4), a m(Z) —формулой m{t+ П = (Ф—r£)/n(Z), 20—403
310 Глава 8 т (t0) = т0. Показать, что минимальное значение средних потерь вычисляет- ся по формуле N—1 El = ml S(t0)m0 + trS(t0)R0 + £ trLT(0[rS(f + 1)Г + N—1 + QJ L (t) R (t) = S (t0) m0 + tr Q0R(N) + У tr Qx (t) R (t), t=t0 где R(t+ l) = ®R(t) ФТRr(t), R(t0) = R0. Сравнить этот результат с результатом для оптимальной замк- нутой системы (теорема 6.2). Сравнить метод решения этой проблемы с методом, использованным в упражнении 5. Указание. Использовать лемму 6.1. 7. Рассмотреть систему (6.1) с критерием (6.13). Пусть до- пустимые стратегии такие, что u(t) есть функция x(t—1). Най- дите оптимальную стратегию и покажите, что минимум функции потерь вычисляется по формуле N—1 El^mT S(to)m + irS(to)Ro + X tr S(t + 1) R^t) + t—to N-1 + StrOrS(Z+ l)rL(0R1(0 + trO)rS(/0+ l)rL(to)Ro. t=t0+l Использовать этот результат для метода вычисления запазды- вания при получении информации о значении состояния. Указание. Использовать лемму 6.1. 8. Рассмотреть задачу с неполной информацией о состоянии. Предположить, что допустимые стратегии такие, что u(t) есть функция Yt-k, где k — фиксированное число. Найти оптимальную стратегию и минимальные средние потери. 7. ЗАДАЧА ДЛЯ СИСТЕМ С НЕПРЕРЫВНЫМ ВРЕМЕНЕМ В разделе рассмотрена линейная квадратичная задача уп- равления для систем с непрерывным временем. Для доказа- тельства теоремы разделения используем непрерывно-времен- ной аналог метода, изложенного в разд. 6.
Линейная стохастическая теория управления 311 Постановка задачи Рассмотрим систему, описываемую стохастическими диф- ференциальными уравнениями dx = Axdt + Budt + dv, (7.1) dy = Cxdt + de, (7.2) где x—nXI-мерный вектор состояния, и—рХ1 -мерный вектор управления, у—г?Х1 -мерный вектор выходных переменных, {у(0, teT}, {е(/), teT}—независимые винеровские процессы с нулевыми средними значениями и ковариациями приращений Ridt и R2dt соответственно; А, В, С и /?ь R2— матрицы соответ- ствующих размерностей, элементы которых могут быть кусочно- непрерывными функциями времени. Предположим, что начальное состояние нормально со сред- ним значением пг и ковариационной матрицей Rq. Случайные процессы {v(t), t еТ} и {e(t), teT} не зависят от x(t0). Мат- рицы Rq и предполагаются симметричными и неотрицатель- но определенными, a R2 — симметричной и положительно опре- деленной. По аналогии со случаем дискретного времени средние потери записываются в виде ft Е (/J Qox (Q + [хт (/) QjX (/) + ит Q2u (/)] di\. (7.3) ^0 Матрицы Qo и Qi симметричны и неотрицательно определены, a Q2 — симметрична и положительно определена. Допустимые стратегии управления такие, что управляющий сигнал в момент I есть функция выходных сигналов, наблюдавшихся вплоть до момента t. По аналогии с задачей для систем с дискретным временем рассмотрим отдельно случаи полной и неполной ин- формации о состоянии. Полная информация о состоянии озна- чает, что вектор состояния можно измерить без ошибки. Так как управление системой осуществляется стохастическим диф- ференциальным уравнением, то вектор состояния является мар- ковским процессом и условные распределения будущих состоя- ний относительно x(t) будут теми же, что и условные распреде- ления относительно всех прежних значений x(s), s<Zt. В случае полной информации о состоянии допустимая стратегия управ- ления такая, что u(t) есть функция x(t) и t. В случае неполной информации о состоянии значение управляющего сигнала u(t) в момент t есть функция yz={z/(s), Задачу стохасти- ческого управления можно сформулировать следующим обра- зом. 20*
312 Глава 8 Задача 7.1 Рассмотрим систему, описываемую стохастическими диф- ференциальными уравнениями (7.1) и (7.2). Найти допустимую стратегию управления, минимизирующую критерий (7.3). Эта задача значительно сложнее, чем задача для систем с дискретным временем. Причина этого в том, что пространство, натянутое на наблюдаемые выходные сигналы, имеет бесконеч- ную размерность. Для решения этой задачи используем косвен- ный метод, который аналогичен в некоторой степени методам, использованным в разд. 6. Эту аналогию можно использовать при выводе оценки для средних потерь. Тождество Лемма 7.1 является непрерывно-временным аналогом лем- мы 6.1. Лемма 7.1. Предположим, что уравнение Риккати - — = Ат S + 5Л + Qi — SBQF1 Вт S (7.4) dt с начальным условием S(Q = Qo (7.5) имеет решение, которое является неотрицательно определенным в интервале Пусть х—решение стохастического диф- ренциального уравнения (7.1), тогда *r(/i) Qnx (tj + J x\t) Q1X (0 + uT (/) Q2« (/)] dt = ^0 tl = xT (t0) S (t„) X (Q 4 J(« + QF1 BT Sx)T Q2 [u + to tx tx tx + GT Bt Sx) dt 4- f tr RrSdt 4- f dvT Sx + C xTSdv. I t\ /. (7.6) Доказательство. Справедливо следующее равенство: хг &) Qox (tj) = хт (4) S (^) x (tj = xT (t0) S (/0) x (t0) + tl + \d(xTSx)- (7.7) to Так как x — решение стохастического дифференциального урав- нения (7.1), то х не имеет производной по времени. Таким об- разом, дифференциал d(xTSx) не подчиняется правилам обыч-
Линейная, стохастическая теория управления 313 ного исчисления. Используя правило дифференцирования (тео- рема 8.1 гл. 3), получим d (хг Sx) = dxT Sx 4- хт Sdx + хт xdt 4- (tr SA\) dt, (7.8) так как ковариационная функция приращения dx равна R\dt. Из уравнения (7.1) следует, что хт Sdx = \хт SAx 4- хт SBu] dt 4- хт Sdv, (7.9) dxT Sx = [xr AT Sx 4- uT BT Sx] dt + dvT Sx. (7.10) Уравнение (7.4) дает хт — xdt= [— xT ATSx — xTSAx — xTQ1x + xTSBQT1 BrSx] df. (7.11) dt Из уравнений (7.7) — (7.11) находим d (xr Sx) = \uT BT Sx 4- хт SBu — хт Qrx 4- хт SBQ?1 Вт Sx] dt 4- 4- tr (7?iS) dt 4- dvT Sx + xT Sdv = — [— uT Q2u — xT QjX 4- (и 4- Q-Г1 BT Sx)rQ2 (zz 4- + Q21 BT Sx)] dt + tr RiSdt + dTTSx + xT Sdv, (7.12) где последнее равенство получаем путем прибавления и вычи- тания члена utQ2U. Переставив члены в выражении (7.12), по- лучаем соотношение (7.6), и лемма доказана. Используя лемму 7.1, можно решить задачу оптимального управления системой (7.1) с критерием (7.3) в различных слу- чаях. Детерминированный случай Рассмотрим сначала детерминированный случай, когда у=0. Лемма 7.1 приводит к неравенству для функции потерь ц хг Qox (4) 4- [ И (0 QiX (0 + ит (0 Q2u (О] dt = io = хт (/0) S (t0) X ((0) 4- | [и 4- QF1 вт Sx] 1 [« 4- QF1 BrSx] dt > io ^хт (<o)S(/o)x(io), (7.13) которое становится равенством для стратегии управления и =- Q71 Вт Sx = — Lx. (7.14)
.314 Глава 8 Оптимальная стратегия единственна, так как Q2 положительно •определена. Из леммы 3.1 следует, что минимальное значение средних потерь вычисляется по формуле min£7 = Ехт (t0) S (t0) х (t0) = tnT S (/0) m + tr S (/0) 7?0. (7.15) [Сравните с формулами (6.13) — (6.18) гл. 7.] Случай полной информации о состоянии Перейдя в выражении (7.6) к математическому ожиданию, получим ti Е (4) Qox (4) + [ (0 Qlx (О + (0 <?2« (О]dt} = 4 = Е {хг (Q S (/„) х (/0) + J [и + QF1 Вт Sx]т Q2 [и + *0 + Q71 Вт Sx] dt + J’ tr R^S) dZ | > mT S (t0) m + tr S (/0) 7?0+ io ti + J(trJ?iS)d/, (7.16) io тде равенство получается для стратегии управления и = — Q71 Вт Sx = - Lx. (7.17) В случае полной информации о состоянии выражение (7.17) яв- ляется допустимой стратегией управления. Таким образом, оп- тимальная стратегия определяется выражением (7.17), а мини- мальное значение функции потерь вычисляется по формуле ti min El =mT S (t0) m + tr S (t0) Ro + ( (trfl^d/. (7.18) io Случай неполной информации о состоянии Перейдя в выражении (7.6) к математическому ожиданию, получим ti min Е [хт (/j Qqx (/J + j [хт (/) QpX (/) -г uT (t) Q2u (/)] dt^ = i0 ii = mTS (/0) m + tr R0S (t0) + J (tr R^) dt + i о
Линейная, стохастическая теория управления 315 + min Е | J (и + Lx)T Q2 (и + Lx) dt }. (7.19)> to Далее найдем ti £ [ J (и + Lx)T Q2 (и + Lx) dt I = to tl = Eyf j‘ E [(и + Lx)T Q2 (u + Lx) | У J dt = io Л А 1 = Eyt [ J (« + Lx)T Q2 (u + Lx) dt+ J (tr LT Q2LP) dt\, (7.20> так как условное распределение x(t) относительно Yt нормально А со средним значением х и ковариационной матрицей Р. Так как Р не зависит от и, то ti Е (ZJ Qox (/) + j* (хт Qtx + uQ2u) dt] > mT S (/0) m + to tl tl 4- tr S (/0) Ro 4- [ (tr ^S) dt+ f I tr LT Q2LP) dt, (7.21 > to to где равенство имеет место для стратегии управления и = — Lx = - LE [х (/) | Yt\. (7.22), Таким образом, оптимальная стратегия является линейной функ- цией, при которой u(t) есть функция условного среднего x(t). Отметим, что матрица L — та же, что и в детерминированном: случае. Выводы сформулированы в теореме 7.1. Теорема 7.1. Рассмотрим систему, описываемую стохасти- ческими дифференциальными уравнениями (7.1) и (7.2). Пред- положим, что допустимая стратегия управления такая, что зна- чение управляющего сигнала в момент t является функцией выходных сигналов вплоть до времени t. Допустим, что уравне- ние Риккати (7.4) имеет решение на отрезке Тогда закон управления л и = — Lx, Л где L определяется выражением (7.14), а х — условное среднее x(i) относительно У/, минимизирует критерий (7.3). Минималь- ное значение средних потерь вычисляется по формуле
316 Глава 8 Т Р* minEl=m S (Zo)m + tr S(/0)+ j (tr S7?x)dt + t. -J- ( (tr SBQT1 BT SP) dt. (7.23) to Замечание. Члены в выражении для минимального значения •средних потерь можно интерпретировать так же, как и в задаче для систем с дискретным временем. Член mTS(Z0)/n является, таким образом, вкладом начального состояния в среднее значе- ние. Член trS(/o)/?o обусловлен неопределенностью начального состояния. Член J tr(SRi)dt обусловлен помехами, действующи- ми на систему, а последний член (7.23) — неопределенностью в оценке состояния. [Сравните выражения (7.15) и (7.18).] Свойства замкнутой системы Объединив результаты теоремы 7.1 этой главы с теоремой 6.2 гл. 7, найдем, что оптимальное управление замкнутой систе- мой описывается следующими уравнениями: dx = Axdt + Budt + dv, dy — Cxdt + de, dx = Axdt + Budt + К [dy — Cxdt], A u = — Lx. Вводя x и x как переменные состояния, найдем, что эти урав- нения сводятся к уравнению d х X A —BL О BL А—К.С 1Ь+ г xj [dv—Kde Таким образом, динамика замкнутой системы определяется ди- намикой оптимальной детерминированной системы [Л—BL] и динамикой фильтра Калмана [Д—КС]. Упражнения 1. Рассмотреть систему dx = udt + dv, dy = xdt + de, где {^(/)} и {e(/)}—винеровские процессы с параметрами дис- персии ri и г2. Начальное состояние нормально со средним пг и ковариацией г0- Функция потерь имеет вид
Линейная стохастическая теория управления 317 т Цель управления состоит в минимизации средних потерь. Оп- ределить оптимальное управление для разомкнутой системы при Т—>-оо и оптимальную стратегию для случая неполной инфор- мации о состоянии. 2. Рассмотреть задачу упражнения 1. Найти передаточную функцию закона управления для устойчивого состояния при Т—-оо. Найти также минимальное значение функции потерь в различных случаях. 3. Рассмотреть систему dx — Axdt + dv, где {v(t), teT}— винеровский процесс с ковариацией прира- щений Rdt, а начальное состояние х(/0) нормально со средним значением m и ковариационной матрицей Ro- Показать, что Е [хг &) Qox (t^ + J хт (s) (\х (s) ds ] = to tl = mT S(to)m + trS(to)Ro+ J tr S (/) R (t) di, когда = Дг5 + 5Л + <21, S(/x) = Qo. at 4. Рассмотреть систему (7.1) и (7.2). Показать, что функция- потерь оптимальной разомкнутой системы определяется выра- жением /1 пгт S (/0) m + tr R (t0) Ro + J tr R (s) Rx (s) ds, где = Л^ + ^Л + Qx at с начальным условием R(^i)=Qo. Сравнить с результатами для оптимальной замкнутой системы. 5. Рассмотреть систему dx = Axdt + Budt + dv, dy = Cxdt + de,
.318 Глава 8 где {^ (/)} и {е(/)} — винеровские процессы с ковариациями при- ращений Ridt и R2dt и нормальным начальным состоянием со средним т и ковариационной матрицей /?0. Найти стратегию управления, минимизирующую средние потери Е | хТ (4) Qox (^) + j j/ит (0 и (0 dt ] . t. .Допустимые стратегии управления такие, что u(t) есть функция выходных сигналов, наблюдаемых вплоть до момента t. 6. Рассмотреть систему dx = ‘0 0 xdt + 0 udi + dv, 0 1 dy = [l Q]xdt + de, где {у(0} и {е(0) — независимые винеровские процессы с кова- риациями приращений Idt и rdt. Функция потерь имеет вид h I = $[x*(t) + qu4t)]dt. io Определить стратегию управления, минимизирующую средние потери £7, когда допустимые стратегии такие, что u(t) есть функционал {y(s), Определить предельную стратегию при Дать физическую интерпретацию членов выражения для минимума функции потерь. 8. ЗАМЕЧАНИЯ И ЛИТЕРАТУРА Такие фундаментальные в стохастической теории управления понятия, как функция потерь, риска, решающая функция, впер- вые введены в статистической теории разделения в работах [1—3]. В статистической теории разделения сигналов, однако, обычно ограничиваются статическим случаем, рассмотренным в разд. 3. Довольно удивительно, что концепции рандомизированной стратегии еще не применялась в стохастической теории управ- ления. Более ранние исследования проблемы стохастического управления можно найти в работе [4]. Принцип определенности впервые рассмотрен в экономиче- ской литературе [5, 6]. Дискретный вариант теоремы разделе- ния доказан в работах [7, 8]. Разд. 5 основан на работе [9]. Теорема разделения для слу- чая дискретного времени рассмотрена также в работах [10, 11].
Линейная стохастическая теория управления 319* Работа [11] представляет особый интерес, так как в ней указа- но на некоторые неясности в более ранних доказательствах. Изложение варианта теоремы разделения для случая непре- рывного времени можно найти в работах [12—15]. Тождество- (7.6) — обобщение известного результата Лагранжа из вариа- ционного исчисления [16]. 1. Wald A., Statistical Decision Functions, Wiley N. Y., 1950. 2. Lehman E., Testing Statistical Hypotheses, Wiley, N. Y., 1952. 3. Blackwell D., Girshick A., Theory of Games and Statistical Decision, Wiley,. N. Y., 1954. Русский перевод: Блекуэл Д., Гиршик А., Теория игр и сто- хастических решений, изд-во «Мир», 1968. 4. Beleman R., Adaptive Control Processes, Princeton Univ. Press, Princeton, New Jersey, 1961. Русский перевод: Беллман P., Процессы регулирования' с адаптацией, изд-во «Наука», М., 1964. 5. Simon Н. A., «Dynamic Programming under Uncertainty with a Quadratic Criterion Function», Econometrica, 24, 74 (1956). 6. Theil H., «А Note on Certainty Equivalence in Dynamic Planning», Econo- metrica 25, 346 (1959). 7. Joseph P. D. and Ton J. T., «On Linear Control Theory», Trans. AIEE (Ap- plications and Industry) 80, 193—196 (1961). 8. Gunkel T. L. Ill, Franklin G. F., «А General Solution for Linear Sampled4 Data Control», Trans. ASME J. Basic Eng. 85-D, 197—201 (1963). 9. Astrom K. J., Koepcke R. W., and Tung F., «On the Control of Linear Dis- crete Dynamic Systems with Quadratic Loss», IBM Research Rep RJ-222r September 1962. 10. Meier L., «Combined Control and Estimation Theory», Report, Stanford Re- search Institute, California, 1965. 11. Gittelman I. N., «Optimal Control of Discrete time Random Purameter sys- tems», Report 07303-1-T, Dept. EE, Systems Engineering Laboratory, Uni- versity of Michigan, Ann. Arbor, Michigan, July 1967. 12. Potter J. E., «А Guidance-Navigation Separation Theorem», MIT Exper. Ast- ronom. Lab., Rep. RE-11, August 1964. 13. Striebel C., «Sufficient Statistics in the Optimum Control of Stochastic Sys- tems», JMAA, 12, 576—592 (1965). 14. Wonham W. M., «On the Separation Theorem of Stochastic Control», SIAM J. Control, 6, (1968). 15. Wonham W. M., «Random Differential Equations in Control Theory», Pro- babilistic Methods in Applied Mathematics, A. T. Bharucha—Reid (editors) r Academic Press, New York, 1969. 16. И. M. Гельфанд, С. В. Фомин, «Вариационное исчисление», Физматгиз, Mu 1961.
ЛИТЕРАТУРА 1. Айзерман М. А., Браверман Э. М., Розоноэр А. И., Метод потенциальных функций в теории обучения машин., изд-во «Наука», 1970. 2. Андреев Н. И., Корреляционная теория статистически оптимальных систем., изд-во «Наука», 1966. 3. Воронов А. А., Основы теории автоматического управления, ч. III, изд-во «Энергия», 1970. 4. Доклады I и II Всесоюзных совещаний по статистическим методам теории управления, изд-во «Наука», 1970. 5. Евланов Л. Г., Контроль динамических систем, изд-во «Наука», 1972. 6. Исследование и оптимизация стохастических распределенных систем, изд- во «Илим», Фрунзе, 1971. 7. Казаков И. Е., Статистические методы проектирования систем управления, изд-во «Машиностроение», 1969. 8. Красовский Н. Н., Теория управления движением, изд-во «Наука», 1968. 9. Летов А. М., Динамика полета и управление, изд-во «Наука», 1969. 10. Липцер Р. Ш., Ширяев А. Н., Нелинейная фильтрация диффузионных мар- ковских процессов, Труды МИ АН СССР, вып. 104, 1968. 11. Методы оптимизации автоматических систем, Сб. статей под ред. Я. 3. Цыпкина, изд-во «Энергия», 1972. 12. Невельсон М. Б., Хасьминский Р. 3., Стохастическая аппроксимация и ре- куррентное оценивание, изд-во «Наука», 1972. 13. Пугачев В. С., Теория случайных функций и ее применение к задачам автоматического управления, «Физматгиз», 1962. 14. Пугачев В. С., Стохастические системы и их соединение, ДАН СССР, 197, № 6, 1971. 15. Райбман Н. С., Что такое идентификация, изд-во «Наука», 1970. 16. Рао С. Н., Линейные статистические методы и их применение, изд-во «Наука», 1969. 17. Ройтенберг Я. Н., Автоматическое управление, изд-во «Наука», 1971. 18. Стратанович Р. Л., Условные марковские процессы и их применение в тео- рии оптимального управления, Изд-во МГУ, 1966. 19. Теория автоматического регулирования под ред. В. В. Солодовникова, кн. 1 и 2, изд-во «Машиностроение», 1967. 20. Теория автоматического управления, Труды IV Всесоюзного совещания по автоматическому управлению, изд-во «Наука», 1972. 21. Фельдбаум А. А., Основы теории оптимальных автоматических систем, изд- во «Наука», 1966. 22. Фельдбаум А. А., Теория дуального управления, «Автоматика и телеме- ханика», № 9 и 11, 1960; № 1 и 2, 1961.
ОГЛАВЛЕНИЕ Предисловие редактора .............................................. 5 Предисловие автора ................................................. 8 Введение ........................................................... 9 Глава Г Стохастическое управление.................................... И Глава 2. Случайные процессы......................................... 21 Глава 3. Стохастические модели состояния............................ 54 Глава 4. Анализ динамических систем со случайными входными сигна- лами .............................................................. ЮЗ Глава 5. Параметрическая оптимизация............................. 129 Глава 6. Стратегии управления, минимизирующие дисперсию .... 174 Глава 7. Теория фильтрации и упреждения...........................229 Глава 8. Линейная стохастическая теория управления................ 279
к. Острей ВВЕДЕНИЕ В СТОХАСТИЧЕСКУЮ ТЕОРИЮ УПРАВЛЕНИЯ Редактор И. М. Андреева Художник В. 3. Казакевич Художественный редактор Ю. С. Урманчеев Технический редактор Е. С. Герасимова Корректор Л. Д. Панова Сдано в набор 25/V 1973 г. Подписано к печати 25/IX 1973 г. Бумага тип. № 1 60x907ie= =10,13 бум. л. 20,25 печ. л. Уч.-изд. л. 17,90 Изд. № 20/7096 Цена 1 р. 50 к. Зак. 403 ИЗДАТЕЛЬСТВО «МИР», Москва, 1-й Рижский пер., 2 Владимирская типография Союзполиграфпрома при Государственном комитете Совета Министров СССР по делам издательств, полиграфии и книжной торговли Гор. Владимир, ул. Победы, д. 18-6.
В ИЗДАТЕЛЬСТВЕ «МИР» готовится к печати книга Спиди К., Браун Р., Гудвин Дж. Теория управления. Идентификация и оптимальное управление, перевод с английского, 16 л. Книга австралийских специалистов представляет собой учеб- ное пособие по курсу идентификации, вошедшее в программы технических университетов за рубежом. В ней рассмотрены основ- ные понятия, используемые при построении математических мо- делей, уделено внимание современным постановкам задач управ- ления. Систематически описаны методы оценивания параметров п состояний линейных и нелинейных систем. Уделено внимание модификации метода наименьших квадратов, рекуррентным про- цедурам оценивания, статистическим задачам идентификации, приведены необходимые условия оптимальности, принцип опти- мальности Понтрягина, уравнения Гамильтона — Якоби, решение матричного уравнения Риккати. Рассмотрены линейная и нелиней- ная задачи управления, субоптимальные управления и вопросы квазилинеаризации, много внимания уделено иллюстрации задач идентификации и управления. Книга предназначена математикам, экономистам, специали- стам в области теории управления и АСУ.
В ИЗДАТЕЛЬСТВЕ «МИР» готовится к печати книга Саати Т. Целочисленные методы оптимизации и свя- занные с ним экстремальные проблемы, перевод с ан- глийского, 26 л. В книге просто, но в то же время со всей необходимой мате- матической строгостью изложены вопросы целочисленной опти- мизации. Рассмотрены проблемы оптимизации, возникающие при анализе диофантовых уравнений. Описан ряд задач геометриче- ской оптимизации (раскрашивание графа, реализация графа с ми- нимальным числом пересечений, наиболее плотная упаковка). От- дельная глава посвящена непосредственно целочисленному про- граммированию. Изложение материала сопровождается большим числом интересных примеров и упражнений. В конце каждой гла- вы приводится весьма обширный список литературы по затраги- ваемым вопросам. Книга является хорошим пособием для преподавателей, аспи- рантов и студентов технических вузов и университетов по спе- циальностям: исследование операций, системотехника и приклад- ная математика, а также представляет большой интерес для инженеров и математиков, сталкивающихся в своей деятельности с решением различных задач оптимизации в целых числах.