Text
                    Ю. И. НЕЙМАРК, н. я. КОГАН, В. П. САВЕЛЬЕВ
ДИНАМИЧЕСКИЕ
МОДЕЛИ
ТЕОРИИ
УПРАВЛЕНИЯ
МОСКВА «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
19 8 5

БВК 32.81 Н45 УДК 62-50 Рекомендовано Министерством высшего и среднего специального образования СССР для использования в учебном процессе Ней мар к Ю. И., Коган Н. Я., Савельев В. П. Динамические модели теории управления.— М.: Наука. Главная редакция физико-математиче- ской литературы, 1985. — 400 с. Книга написана на основе общего лекционного курса теории управления (кибернетики), читаемого для студентов специальности «прикладная математика», и может рассматриваться как введение в теорию, рассказывающее об основных динамических моделях автоматического регулирования и управления детермини- рованными и стохастическими системами и процессами. Изложение основывается на понятии состояния, дающем полное описание динамики объекта управления н необходимую информацию для синтеза оптимальной стратегии управления. Для широкого круга читателей: студентов, аспирантов и научных работни- ков, изучающих теорию управления или ею интересующихся. Табл. 4. Ил. 210. Рецензенты: кафедра процессов управления Ленинградского университета; доктор технических наук Г. А. Медведев 1502000000-117 п 053 (02)-85 0 © Издательство «Наука» Главная редакция физико-математической литературы, 1985
ОГЛАВЛЕНИЕ Предисловие . . . .............................................. 5 Глава 1. Предмет и содержание теории управления......................... 7 Глава 2. Понятия состояния и динамической системы...................... 26 § 1. Законы движения планет Солнечной системы. Механическое состоя- ние и уравнения Ньютона, Лагранжа и Эйлера......................... 26 § 2. Электромагнитное поле и уравнения Максвелла................... 33 § 3. Законы макромира, микромира и космоса........................ 36 § 4. Модели игр. Марковские системы................................ 38 § 5. Диффузионные процессы и случайные блуждания................... 47 § 6. Случайность — закономерность, закономерность — случайность 51 § 7. Математическая модель динамической системы.................... 61 Глава 3. Динамическая система и ее фазовый портрет..................... 64 § 1. Фазовый портрет физического маятника.......................... 64 §2. Автоколебания генератора с неоновой лампочкой................. 68 § 3. Динамика сосуществования видов................................ 80 § 4. Эволюция генотипа............................................. 84 § 5. Процессы размножения и гибели................................ 91 § 6. Самосборка одномерных цепочек................................. 96 Глава 4. Управляемые динамические системы............................. 103 § 1. Как сделать устойчивым верхнее положение маятника............ 103 §2. Задача о комаре.............................................. 114 § 3. Авторулевой.................................................. 123 § 4. Исследования Максвэлла и Выинеградского систем прямого регу- лирования ........................................................ 163 §5. Системы гироскопической стабилизации '........................ 178 §6. Управляемая автоколебательная двуногая ходьба................ 205 § 7. Управление и информация...................................... 221 § 8. Минимаксная стратегия поиска минимума функции одной перемен- ной .............................................................. 238 § 9. Поисковая глобальная оптимизация со стохастической адаптивной моделью.......................................................... 248
4 ОГЛАВЛЕНИЕ Глава 5. Модели обучения, персептрон и распознавание образов......... 265 § 1. Простейшие модели обучаемого поведения, персептрон.......... 265 I § 2. Распознавание образов как задача статистической теории принятия решений....................................................... 277 § 3. Минимизация эмпирического риска и стохастическая аппроксимация 279 Глава 6. Оптимизация стратегии управления ........................... 283 § 1. Постановка задачи управления................................ 283 § 2. Наблюдаемость и управляемость............................... 297 § 3. Оптимизация функций и динамических процессов................ 305 § 4. Программное и оперативное управление........................ 315 § 5. Оптимальное управление линейным динамическим объектом по квадратичному критерию качества.................................. 326 § 6. Оценивание и фильтрация................................ • • 337 I §7. Управляемые марковские системы при полном и неполном наблюдении 347 § 8. Адаптивное управление....................................... 371 Именной указатель................................................... 393 Предметный указатель................................................. 395
ПРЕДИСЛОВИЕ Настоящая книга написана на основе лекций Ю. И. Неймарка по общему курсу теории управле- ния, неоднократно читавшемуся на факультете вы- числительной математики и кибернетики Горьков- ского государственного университета как полуто- рагодовой курс лекций с практическими занятиями и лабораторными работами. Она отлична от извест- ных авторам книг по автоматическому регулирова- нию, управлению и технической кибернетике тем, что излагает рассматриваемые вопросы не как спе- циальный курс, а как общий курс, в основу кото- рого положены понятия информации, состояния и динамической системы. В книге изложена часть читаемого курса, отно- сящаяся к динамическим моделям теории управле- ния. Книга близка к лекциям, но у нее свои законы. Лишь в некоторой мере сохранен стиль беседы со слушателями, часто он заменен обычной для кни- ги безличной формой изложения, некоторые разде- лы расширены. Авторы стремились к простоте и доступности, и книга адресуется в первую очередь учащейся молодежи, однако в ней найдут немало нового и интересного инженеры и научные работ- ники. Основные идеи теории управления раскры- ваются в книге в процессе рассмотрения конкретных задач и вопросов, и поэтому книга предполагает последовательное чтение. Вместе с тем изложение каждой задачи или вопроса по возможности само- стоятельное, и это допускает фрагментарное зна- комство с ними. Книга обязана своим появлением не только ав- торам, но и большому труду сотрудников кафедры теории управления и динамики машин Горьковского университета Л. В. Коган и В. Ш. Бермана, осу- ществивших в разное время магнитофонные записи
6 ПРЕДИСЛОВИЕ лекций и превращение их в машинописный текст. В немалой степени она обязана и студентам, которые были терпеливыми слушателями и действенной «об- ратной связью». Авторам было бы очень приятно и полезно, помимо этой локальной обратной связи, обрести в лице читателей новые, более широкие об- ратные связи, и поэтому они обращаются ко всем читателям с просьбой об их осуществлении. Со своей стороны они обещают внимательное отношение к критике и пожеланиям читателей и учет их в буду- щей работе и педагогической практике. Авторы выражают признательность профессо- рам Г. А. Медведеву и В. А. Якубовичу за внима- тельное прочтение рукописи и многочисленные, учтенные авторами замечания. Усилия авторов по написанию книги разделились следующим образом: гл. 1, §§ 2—7 гл. 2, §§ 5, 6 гл. 3, §§ 1, 2, 6, 7, 9 гл. 4, гл. 5, §§ 7, 8 гл. 6 написаны Ю. И. Неймарком; §§ 1—4 гл. 3, § 5 гл. 4—Н. Я- Ко- ганом; §§ 1—4 гл. 6 — В. П. Савельевым; § 1 гл. 2, §§ .3, 4 гл. 4, §§ 5, б гл. 6 — Н. Я- Коганом и Ю. И. Неймарком; § 8 гл. 4 — В. П. Савельевым и Ю. И. Неймарком.
Г ЛАВА 1 ПРЕДМЕТ и содержание теории управления Наше время — время рождения многих новых научных направле- ний, наук и их новых разделов. Они специализируются и обособляют- ся, завоевывают право на самостоятельное существование, разрабаты- вают свои подходы и методы, технические средства, научную термино- логию. Это приводит к размежеванию различных областей науки, к непониманию представителями разных наук друг друга, к тому, что в гигантском потоке научной информации каждому специалисту фак- тически доступна лишь ничтожная, все уменьшающаяся доля. Однако в науке есть и противоположная тенденция образования общих представлений, выявления единства науки, выработки немно- гих общих принципов и общих методов исследования. Одним-из про- явлений этой объединяющей тенденции оказалось возникновение нау- ки об управлении — кибернетики. Слово «кибернетика» достаточно древнее. Оно встречается у Пла- тона и происходит от греческого слова, означающего «кормчий». За- тем его употребил Анри Ампер как обозначение науки об управлении государством. В 1948 г. вышла книга математика Норберта Винера «Кибернетика», провозгласившая возникновение новой науки о про- цессах управления и процессах переработки информации в технике, обществе и живых организмах. Пока велись споры, есть такая наука или ее нет, и что есть ее пред- мет, кибернетика бурно развивалась, вовлекая в свою сферу громадные массы людей и материальных средств. Ее развитию способствовали Джон фон Нейман, Клод Шеннон и многие другие выдающиеся уче- ные. Она привлекала молодежь, она была нужна атомной энергетике и космической технике, она была повивальной бабкой при рождении современной вычислительной техники. Уже в 1956 г. состоялась сессия Академии наук СССР, посвящен- ная актуальнейшему вопросу автоматизации производства, а с 1958 г. стал систематически издаваться сборник «Проблемы кибернетики». В 1960 г. состоялся в Москве первый конгресс ИФАК (международной федерации по автоматическому управлению). В нем участвовал и Н. Винер. В университетах и технических вузах стали появляться новые специальности по методам вычислений, вычислительным ма- шинам и кибернетике. Недавняя инженерная техническая наука, называемая то теорией автоматического регулирования, то теорией сервомеханизмов, как по волшебству, из Золушки превратилась в прекрасную принцессу, прив- лекающую умы и сердца людей. До этого ни одна наука не знала тако-
8 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ го бурного развития и не вовлекала в сферу своего влияния так много людей и технических средств. Кибернетика явилась неотъемлемой н одной из основных частей научно-технической революции нашего вре- мени. Как и всякая наука, теория управления состоит из трех частей, вернее сказать, составных-элементов. Первый — это объект или объек- ты изучения. В математических науках объект изучения формулирует- ся в виде аксиом. Предметы изучения алгебры и геометрии задаются аксиоматически. У теории управления нет аксиоматики, вместо этого есть формализация объекта изучения в виде математических моделей. Эти математические модели и есть первый составной элемент теории управления — ее объекты изучения. Затем у теории управления есть арсенал средств изучения этих ма- тематических моделей. Это ее второй элемент — методы изучения. Наконец, теория управления, как и всякая наука, применяется для решения конкретных задач, через которые происходит взаимодействие науки с техникой, экономикой, культурой и социальным прогрессом общества. Этот третий элемент — решаемые и решенные конкретные задачи в виде конкретных результатов, рекомендаций и выводов. Все эти части или элементы теории управления тесно переплетены между собой: методы исследования определяют модели, модели и зада- чи порождают новые методы. Нельзя сказать, что является главным. Все главное. Целое не может существовать ни без одной своей части. И все же возможно, что введение в науку об управлении наиболее удобно через ее математические модели, возможно, что именно мате- матические модели в наибольшей мере ее характеризуют. Именно на математических моделях в наибольшей мере вскрывается содержание кибернетики, лежащие в ее основе принципы н общие подходы, раз- работка которых составляет содержание методов исследования. Прин- ципы и общие подходы в науке возникают исторически. Историческое их понимание очень важно, оно позволяет глубже их понять, лучше осмыслить связи и увидеть дальнейшие перспективы развития. Кибернетика возникла как синтетическая наука. Едва ли ее мож- но считать смежной наукой, такой, например, как биофизика, биохи- мия, математическая биология, физическая химия. Кибернетика воз- никла не на стыке разных наук, а в результате осмысливания и обоб- щения нескольких наук, благодаря восприятию идей ряда наук и их синтезу. По-виДимому, основными науками, которые она в себя синтезирует, являются следующие: 1) теория автоматического регулирования-, 2) математическая логика, теория алгоритмов, и автоматов-, 3) теория передачи .сообщений и теория информации-, 4) теория колебаний. Именно они легли в ее основу и подготовили ее возникновение. Отметим, что исторически в возникновении кибернетики немалую роль сыграли нейрофизиология и психология. Более того, именно они
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 9 привели к созданию теории сетей из формальных нейронов, к созда- нию персептрона Розенблата, к разгадке тайн фибрилляции сердца и многому другому. Вычислительные машины во многом копируют нашу интеллектуальную деятельность. Это, безусловно, так, и вместе с тем нейрофизиология, психология и изучение деятельности мозга, хотя и индуцировали возникновение кибернетики, убеждая в ее важности и увлекая разгадками тайн природы, но не легли в ее основу. Кратко изложим, что же дала каждая из перечисленных выше и указанных на рис. 1.1 наук. Автоматические устройства были уже у греков, римлян, в древнем Китае, Индии, но не о них речь. Теория автоматического регулирования зародилась только во второй половине прошлого века. Непосредственно перед этим в 1765 г. И. И. Ползуно- вым был построен регулятор уровня жидкости, в 1784 г. Д. Уатт по- строил паровую машину с центробежным регулятором скорости враще- ния. Фрикционные центробежные регуляторы использовались для соз- дания равномерного вращения астрономических труб. Без такого устройства наблюдаемые небесные тела из-за вращения Земли уходили бы из поля зрения телескопов. Без центробежного регулятора скорос- ти вращения не могла бы работать паровая машина. Без него при уве- личении нагрузки она уменьшала бы скорость вращения вплоть до оста- новки, при сбрасывании нагрузки увеличивала бы скорость и могла бы пойти вразнос, т. е. начать вращаться настолько быстро, что это могло бы привести к поломке и серьезной аварии. Скорость вращения зависела бы и от давления пара. Центробежный регулятор делал ско- рость вращения в некоторых пределах практически не зависящей ни от нагрузки, ни от давления пара.
10 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ Паровые машины, а затем и турбины были в прошлом веке основным источником механической энергии. Они приводили в движение станки, откачивали воду из шахт, вращали электрические генераторы и не могли этого делать без хороших регуляторов. Регуляторы самых разных конструкций изобретались в большом количестве. В это время не был ясен общий принцип их действия, ско- рее всего, на первый план выступали конструктивные особенности. Но такой принцип был — это принцип обратной связи. В чем же он состоит? Начнем с поплавкового регулятора уровня жидкости (рис. 1.2). В резервуар втекает вода через трубку Т и вытекает через трубу С. Рис. 1.2 Уровень воды в резервуаре зависит от того, как притекает в него вода и как она из него вытекает. Втекание воды зависит от того, насколько открыт вентиль В, так что уровень h воды в резервуаре зависит от от- крытости б вентиля В и величины г расхода воды, вытекающей через трубу С. Зависимость h от б — это прямая связь, причем связь направлен- ная: от положения вентиля зависит уровень жидкости в резервуаре, но уровень воды не влияет на открытость б вентиля. Направление этой связи отмечено на рис. 1.2 стрелкой. Зависимость уровня h от расхода г взаимная, поскольку расход воды через трубу С зависит от давления жидкости, определяемого ее уровнем h в резервуаре. Эта связь указа- на на рис. 1.2 дужкой без стрелки. Ее можно было бы изобразить и двумя стрелками, идущими от г к h н от h к г. Нам нужно, чтобы уровень воды h в резервуаре вне зависимости от ее расхода г поддерживался на одной и той же высоте h*. Как это сде- лать? Ясно, что для этого нужно открывать вентиль, когда уровень становится меньше h*, и прикрывать его, когда уровень больше h*. То есть нужно менять величину открытости вентиля б в зависимости от уровня h жидкости. Причем менять так, чтобы б уменьшалось, если K>-h*, и увеличивалось при h<Zh*. Достичь этого можно, например, с помощью устройства, изображенного на рис. 1.3. Это и есть поплав- ковый регулятор Ползунова. Он осуществляет связь от h к б, обрат-
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 1Г ную по отношению к исходной прямой связи от б кй. Изменение уровня жидкости меняет положение поплавка П, от положения которого за- висит открытость вентиля В. Это обратная связь, осуществляемая поплавковым регулятором (прямая и обратная связи показаны на рис. 1.3). Рассмотрим теперь в таком же плане центробежный регулятор Уатта скорости вращения. Паровую машину вращает поступающий в нее пар. Чем больше поступает пара и чем больше его давление, тем быстрее она вращается. Поступление пара зависит от положения дрос- сельной заслонки вентиля подачи пара в паровую машину. Это прямая связь, связь, лежащая в основе функционирования паровой машины. Скорость <й вращения вала паровой машины зависит еще и от того, как она нагружена. Задача состоит в том, чтобы устранить (значительно уменьшить) зависимость скорости вращения <о от нагрузки и добиться того, чтобы независимо от нагрузки скорость вращения <о оставалась не- изменной, равной некоторому со*. Как решить эту задачу? Эта задача очень похожа на пре- дыдущую, и решить ее можно так же: ввести обратную связь, которая будет увеличивать подачу пара, когда скорость вращения со становится меньше со*, и, наоборот, умень- шать подачу, если скорость вращения со оказалась больше со*. Тех- нически реализовать такую обратную связь можно очень многими спо- собами. На рис. 1.4 показано, как это сделал Уатт. Он ввел центробеж- ный измеритель угловой скорости, основанный на том, что с увеличе- нием скорости вращения шары Ш расходятся и муфта М поднимается, а с уменьшением скорости вращения шары Ш сближаются и муфта М опускается. Далее, перемещение муфты М Уатт связал с дроссельной заслонкой 3, так что при опускании муфты М заслонка 3 открывается, а при поднятии муфтыМ заслонка 3 закрывается. Тем самым реализу- ется уменьшение подачи пара с возрастанием скорости вращения и увеличение ее при убывании скорости вращения. В центробежном фрикционном регуляторе скорости вращения ас- трономической трубы (подобные регуляторы использовались в патефо- не для создания равномерного вращения пластинки) обратная связь реализована иначе, чем в регуляторе Уатта. Это вызвано тем, что ме- нять натяг заводной пружины или вес грузов, приводящих во враще- ние астрономическую трубу, затруднительно. Поэтому изменение вра- щающего момента достигается путем создания дополнительного мо- мента трения, который увеличивается при слишком быстром вращении и уменьшается при слишком медленном. Технически это реализуется тем, что раздвигающиеся шары центробежного измерителя угловой скорости трутся об ограничительное кольцо.
12 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ Итак, в основе поплавкового регулятора Ползунова, центробежного регулятора Уатта и фрикционного регулятора лежит один и тот же принцип обратной связи. Согласно историческому анекдоту принцип обратной связи осущест- вил, пожалуй, наиболее простым способом не инженер и не ученый, а шаловливый мальчик. Еще до Уатта прототипы паровой машины ис- пользовались для откачивания воды из шахт. До них это делали лоша- ди, но необходимые мощности росли, и пришлось перейти на силу пара. Пар двигал поршень паровой машины, и он перемещал поршень насо- са. Каждый раз нужно было подавать пар в цилиндр, затем выпускать его, и это делалось вручную поворотом специальной ручки. Работу эту выполнял мальчик, он следил за движением паровой машины и двигал ручку то в одну сторону, то в другую. Надоела ему эта работа, и он заметил, что ручку он двигает все время в такт с движением штока (соединенного с поршнем) паровой машины: шток вниз — ручку вниз, шток вверх — ручку вверх. Смотрел-смотрел, взял и связал веревкой шток с ручкой, а сам пошел гулять. Так было внесено существенное усо- вершенствование в конструкцию паровой машины. Мальчике помощью веревки ввел обратную связь, которая автоматически регулировала нужным образом подачу и выпуск пара. Этот анекдот хорош только тем, что ясно показывает, в чем состоит принцип обратной связи. Все ос- тальное — как и положено в анекдоте. Таким образом, принцип обратной связи заложен не только в центробежном регуляторе паровой машины, но и в самом принципе ее работы. До мальчика паровая машина выполняла команды ручки: руч- ка вниз — поршень вниз, ручка вверх — поршень вверх. При этом она их выполняла так, что небольшие усилия человека при повороте руч- ки превращались в мощные движения поршня. Это прямая усиливаю- щая связь. Принцип усиления этой связи отличен от принципа рычага. Рычаг увеличивает силу, но совершает работу за счет мускульной силы человека и не дает выигрыша в мощности. Связь же от ручки к поршню совсем другая, она реализуется за счет энергии пара, человек лишь управляет ее использованием. Поршень движется не энергией челове- ка, а энергией пара, и это позволяет очень намного превысить мощь человеческой руки. Мальчик к этой прямой связи от ручки к поршню ввел обратную связь от поршня к ручке и тем самым создал новую систему, в которой сами собой возникли периодические движения или, как сказали бы сегодня, возникли автоколебания (самоколебания). Как видите, обратная связь может стабилизировать скорость враще- ния, но она же может приводить к колебаниям. Таким образом, введе- ние обратной связи может придать системе совершенно новые свойства, ранее не присущие ей. ' Проиллюстрируем способность обратной связи наделять систему совершенно новыми свойствами. Представьте, что вы хотите с помощью магнитов свободно вывесить железный шарик. Вы пробуете это сделать, но у вас ничего не выходит: шарик либо падает, либо прилипает к од-
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 13 ному из магнитов. Вы ищете решение и, наконец, обнаруживаете, что есть теорема Ирншоу, которая его запрещает. В стационарном маг- нитном поле не может быть устойчивого равновесия ферромагнитного (т. е. железного) шарика. Но вот нам в голову приходит идея восполь- зоваться принципом обратной связи. Это можно сделать по-разному, например, согласовать движения магнита с движением шарика или взять вместо магнита электромагнит и менять в нем силу тока в зави- симости от движения шарика. И оказывается, что теперь шарик уже цожет устойчиво висеть. Обратная связь позволила нарушить запрет, вытекающий из теоремы Ирншоу, и наделить магнитное поле совер- шенно новыми свойствами. Очень жаль, что в книге нельзя показать этот эффектный экспери- мент. Вам придется поверить на слово. И еще один пример использования принципа обратной связи. Пред- ставьте себе бег на 3 или 10 км. Вы видели, как бегут хорошие спорт- смены. Говорят, знаменитый чемпион в. беге на длинные дистанции ^(урмн бежал, реализуя свой наперед намеченный график, почти рав- номерно всю дистанцию. Так примерно бегают чемпионы и сейчас. А ведь хочется — и естественно — бежать вначале быстро, а под ко- нец, когда устанешь, помедленнее. Новичок так и бежит: сначала впе- реди всех, затем сзади всех. За счет чего же достигается равномер- ность бега? Опять с помощью той же обратной связи, реализуемой во- лей бегуна. Именно обратная связь, устанавливающая зависимость усилий от скорости бега, наделяет бегуна новыми качествами, отлич- ными от естественного поведения новичка. Вы видите, что принцип обратной связи всюду, где вы хотите дос- тигнуть каких-то целей и наделить для этого систему новыми свойст- вами. Это очень общий и универсальный принцип, его и взяла из тео- рии автоматического регулирования кибернетика. В истории использования принципа обратной связи не все было про- сто и гладко. Выяснилось, что мало ввести обратную связь, нужно это сделать надлежащим образом, а сделать это далеко не всегда просто. Очень скоро обнаружилось, что регуляторы скорости вращения паровых машин и турбин не всегда делают то, что от них ожидают, а подчас вызывают совершенно другие последствия, приводящие к аварии. Астрономические трубы вместо того, чтобы равномерно вращаться, начинали дрожать, паровые машины — то увеличивать, то уменьшать скорость вращения так, что размах этих изменений мог нарастать до катастрофических размеров. Явления были необычными. Теория от- сутствовала. Тупик усугублялся тем, что чем лучше инженеры делали .регуляторы, чем большей точности хотели от них добиться, тем хуже они работали или вовсе были непригодны. Назрела необхо- димость в помощи теории, и она пришла в лице гениального физика Д. К. Максвелла и знаменитого русского инженера И. А. Вышнеград- ского. Эта помощь опиралась на теорию колебаний, точнее, теорию ма- лых колебаний, ведущую свое начало от Лагранжа.
14 ГЛ. I. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ Далее будет подробно рассказано, что сделал Максвелл и что — Вышнеградский. Здесь только заметим, что пришли они к диаметраль- но противоположным выводам и оба были правы. Непосредственную помощь инженерам оказал только И. А. Выинеградский. Он построил знаменитую, названную его именем диаграмму, указывающую, как нужно выбирать параметры регулятора, чтобы он хорошо работал, и после такого выбора регуляторы действительно работали хорошо. Но так было лишь до тех пор, пока принцип обратной связи применялся в достаточно простом виде. Его более сложные использования сулили новые выгоды, но и привели к новым проблемам. Так возникли ставшие теперь классическими системы прямого, непрямого и изодромного ре- гулирования, системы регулирования по отклонению и по скорости отклонения, а вместе с ними и классическая линейная теория автома- тического регулирования. Автоматические регуляторы стали управ- лять движением самолетов и получили наявание автопилотов. Авто- матические регуляторы поддерживали требуемые температуры, дав- ления, расходы, концентрации, напряжения. Без них не мыслима ни атомная энергетика, ни ракетная техника. Без них сейчас нельзя де- лать бумагу, прокатывать металл, осуществлять его плавку, они нуж- ны в котельных и на электростанциях, на судах и в химическом про- изводстве, на станках с программным управлением и в локационной технике. Перейдем теперь к роли в возникновении кибернетики математи- ческой логики, теории алгоритмов и автоматов. Эта роль состоит в создании средств формализации мышления, приводящих к созданию вычислительных машин, целой вычислительной индустрии со своими языками общения с машиной, колоссальным быстродействием вы- полнения элементарных операций и очень большой памятью. Она состоит в новых возможностях формализации отдельных видов интеллектуальной деятельности человека, после которой ее смогут выполнять вычислительные машины, необычайно расширяя возмож- ности человеческого интеллекта. Благодаря ЭВМ конструктор может испытать математическую мо- дель своего пока еще только воображаемого объекта. Увидеть, хорошо или плохо он справляется со своими задачами. Внести изменения и снова посмотреть, что получилось. Он может во многих случаях рас- считать будущую конструкцию так, чтобы три имеющихся возможно- стях достигнуть наилучшего эффекта. Ученый может реализовать мысленные эксперименты и воображае- мые ситуации. Можно моделировать процессы в далеких звездах, ис- пытывать несуществующие ракеты и самолеты, генераторы, плотины и строительные конструкции. Можно научить машину доказывать теоремы, играть в шахматы, ставить диагнозы болезней, проводить геологическую разведку, улучшать производственные процессы, уп- равлять выполнением сложных и тонких операций. С помощью совре- менных ЭВМ можно взглянуть в глубь истории Земли, прогнозировать происходящие на ней процессы.
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 15 Все невозможно перечислить, и это только начало, и все еще впе- реди. Правда, одновременно становится все яснее и яснее, насколько сложен мозг человека, и как еще скромны по сравнению с ним возмож- ности машины. И все же кое в чем, пусть самом простом, машины дог- нали и даже превзошли человека. С математической логикой, теорией алгоритмов и автоматов свя- заны и глубокие исследования по обоснованию математики, по выяс- нению принципиальных возможностей тех или иных операционных Систем. Но эта сторона осталась за математической логикой. Киберне- тика ограничилась тем, что восприняла способы формализации интел- лектуальных процессов, способы трансформации формализованных описаний и способы их синтеза на тех или иных формальных элемен- тах. Граница эта не очень четкая, но она есть. Историю осмысливания человеческого мышления обычно начина- ют от Аристотеля. Именно он сформулировал основные правила логи- ческого вывода. Затем, спустя много веков, в течение которых фор- мировались философские и естественнонаучные взгляды человечества, правила вывода Аристотеля были формализованы в алгебре Буля и исчислении высказываний. Дальнейшая формализация пошла именно по этому пути алгебраизации. Один из первых прототипов современных программируемых вы- числительных машин был создан Чарлзом Бэбиджем. Это была про- граммируемая механическая вычислительная машина. Дочь поэта Дж. Г. Байрона Ада Лавлейс написала инструкцию программирова- ния вычислений на этой машине. Эти выдающиеся по своему времени достижения были забыты. Началом современных программируемых ЭВМ принято считать вычислительную машину на релейных элемен- тах с быстродействием примерно в 100 операций в секунду, созданную По идеям венгерского математика Дж. фон Неймана. Возможно, что сказанное не дает достаточно четкого ответа на во- прос о том, какое отношение имеет формализация интеллектуальной деятельности и вычислительные машины к теории управления и кибер- нетике, к их основному принципу обратной связи. Принцип обратной связи указывает на общее направление управляющего воздействия. В приведенных выше примерах «логика» этого воздействия была очень Простой: скорость увеличивается — подачу пара уменьшить, скорость уменьшается — подачу пара увеличить. Как нужно уменьшать по- дачу пара и как ее увеличивать, об этом принцип обратной связи ни- чего не говорит. Кроме того, легко представить себе случаи, когда и «логика» управления значительно сложнее. Для этого следует обра- титься к более сложным задачам, чек! стабилизация скорости враще- ния маховика паровой машины, например к задаче управления посад- кой и взлетом самолетов, управления уличным движением на пере- крестке, управления сложным химическим технологическим процес- сом, управления распределением энергоресурсов и многим другим. В каждом из этих случаев необходимо прибегнуть к довольно сложной стратегии управления. Стратегия управления определяется ее алго-
16 ГЛ. I. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ ритмом, а алгоритм реализуется с помощью каких-то средств. Поня- тие алгоритма, способы его формализации, отыскания и реализации — это уже понятия и задачи, заимствованные из математической логики, теории алгоритмов и автоматов. Усложнение стратегии управления и необходимость для ее отыска- ния использования понятий и методов математической логики, теории алгоритмов и автоматов возникают не только при переходе к более сложным объектам управления. Это возможно и в задаче стабилизации скорости вращения, если она будет осложнена неизвестностью и «пла- ванием» параметров паровой машины, наличием случайных помех и стремлением в этих условиях реализовать наилучшее в некотором смыс- ле управление. Решение такой задачи требует использования совсем непростых алгоритмов идентификации, поисковой оптимизации и адаптации. Наконец, все это для своей реализации требует вычисли- тельной техники, да и сама вычислительная техника не более чем сис- тема, реализующая управляющие воздействия вводимой в нее програм- мы. Чтобы конкретно представить себе, сколь сложной и сколь техни- чески оснащенной может быть система управления даже сравнитель- но простым объектом, представим себе, что нам нужно ввести в совре- менный большой порт, где все время снуют малые и большие суда, сов- ременный большой лайнер. Причем ввести его на указанное место мы хотим своим ходом, не прибегая к средствам буксировки. Задача сос- тоит в том, чтобы провести лайнер по определенному коридору, не столкнувшись ни с одним другим судном .и не стукнувшись о причал. Управлять можно рулем и ходом (скоростью вращения винтов). Труд- ность в том, что громадная инерция лайнера выявляет последствия наших действий совсем не сразу, а, возможно, спустя многие минуты, и если эти действия были опрометчивыми, ничто уже не сможет помочь, и авария неизбежна. В этой ситуации необходимо прогнозировать возможные результаты управления на значительное время вперед, учитывая не только динамику движения лайнера, но и случайные вет- ровые воздействия, течения, волны, движения других судов. Наконец, даже имея прогнозы движения лайнера, нужно суметь ими восполь- зоваться, а это не так уж просто. Скорее это настолько сложно, что прогноз движений лайнера поручается ЭВМ, а человек, получая в удобной для него форме как эти данные прогноза, так и обстановку движения, принимает решения об управлении лайнером. Заметим, что в аналогичных задачах «попроще», например посад- ки самолета, уже достигнута полная автоматизация управления. Таким образом, если необходима краткая формулировка, то форма- лизация мышления дала теории управления методы и средства для оты- скания и реализации сложных и эффективных стратегий управления. Перейдем к освещению вклада в теорию управления теории переда- чи сообщений и теории информации. Многие современные системы управления включают в себя каналы передачи данных. Организация передачи данных, ее убыстрение, необходимость защиты их от помех —
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 17 эиэ и есть те вопросы, которые стоят и решаются в теории передачи сообщений и теории информации. Это достаточно сложные вопросы, и их решение сейчас далеко продвинуто как в плане теоретическом, •гак и техническом. Системы дальней телефонной связи осуществляют гигантские коэффициенты усиления (~10во) и защищены от помех. Мы принимаем очень слабые сигналы от космических аппаратов, на- ходящихся где-то возле Венеры, Марса и Сатурна, а это примерно то- же самое, что услышать писк комара на расстоянии многих километ- ров. Мы передаем на спутники управляющие сигналы, и в приеме их не должно быть ошибок. Мы записываем и считываем данные, необхо- димые для управления, из источников их хранения, и при этом нужно не делать ошибок, хотя со временем записи стираются и портятся, за- писывать эти данные нужно как можно плотнее. Однако не эти конкретные, очень важные практические проблемы определяют в первую очередь общее значение теории передачи сообще- ний и теории информации для теории управления и кибернетики. По- жалуй, самое принципиально важное—это само понятие информа- ции, оно играет в теории управления такую же роль, как понятие энер- гии в физике. При физических процессах происходят и изучаются трансформации энергии, переходы ее из одного вида в другой, из механического в электрический, из электрического в химический и т. д. При процессах управления происходят преобразования информации, и именно они изучаются в теории управления. Мера энергии и закон ее сохранения были установлены давно. Мера информации — совсем недавно в работах Клода Шеннона. Поэтому теорию информации, возможно, ждут такие же удивительные откры- тия, какие были в теории энергии. Но само понятие информации уже навсегда вошло в науку, навсегда останется и мера информации К- Шен- нона. Что передается по прямым и обратным каналам связи системы уп- равления, что обрабатывается в соответствии с алгоритмами управле- ния? Какие-то токи, отметки, перемещения, силы, напряжения. Но можно абстрагироваться от их конкретного физического воплощения и рассматривать их как некую информацию. Теория информации дала теории управления основу для такого общего, абстрагированного от физического содержания, подхода к исследованию процессов управления. Важность понятия информации и ее переработки в системах управ- ления позволила смотреть на кибернетику как на науку о переработ- ке информации. Это так, но это не все. Физика тоже изучает всевозмож- ные преобразования энергии, но к этому ее содержание не сво- дится. Как уже отмечалось, выяснение условий устойчивости работы регу- ляторов, а к концу прошлого века в Англии их было уже порядка 75 000, основывалось на теории малых колебаний Лагранжа. Так что у истоков теории автоматического регулирования стояла теория коле- баний. Именно она указала путь к исследованию динамики регулято-
18 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ ров и их устойчивости. Это был путь линеаризованной теории, господ- ствовавшей вплоть до 30—40-х годов нашего века. Теорию колебаний принято начинать от Лагранжа. Хотя колеоа- ния маятника наблюдал и изучал Галилей, а Гюйгенс использовал их для создания великолепных часов, но именно Лагранж дал общие спо- собы составления дифференциальных уразнений малых колебаний вблизи равновесия и провел их исследование. Этим он заложил основы линейной теории колебаний. Следующий этап в теории колебаний — это трактат «Теория звука» Рэлея. Рэлей вовлек в колебательное рассмотрение не только лагран- жеву механику, но и акустику, электричество, теплоту. Он обнаружил аналогию между маятником и электрическим томсоновским контуром, разрядником, резонатором, органной трубой, музыкальным инстру- ментом. Он разгадал секрет поющего пламени и опыта Рийке. Он обна- ружил во всем этом многообразии великую колебательную общность. Он заложил основы «колебательной взаимопомощи», когда изучение явлений в одной области помогает разгадать их в другой. Известно, что явление резонанса колебаний грузика за пружинке подтолкнуло А. Н. Крылова к созданию теории качки корабля, позволило понять, почему и как килевая качка корабля зависит от его курса и скорости движения. Это же явление резонанса, возможно, дало идею закрити- ческого ротора в турбине Лаваля. А разве не резонанс лежит в основе радиопередачи и радиоприема? Чтобы лучше почувствовать суть этой колебательной взаимопомо- щи, расскажем об эффектной демонстрации поющего пламени. Пред- ставим себе обычную стеклянную трубу дленой метра полтора и диа- метром сантиметров десять. Труба открыта с концов и поставлена вер- тикально. Снизу в трубу вводят примерно ио центру тонкую трубку, по которой подается водород, горящий на ее конце. Видно, как пламя постепенно перемещается вверх по трубе, и вдруг возникает и нарас- тает до сильного звучания чистый красивый звук, весь зал наполняет- ся могучим звучанием. Это звучание может быть настолько сильным, что пламя вдруг гаснет и звук замирает. Пламя зажигают снова, и вновь зал наполняет чистый и красивый звук. Не следует думать, что дело в самом пламени. Горение — очень сложное явление. Пламя можно убрать и заменить раскаленной се- точкой — звук опять возникнет и будет длиться, пока не остынет ме- таллическая сетка. Что же звучит и почему это звучание вэзникает? Рэлей разгадал загадку. В трубе возникают колебания воздуха. Скорее всего, это ко- лебание основного тона трубы, когда в ее центре — пучность давле- ния, а по концам — узлы. Это как в органной трубе. Но что возбуждает и что поддерживает эти колебания? Колебания давления влияют на пламя, так как с возрастанием давления вытека- ние водорода замедляется, а с его убыванием — ускоряется. Таким образом, интенсивность выделения тепла зависит от фазы колебаний воздуха в трубе. В свою очередь более интенсивное выделение тепла
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 19 повышает давление, и ясно, что если эти повышения давления делать в подходящие фазы колебаний воздуха в трубе, то они будут нарастать. Это\совершенно так же, как при раскачивании маятника, при подтал- кивании его в «попутном» направлении, когда он проходит через сред- нее положение. Такова разгадка. Она вся — на колебательных анало- гиях, на аналогии со звучанием органной трубы и способом поддержа- ния колебаний маятника часов. Когда впервые показывались эти опыты, едва ли можно было ду- мать, что спустя много лет эти же колебания будут вредить нормаль- ной работе реактивных двигателей и инженеры будут искать их при- чины и способы устранения. Обратим внимание еще вот на что. В трубе возникают автоколеба- ния, и причиной их является замкнутый цикл воздействий, составлен- ный из прямой и обратной связей: изменение давления воздуха в трубе влияет на пламя, пламя через выделение тепла влияет на колебания воздуха в трубе. Так что все происходит не без принципа обратной свя- йи. Это с его помощью затухающие колебания превратились в нараста- ющие и наполнили аудиторию сильным и чистым звуком. Это еще один пример того, как обратная связь может служить не только для стабили- зации скорости вращения, но и быть причиной возникновения колеба- ний. Давайте теперь с этой новой точки зрения посмотрим на возникно- вение неустойчивости регулирования скорости вращения паровой ма- шины. Мы считаем, что регулятор осуществляет очень простую страте- гию управления, состоящую в том, что при увеличении скорости враще- ния уменьшается подача, пара, а при уменьшении скорости вращения подача пара увеличивается. Но ведь так будет, если скорость враще- ния не очень быстро меняется и шары центробежного измерителя ско- рости вращения успевают менять свое положение и положение за- слонки. А что будет, если эти изменения достаточно быстрые и шары регулятора не успевают за ними? Тогда логика стратегии управле- ния может нарушиться и даже стать такой, что при увеличении скорости вращения подача пара увеличивается, а при уменьше- нии — уменьшается. Следствием этого будет уже не стабилизация скорости вращения, а, наоборот, нарастание ее изменений. Предотвра- тить такую возможность путем уменьшения масс шаров нельзя, поскольку именно они должны двигать дроссельную заслонку. Но тен- ' денцию к колебательности нужно уменьшить. Именно это сделал Вы- шнеградский, предложив специальное устройство — катаракт — для демпфирования колебаний шаров регулятора. Из сказанного ясно, что механизмы возникновения поющего пламени и колебаний регуля- тора одинаковые. Оба они объясняются замкнутым циклом воздей- ствий, в котором возмущение нарастает. Для автоматических регуляторов такое нарастание вредно. Но то, что вредно для регулирования, оказалось полезным и нужным в на- рождающейся радиотехнике, и она стала использовать принцип обрат- ной связи для генерации колебаний. Принцип обратной связи оказал-
20 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ ся полезным и для приема слабых сигналов. Возникли новые пробле- мы, и они дали толчок развитию теории колебаний. В это развитие зна- чительный вклад внесли работы голландского физика Ван-дер-Поля и школ Л. И. Мандельштама — А. А. Андронова и Н. М. Крылова — Н. Н. Боголюбова. В бурный период становления теории нелинейных колебаний как отдельной научной дисциплины задачи автоматического управления отошли для нее на второй план. Возврат к ним произошел только в сороковых годах. С ним в теорию автоматического регулирования пришли новые методы исследования линейных систем автоматического регулирования, основанные на идеях операционного исчисления Хевисайда, и новые методы исследования нелинейных систем, веду- щие свое начало от работ А. Пуанкаре и А. М. Ляпунова. Из сказанного ясно, что теория колебаний снабдила теорию управ- ления методами исследования устойчивости и динамики систем авто- матического управления. Вместе с этим неприметным образом она пе- редала теории управления общий колебательный подход, подход к системам и задачам управления, при котором системы управления рассматриваются безотносительно к конкретной их технической и кон- структивной реализации. Она научила происходящие в системе про- цессы управления рассматривать безотносительно к тому, происходят ли они в механических или химических системах, в живом организме или в человеческом обществе. Возможность такого общего подхода основывается на изоморфизме колебательных закономерностей и зако- номерностей процессов управления в системах различной природы, на изоморфизме колебательных процессов и процессов управления в этих системах абстрактным процессам в их математических моделях. Подводя итог сказанному о становлении кибернетики, перечислим ключевые слова основных ее понятий: информация, алгоритм, изо- морфизм и обратная связь. Теперь, после того как мы бегло ознакомились с базой и возникно- вением теории управления, попытаемся осветить вопрос о том, что та- кое кибернетика сегодня и чем она будет завтра. С момента ее рожде- ния прошло немногим более тридцати лет. Это очень малый срок. Но мы живем в очень бурное и стремительное время. За эти короткие годы человек успел на спутнике облететь земной шар, побывать на Луне, создать атомную энергетику, создать громадную индустрию вычис- лительной техники, организовать спутниковую космическую телеви- зионную связь. Темпы развития теории управления как науки оказа- лись подстать стремительному развитию этих передовых направлений техники, да и эта техника была бы невозможна без кибернетики. Ки- бернетика обзавелась партнерами — это математическая кибернетика, техническая кибернетика, биологическая кибернетика, медицинская кибернетика и даже эволюционная кибернетика. Методы кибернетики используются и в химии, и в физике, и в геологии, и в лингвистике. Они стали проникать всюду. Кибернетика породила автоматизирован- ные системы управления, включая производство и технологию (АСУ,
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 21 АйУП и АСУТП), автоматизированные системы научных исследований (АСНИ) и систему автоматизированного проектирования (САПР). Она стимулирует создание более сложных, чем ранее, автоматов-роботов, способных совершать много-более сложные и не столь жестко програм- мированные действия, чем обычные автоматы. Вычислительные маши- ны усилили интеллектуальную мощь человека. Кибернетика возгла- вила научно-технический прогресс и новую научно-техническую рево- люцию. Именно эти социальные последствия предсказывал Н. Винер кибернетике в своей книге уже в 1948 г. Что же такое кибернетика как наука? Это не математика и не мате- матическая наука. Во всяком случае, ее нет в многотомном сочинении Никола Бурбаки. Она не имеет аксиоматики. Среди основных ее мето- дов — эксперимент. Но она непохожа и на физику или химию. Физика К химия имеют свои определенные объекты исследования. Химия изу- чает химические вещества и их превращения. А что изучает кибернети- ка? Процессы управления, но что это такое и в чем они происходят? Все равно в чем, не важно в каких объектах. Так что и на естествен- ную науку она непохожа. Кибернетика не техническая наука уже по- тому, что она проникает во все технические науки и ни к одной из них не сводится. По-видимому, следует признать за теорией управления (киберне- тикой) право быть наукой нового синтетического типа, наукой о про- цессах управления и переработки информации. Сейчас, возможно, эти слова звучат несколько странно. Но ведь еще совсем недавно на страницах печати дискутировался вопрос о том, есть ли такая наука «теория автоматического регулирования». Многим казалось, что такой науки нет, потому что у нее нет своих методов, своего объекта иссле- дования, что она лишь приложение знаний, добытых в других науках, к инженерным задачам автоматического регулирования. Перед кибернетикой стоят мировые загадки. Это загадки жизни и нашего мозга. Конечно, не перед одной кибернетикой, но на нее воз- лагаются большие надежды. Эти надежды имеют основания. В нашем понимании основ жизни, молекулярных ее основ, идеи кибернетики сыграли не последнюю роль. Известно, что камнем преткновения эво- люционной теории Дарвина был вопрос о том, как и почему от зайчихи Происходит зайчонок. Каким образом из одной клетки возникает но- вый организм, каким образом он наследует видовые признаки? Как и откуда маленькая клетка знает, что из нее должен вырасти зайчонок, а не собачка? Как передаются видовые признаки, как вся сложнейшая организа- ция человека передается следующему поколению — эта великая тай- на природы пала. Многое еще не ясно, но тайны нет. В каждой клетке есть «книга жизни» в виде тончайших спирально закрученных лент длиной в несколько сантиметров, на которых все записано. Записано в четырехбуквенном алфавите, каждая буква которого — молекула определенного химического вещества. Запись эта очень большая, она больше, чем та, которая содержится в самой большой энциклопедии.
22 ГЛ. 1 ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ Эту книгу может «читать» и передавать записи на «печатные станки» транспортная РНК. Печатные станки—рибосомы—размножают тексты в виде новых записей в двадцатибуквенном алфавите. Буквами этого нового алфавита являются молекулы двадцати аминокислот, а запи- си — это белковые соединения, из которых построено все живое. На этой фабрике синтеза белков есть линии передачи сообщений, уст- ройства перекодировки (перевода текста из одного алфавита в другой), печатающие устройства, системы управления с обратными связями. Обратные связи ускоряют и замедляют процессы синтеза, прекращают и начинают их, корректируют ошибки. Что нам известно о деятельности человеческого мозга или куда более примитивного нервного узла паука или муравья? Лишь общие и подчас смутные представления, сомнительные аналогии с вычисли- тельной машиной, отдельные успехи в понимании процессов передачи и обработки нервных импульсов. Как функционирует мозг, чем объяс- няется его гибкость и универсальность, его огромные возможности и где их границы? На эти вопросы нет ответов. Нет ответов и на многие, казалось бы, простые конкретные вопросы, например, каков носитель памяти. Память огромна, а выборка из нее быстра. Как это согласо- вать? Робототехника столкнулась с новой проблемой — проблемой организации и управления движениями. Она оказалась непомерно' сложной даже в рамках проблемы «глаз — рука». Мы организуем свои сложнейшие движения подсознательно, сознание лишь формирует об- щий их план, их целевое назначение. Оступившись, мы автоматически принимаем необходимые меры, и если все же падаем, то пугаемся уже после падения. Проблема воссоздания в машине образа окружающего нас мира и организации в нем движений оказалась настолько сложной, что эта сложность навела на мысль, что в процессе эволюции наш мозг сфор- мировался, решая проблемы поиска пищи, активного ухода от врагов и поиска лучших условий жизни. То есть что он сформирован и при- способлен в первую очередь для решения этих сложнейших проблем ориентации и движения в пространстве, а наше сознание и логичес- кое мышление — лишь побочный результат. Может быть, это и так, а, может быть, это так лишь до понимания следующих сложных проб- лем, поставленных эволюцией перед живыми организмами на земле. Таким образом, жизнь и ее тайны, мозг и его загадки — это много- гранные комплексные проблемы, которые в значительной мере — про- блемы комплексной науки кибернетики. Постижение этих тайн и зага- док будет стимулом и трамплином для самой теории управления. Теперь несколько слов о лечении и о проблемах человека-операто- ра. Лечение можно трактовать как задачу организации воздействий на наш организм — управляющих воздействий, которые бы вывели его из болезненного состояния. Такая постановка задачи хотя и открыва- ет широкие перспективы, но эффективно и с пользой реализована сей- час только в состояниях глубокой подавленности организма, когда
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 23 его функционирование приобретает весьма упрощенный вид. Такая упрощенность возникает в результате очень тяжелых травм, переох- лаждений, глубоких оперативных вмешательств, например, операций на сердце. При этом сознание полностью выключено, вегетативные функции сужены и подавлены, физиологические функции разобщены и не координированы. Организм почти мертв, жизнь еле теплится в нем. Его нужно вывести из этого состояния, вернуть его к жизни — это называется реанимацией. Она должна осуществляться быстро, точно и с учетом многих факторов. Уже сейчас в решении задач поддержания жизни в ее критическом состоянии и в реанимации существенную поль- зу оказывают средства кибернетики, ее автоматические устройства, ее алгоритмы управления и ее вычислительные системы. Эта эффектив- ная помощь несомненно будет расширяться, и это тоже одна из проб- лем, стоящих перед теорией управления. Очень многообразный и сложный комплекс проблем выдвигают пе- ред кибернетикой (биологической кибернетикой) вопросы организации человеко-машинных комплексов, проблемы человека-оператора. Как довести до человека-оператора всю необходимую информацию, как увериться, что он ее воспринял, как облегчить ему задачи принятия решений, как проверить, что оператор не ошибся из-за временного не- внимания, усталости или болезни? Итак, перед теорией управления много нерешенных малых, средних н больших проблем. На нее возлагаются большие надежды, она в авангарде научно-технического прогресса нашего времени. При зарождении кибернетики ключевыми ее понятиями были ин- формация, алгоритм, изоморфизм и обратная связь. Изменились ли они за истекшее время или к ним что-то добавилось? Да, добавилось, и это добавление очень существенное — оптимизация. Это веление времени. Мы хотим все делать наилучшим образом, мы не можем себе позволить делать что-либо плохо. Наши резервы не безграничны. Мы вынуждены экономно потреблять природные ресурсы, уменьшить загрязнение природы, для этого мы должны оптимизировать функцио- нирование нашей промышленности и экономики, для этого следует все делать оптимальным образом. Нужно сказать, что стремление к оптимизации заложено в человеке природой. Идя с работы домой или из дома на работу, вы выбираете оп- тимальный путь либо из соображений минимизации временных зат- рат, минимизации риска непредвиденных обстоятельств и опоздания, максимизации приятности пути, либо из каких-то компромиссных со- ображений. Очень отчетливо проявляется заложенное в нас стремле- ние к оптимизации в наших неосознаваемых действиях: в ходьбе, в срезании углов при поворотах, в желании некоторых (увы!) пересечь по диагонали газон, а не идти по огибающей его тропинке, в наших профессиональных движениях, во всем том, что получило наименова- ние экономности движений. Понятия оптимальности и оптимизации были и тридцать и триста Дет тому назад. Всякое управление имеет своей задачей достижение
24 ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ какой-то цели. И тогда во многих случаях эти цели состояли в миними- зации некоторых функционалов. Но эта минимизация не была во гла- ве, она выступала лишь как средство формализации понятия цели. Сейчас это не так, сейчас оптимизация и стремление к ней — ведущая идея. Система управления должна функционировать не как-нибудь, а оптимальным или хотя бы квазиоптимальным образом. А это повлекло за собой далеко идущие последствия. Уже давно известно, что общность способа решения находится в противоречии с его простотой. Сужая задачу, можно упростить алгоритм ее решения; расширяя ее постановку, мы, как правило, усложняем алгоритм ее решения. Более того, для очень общих задач алгоритм решения может даже отсутствовать. Как же согласовать стремление к возможно более простому решению со стремлением к достаточно общему решению? В применении к теории управления эта проблема выглядит так: как согласовать возможность функционирования системы управления в возможно более разнообразных условиях с возможно лучшим ее функ- ционированием в каждом конкретном случае? Разрешение этой' конфликтной ситуации возможно с помощью двухуровневой организации управления, при которой второй уро- вень управления адаптирует первый уровень к конкретным условиям. Эту адаптацию можно представить себе как некоторую перестройку параметров или переход к новой структуре в системе управления пер- вого уровня. Можно ее представить и так, что имеется некоторый на- бор систем управления и в каждом конкретном случае управление вто- рого уровня выбирает наиболее подходящую. Перестройка первого уровня управления может происходить на основе выяснения, каковы конкретные условия работы системы по каким-то их признакам. Например, шофер автомашины меняет переда- чу в зависимости от дороги, ее подъема или спуска. Эта перестройка может носить поисковый характер, и тогда ее на- зывают обучением. Нужно сказать, что сейчас нет четкой терминоло- гической грани между адаптацией и обучением, но можно ее видеть в отмеченном различии алгоритма перестройки первого уровня, хотя глубина перестройки первого контура в этом словоупотреблении так- же играет определенную роль. Таким образом, стремление к улучшению и оптимизации сущест- вующих ранее систем управления привело к идее их адаптации и обучения, к построению адаптивных и самообучаемых систем. Наряду с этим стали возникать и совершенно новые адаптивные и самообучаемые системы. А это уже существенный скачок. Это переход от управления по заданным алгоритмам к созданию систем, которые сами ищут и формируют свой алгоритм управления. Конечно, делают они это тоже на основе каких-то алгоритмов — алгоритмов адаптации и обучения. Это кардинальное различие, оно существенно изменяет как содержание теории управления, так и ее технические возможности. Отметим, что поиск нужного алгоритма управления может быть типа проб и ошибок, типа более или менее быстрого самообучения, но
ГЛ. 1. ПРЕДМЕТ И СОДЕРЖАНИЕ ТЕОРИИ УПРАВЛЕНИЯ 25 он может носить и характер обучения некоторым учителем, который показывает, как нужно делать, или подсказывает, когда делается вер- но и когда неверно. Конечно, обучение с учителем, как правило, быст- рее ведет к цели. Но всему не научишь, слишком всего много, не все можно предвидеть. А иногда учителя нет и не у кого учиться. Так что самообучение тоже необходимо. По-видимому, самое существенное, что характеризует современный этап развития теории управления,— это оптимизация, адаптация и обучение и связанное с этим расширение возможностей систем управ- ления. Теория оптимизации возникла вне теории управления в виде клас- сического вариационного исчисления и минимизации функций, в виде линейного и нелинейного программирования. Однако современные методы оптимизации динамических процессов, и в первую очередь принцип динамического программирования Р. Веллмана и принцип максимума Л. С. Понтрягина, уже возникли в ее недрах. С теорией управления связаны и новые задачи оптимизации на сетях и графах. Таким образом, к своим старым ключевым словам: информация, алгоритм, изоморфизм и обратная связь теория управления добавила еще оптимизацию, адаптацию и обучение. ИНФОРМАЦИЯ, АЛГОРИТМ, ИЗОМОРФИЗМ, ОБРАТНАЯ СВЯЗЬ, ОПТИМИЗАЦИЯ, АДАПТАЦИЯ И ОБУЧЕНИЕ — вот ключевые понятия современной теории управления. Настоящая книга тоже имеет свое ключевое понятие СОСТОЯНИЕ, которое лежит в основе понятия динамической системы и дает полную информацию для управления.
ГЛАВА 2 ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ § 1. Законы движения планет Солнечной системы. Механическое состояние и уравнения Ньютона, Лагранжа и Эйлера По-видимому, первыми математическими моделями, позволяющими прогнозировать будущее, были модели движения планет Солнечной системы. И это не случайно, так как интерес к построению системы движения небесных тел был вызван насущной практической необхо- димостью и прежде всего необходимостью определять и измерять вре- мя. Это было нужно и для земледелия, и для скотоводства. Нужно было знать, когда сеять («не посеешь — не пожнешь»). Нужно было знать, когда перегонять стада на пастбищах, когда начинать и кончать ту или иную работу. Важно было знать, когда наступают засушливые, а когда дождливые периоды, когда разливаются реки, когда наступа- ют холода и т. п. Наблюдая за небесными телами, люди поняли, что все эти явления как-то связаны с их движением. Стали подмечать за- кономерности их движения и строить различные системы мира, кото- рые не только проложили дорогу системе, основанной на теории тяго- тения Исаака Ньютона (1643—1727), но в значительной мере определи- ли все развитие точного естествознания и наши общие представления о характере закономерностей окружающего нас мира. Поэтому, про- слеживая эволюцию наших взглядов на закономерности движения не- бесных тел, мы в значительной мере прослеживаем и эволюцию, и фор- мирование наших общих естественнонаучных представлений. Уже птолемеева теория движения небесных тел носила харак- тер математической модели, но модели описательного геометрического характера. Это отвечало состоянию астрономии того времени, которая была чисто описательной наукой, основанной только на непосредствен- ном наблюдении. Если наблюдать за ночным небом, то кажется, что звезды прикреп- лены к небесному своду, который вращается вокруг Земли. Именно так считали астрономы древности, которые ставили в центр мира не- подвижную Землю, а вокруг нее — вращающуюся небесную сферу с прикрепленными к ней звездами. Но уже тогда были известны пять небесных тел (помимо Солнца и Луны), движение которых не уклады- валось в эту схему. Они хоть и участвовали в суточном вращении небо- свода, но их положение относительно звезд и относительно друг друга менялось довольно причудливым образом. Древние греки назвали эти небесные тела планетами, что по-гречески означает «блуждающая звезда», а древние римляне дали им имена в честь своих богов: Мерку-
§ 1. МЕХАНИЧЕСКОЕ СОСТОЯНИЕ 27 рий, Венера, Марс, Юпитер, Сатурн. Именно с этими пятью планетами и стремлением дать истолкование их движения связано дальнейшее развитие астрономии и появление различных моделей Вселенной, из которых наиболее полной была геоцентрическая система мира Клав- дия Птолемея (II век н. э.). 'Ъ этой модели сконцентрировались, по существу, все описания дви- жения планет, которые сложились к этому времени. В ее основе лежа- ли представления о том, что планеты —• идеальные шары и их движе- ние складывается из комбинаций равномерных круговых движений. Каждая планета, а также Солнце и Луна, совершает круговое движе- ние вокруг некоторого центра, который в свою очередь вращается по некоторой окружности вокруг неподвижной Земли. При соответствую- щем подборе радиусов кругов и скоростей модель Птолемея действи- тельно отражала основные особенности видимых движений планет. Она позволила с большой точностью измерять время, предсказывать лунные и солнечные затмения, создать календарь, который в даль- нейшем не претерпел существенных изменений. По мере уточнения и расширения наблюдаемых данных для их согласования с теорети- ческими число кругов птолемеевой системы (циклов, эпициклов, ги- перциклов) увеличивалось и приводило к все большему и большему ее усложнению. Кроме того, в птолемеевой системе мира, описывающей видимые движения планет, имелись закономерности, обусловленные отражением движения Земли вокруг Солнца и вокруг своей оси на движениях всех пяти планет, которые этой теорией никак не объяс- нялись. Следующий шаг в развитии представлений о строении мира связан с именами Николая Коперника (1473—1543), Галилео Галилея (1564— 1642) и Иоганна Кеплера (1571—1630). К этому времени система Пто- лемея , незыблемо просуществовавшая 14 веков, была уже не в состоя- нии объяснять растущее число фактов наблюдательной астрономии и становилась тормозом в развитии как астрономии, так и всего естество- знания. Чтобы двигаться вперед, надо было ее заменить. И этот шаг был сделан польским ученым Николаем Коперником, открывшим гели- оцентрическую систему мира. Основным в его системе было то, что центром Вселенной является не Земля, а Солнце. Все планеты, и в том числе Земля, вращаются вокруг него, кроме того, Земля еще вращает- ся вокруг своей оси. Гелиоцентрическая система Коперника несрав- нимо проще, со значительно меньшим числом кругов, объясняла види- мые движения планет. Однако она противоречила естественному пред- ставлению о Земле как о центре Вселенной, являющемуся церковной догмой. Удар по этой догме нанес итальянский ученый Галилео Га- лилей. С помощью телескопа собственной конструкции Галилей сде- лал ряд важных наблюдений, подтвердивших систему Коперника, и, в частности, обнаружил четыре спутника Юпитера, разбив догмати- ческое утверждение, что центром вращения может быть только Земля. Избавил от кругов систему Коперника Иоганн Кеплер, установив три закона движения планет, и в том числе Земли. Согласно первому
28 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ закону Кеплера каждая планета двигалась по эллипсу, в одном из фокусов которого находилось Солнце. По эллипсу они двигались так, что в равные времена радиус-вектор Солнце — планета описывал равные площади. И, согласно третьему закону, квадраты времен обращения планет пропорциональны кубам больших полуосей эллип- сов, по которым они движутся. Все это поколебало и разрушило освященные церковью догмы о незыблемости и порядке мира, в центре которого находится Земля. Земля стала рядовой планетой, вместе с другими совершающей движе- ние вокруг Солнца. Спала завеса индивидуальности, неповторимости земных явлений и процессов, и был освещен путь к открытию основных законов естествознания, дающих общее объяснение земным и небесным явлениям и общее объяснение всем трем законам Кеплера. Так закончился целый период описательного изучения движения планет Солнечной системы. Итогом его была в целом правильная кар- тина строения мира и конкретные представления о движении планет, об их орбитах, периодах обращения и др., основанные на доступных тому времени наблюдениях. И хотя было непонятно, почему планеты движутся в соответствии с законами Кеплера, модель Коперника сыг- рала решающую роль в открытии закона всемирного тяготения и фор- мировании описания движения планет, которое легло в основу совре- менной математической модели Солнечной системы, основанной на тео- рии Ньютона. Как построить ньютоновскую математическую модель Солнечной системы? Прежде всего надо ее выделить и рассмотреть как изолиро- ванную систему. Итак — Солнечная система. Дальше надо отказаться от всего, что с точки зрения нашей задачи не важно, например: от влия- ния далеких звезд, есть ли жизнь на Марсе или нет, что делается на Земле и т. д. Поэтому все планеты Солнечной системы, их спутники и само Солнце мы будем изображать материальными точками, которые движутся, каждая по своей орбите. Такое представление планет поз- воляет ввести их описание S, состоящее из координат материальных точек и ик скоростей. Если перенумеровать все планеты и их спутники, то описание будет выглядеть так: У1, 21; ...; х„, уп, гп и yt, г,; ...; х„, у„, г„. Теперь — теория Ньютона. Что она дает? Она дает возможность найти оператор, с помощью которого по описанию S(t) в момент- вре- мени t можно найти описание S(Z+AZ) в будущий момент времени /+ +Д/. В соответствии со вторым законом механики и законом всемир- ного тяготения мы можем записать уравнения
§1. МЕХАНИЧЕСКОЕ СОСТОЯНИЕ 29 Здесь т.{ — масса i-й планеты, Гц — расстояние от i-й планеты до /-й, которое зависит от координат планет, и у — гравитационная постоян- ная. Систему Зп дифференциальных уравнений второго порядка (1.1) можно записать в виде системы 6п уравнений первого порядка = xi = ui, ..., (1.2) ra которая в свою очередь с помощью вектора S с компонентами xlt у1г «ь- • ! хп< Уп, гп’ • • •; и„, vn,wn записывается в виде одного векторного уравнения вида ^ = F(S), (1.3) где F (S)— вектор, определяемый вектором S. Из (1.3) следует, что вектор S(i+Ai) может быть найден через вектор S(Z): S(t + M) = S(t) + F(S)M+ ..., (1.4) т. е. любое последующее описание Солнечной системы, даваемое век- тором S, может быть найдено по любому предшествующему такому же описанию. С точки зрения теории дифференциальных уравнений — это Следствие теоремы о существовании и единственности решения задачи Коши для дифференциальных уравнений (1.2), а с точки зрения пони- мания движения Солнечной системы — это возможность прогнозиро- вания всего ее последующего движения по начальным данным. Факти- ческое решение задачи прогнозирования состоит в интегрировании уравнений (1.2). Задача, вообще говоря, весьма непростая и, как пра- вило, требующая использования вычислительных средств. Факт этой возможности отразим соотношением S(t + M) = T (M)S(t), (1.5) обозначающим, что по описанию S(t) в момент времени t с помощью Оператора Т(Д/) может быть при любом Д^О найдено описание S(Z+ ф-А/). Итак, мы установили, что описание S(t) движения планет Солнеч- ной системы обладает определенной полнотой в том смысле, что изме- нение его во времени им же определяется. Такое описание называют состоянием, а систему, к которой оно относится,— динамической сис- темой. Таким образом, динамическая система — это система, допус- кающая описание, являющееся состоянием. При этом существенно, что под полнотой описания имеется в виду не его широта и детальность, а только достаточность для определения его дальнейшего изменения по нему самому. Так, квантовомеханическое описание может не ка- заться нам полным, но оно образует состояние. Заведомо неполно лю- бое вероятностное описание, но оно тоже может образовывать состоя- ние. Некоторое соответствие между нашими интуитивными представ-
30 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ лениями о полноте и понятием полноты описания, образующего сос- тояние, имеется лишь в отношении механических и, возможно, электро- динамических систем, т. е. в рамках классической детерминистической физики. С теорией Ньютона не только непосредственные наблюдения давали «пищу» астрономии, значительное развитие получили и методы вы- числения орбит и движений тел Солнечной системы. Теоретические исследования математических моделей движения небесных тел и воз- можность прогноза их движения привели к ряду замечательных дости- жений, одним из которых было теоретическое открытие или, как гово- рят, «открытие на кончике пера» восьмой планеты Солнечной систе- мы — Нептуна. Именно для решения задач небесной механики Ньютоном были раз- работаны основы аппарата дифференциального и интегрального ис- числения и тем самым заложены основы математического анализа и всей высшей математики. И долго после Ньютона, вплоть до конца XIX века, высшая математика развивалась бок о бок с небесной меха- никой, дав науке много замечательных результатов и, в частности, аналитическую механику, теорию возмущений, теорию устойчивости и качественную теорию дифференциальных уравнений. Представление небесных тел как системы взаимодействующих ма- териальных точек позволило осмыслить и сформулировать понятие состояния для произвольной механической системы, позволило найти их описание и построить динамические системы механики. Сегодня ме- ханическую систему мы понимаем как совокупность взаимодействую- щих между собой материальных частиц. Наиболее характерными яв- ляются три типа механических систем, отвечающие различным идеа- лизациям. 1. Система материальных точек. Этот тип механической системы имеет место, когда число взаимодействующих частиц невелико и един- ственным характерным свойством их является масса. 2. Твердое тело. Число частиц велико, но все они «жестко» связаны друг с другом, так что расстояния между ними не меняются. 3. Газы, жидкости и упругие тела. Число частиц велико, связи между ними «нежесткие», и расстояния между ними могут меняться. Первые два типа систем объединены общим названием — дискрет- ные механические системы. Третий тип иногда называют распределен- ными механическими системами. Общую форму задания состояния и написания уравнений движе- ния для дискретных систем дал Жозеф Луи Лагранж (1736—1813). Согласно Лагранжу состояние S механической системы описывает- ся обобщенными координатами Qi, q2, . . ., qn и обобщенными скорос- тями <7i, q2, . . ., qn, а уравнения движения имеют вид 77^-^ = ° (i = 1, 2, ..., п). (1.6)
§ 1. МЕХАНИЧЕСКОЕ СОСТОЯНИЕ ЗГ Здесь L — функция Лагранжа, т. е. выраженная через обобщенные координаты и скорости разность кинетической и потенциальной энер- гий системы. tz dL Как известно, в новых переменных qlf q2, . . ., qn и р1^= —г—, ... ..., рп — —-—уравнения Лагранжа записываются в форме уравне- dqn ннй Гамильтона дН дН .. q'1^ dPi' Pi~ dqi’ где H — функция Гамильтона, которая представляет собой полную энергию системы (кинетическую и потенциальную), выраженную че- рез обобщенные координаты qt и обобщенные импульсы pt. Из возмож- ности записи уравнений механики в виде (1.7) следует, что за состоя- ние механической системы можно принять совокупность ее обобщен- ных координат и импульсов. Если ввести вектор состояния S(qlt ри . . .ъ р„), то уравнение (1.7) можно опять записать в виде (1.3). При этом . дН дН дН дН F(S) будет вектором с компонентами , . .., Как следствие уравнений (1.6) или соответственно (1.7), для изменения состояния дискретной механической системы имеет место соотноше- ние (1.5). Итак, для любой системы материальных точек и твердых тел ясно, что такое механическое состояние, каким дифференциальным уравнениям оно удовлетворяет и как построить оператор Т (Д2), связы- вающий состояние в моменты времени t и /+Д^. Лагранж пытался применить разработанный им метод составления уравнений движения дискретной механической системы к изучению, движений струны и даже жидкости, но полной ясности он не достиг.. Уравнения движения идеальной несжимаемой жидкости вывел Лео- нард Эйлер (1707—1783). Они представляли собой дифференциальные, уравнения в частных производных вида fy + (Vv) v = — ~Vp, divv = 0. (1.8> Вэтих уравнениях v(x, у, z\ t) — вектор скорости течения жидкости в точке (х, у, г) в момент времени t, р и р (х, у, z; f) — постоянная плот- ность жидкости и соответственно давление жидкости в точке (х, у, г) в момент времени t. Первое уравнение Эйлера (1.8) выражает второй, закон Ньютона для любой движущейся частицы жидкости, второе — так называемое уравнение неразрывности, выражающее сохранение- массы любой движущейся частицы жидкости. Если к уравнениям (1.8У добавить краевые условия на границе рассматриваемого объема жид- кости и начальные условия (поле скоростей течения жидкости в началь- ный момент времени), то, как оказывается, получающаяся задача имеет единственное решение, т. е. по начальному полю скоростей на- ходится поле скоростей течения жидкости в любой последующий мо- мент времени. Из этого следует, что поле скоростей v (х, у, в; /) являет-
32 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ •ся состоянием S (t) и что существует оператор Т(АО такой, что S(t + M) = T(bt)S(t). (1.9) Этот вывод несколько неожиданный. Согласно предыдущему мож- но было бы ожидать, что понятие механического состояния жидкости должно включать в себя положение частиц жидкости и их скорости. Уравнения Эйлера приводят к выводу о том, что состоянием являются уже только скорости всех частиц жидкости — поле скоростей текущей жидкости. Однако для упругой сплошной среды это уже не так, в опи- сание ее состояния входят не только скорости, но и положение частиц. и(х Так что следующая из уравнений Эйле- ра возможность исключения из состоя- <<: Т___ния положений частиц является спе- a=Z7 цифической особенностью жидкой сплош- рис. 2.1 н°й среды. Эта особенность состоит в идентичности жидкости как механиче- ской системы самой себе после любых ее перемещений. Отказ от предположений идеальности и несжимаемости жидкости (газа) приводит не только к усложнению уравнений Эйлера, но и рас- ширению описания, отвечающего состоянию. Если сохранить предпо- ложение о несжимаемости, но учесть вязкость жидкости, то уравнения Эйлера заменятся уравнениями Навье — Стокса Лжг 1 57 + (Vv)v=— — Vp + vAv, divv = 0, содержащими новый член vAv, учитывающий силы вязкости. Отказ от несжимаемости влечет необходимость расширения понятия состояния и включения в описание жидкой сплошной среды не только ее скоростей, но и термодинамического описания ее в каждой точке, т. е. полей давлений, плотностей и температуры. В отдельных случаях здесь возможны упрощения, однако в общем случае необходимо ис- пользование термодинамических соотношений между давлением, плот- ностью и температурой и уравнений распространения тепла. Перейдем к упругой сплошной среде. Ограничимся очень простым примером колебаний закрепленной на концах натянутой струны (рис. .2.1). Будем описывать струну в каждый момент функцией и(х, t), опре- деляющей отклонение точек струны от равновесного положения, и функцией v(x, t), определяющей скорости этих точек струны. Изме- нение этих функций во времени описывается дифференциальными уравнениями вида dv „ д2и ___— а* — dt дх2' ди di = V. К этим уравнениям надлежит присоединить условия на границах «(О, 0=0, и(1, 0=0. После этого задание и(х, i) и и(х, 0 в некоторый момент времени t вместе с уравнениями и граничными условиями опре-
§2. ЭЛЕКТРОМАГНИТНОЕ ПОЛЕ И УРАВНЕНИЯ МАКСВЕЛЛА 33 деляет смешанную задачу математической физики, решение которой существует и единственно, т. е. если знать форму струны и скорости ее точек в какой-то начальный момент времени, то их можно найти в лю- бой последующий момент времени. Это означает, что пара функций и(х,) v(x) является состоянием струны, а решение описанной смешанной задачи математической фи- зики дает оператор, связывающий настоящее состояние с будущим. § 2. Электромагнитное поле и уравнения Максвелла Представляющиеся нам сейчас естественными законы механики возникли не сразу. Поначалу казалось очевидным, что силы вызывают движение, а не изменяют его. Казалось, что отсутствие сил ведет к прекращению движения. Примитивно осмысливаемый земной опыт, ка- залось бы, только подтверждал эту точку зрения. «Опыт небесный» учил совсем другому, но для этого нужно было принять общность за- конов, земных и небесных. Но как бы там ни было, законы механики сравнительно легко синтезировались с привычными представлениями и привели к детерминистически механистическому восприятию мира. И так же, как в свое время Архимед воскликнул: «Дайте мне точку опоры и я сдвину землю!», Лаплас сказал, что если ему зададут во всех деталях описание мира, то он предскажет его будущее. Описание понималось как механическое. Все состоит из частиц, а частицы дви- жутся по законам механики. Частиц очень много, и они разные. Разнообразие частиц и их дви- жений — это и есть окружающий нас мир. Может быть, поэтому перво; начально электрические явления воспринимались как фокусы. Ведь фокус — это когда мы видим действия и не понимаем или не улавли- ваем их причинную обусловленность и взаимосвязь. Понятый фокус — это уже не фокус. «Разоблачение» электрических фокусов оказалось делом очень непростым. Для этого нужно было прибегнуть к совер- шенно новым непривычным представлениям об электромагнитном поле, которое непосредственно никогда не встречалось и опыт общения с которым отсутствовал. Для этого нужно было погрузиться в мир эк- спериментов с электричеством и постигнуть его. И это сделал Майкл Фарадей (1791—1867). Он понял, что «фокусы» электричества объяс- няются особым состоянием окружающего пространства, которое наз- вал электромагнитным полем. Введенные Фарадеем понятия электрической индукции и электро- магнитного поля сделали возможным построение математической моде- ли электродинамических систем. Окончательный ее вид был найден Джеймсом Кларком Максвеллом (1831—1879) в виде уравнений в ча- стных производных, получивших в дальнейшем его имя. Согласно этим уравнениям все физические величины, связанные с электродинамической системой, определяются через ее электромагнит- ное поле, изменение которого во времени им же определяется. Поэтому электромагнитное поле S является состоянием и изменение его во
34 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ времени описывается уравнением вида (1.3): f = ^(S). (2.1) Электромагнитное поле S можно определить двумя векторными поля- ми: напряженностью электрического поля Е и полем магнитной ин- дукции В. Так что в любой момент времени t состояние электродинами- ческой системы определяется совокупностью двух векторных полей Е(х, у, z; I) и В (%, у, z; t). Физическое описание электродинамической системы помимо полей напряженности электрического поля и магнит- ной индукции включает в себя поля электрической индукции D (х, у, г; t) и напряженности магнитного поля Н(х, у, z; t), плотность токов проводимости j (х, у, z; t), объемную плотность свободных зарядов р(х, у, z; t). Эти величины связаны между собой так называемыми ма- териальными уравнениями, которые в простейших случаях записы- ваются в виде D = tE, B=uH, j = oE, (2.2) где е, р, — диэлектрическая и магнитная проницаемости, о — удель- ная электропроводность, и двумя дифференциальными соотношениями div В = 0, divDs=4np, (2.3) первое из которых отражает факт отсутствия свободных магнитных за- рядов, второе — закон Гаусса для электрического поля. Уравнения, определяющие изменение состояния во времени, имеют = —4nj + crotH, =— crotE. (2.4) Первое из этих уравнений выражает связь полного тока с магнитным полем, второе — закон электромагнитной индукции. Уравнения (2.2)—(2.4) таковы, что знание начальных значений по- лей Е и В позволяет найти их в любой последующий момент времени и в любой момент времени через них найти другие поля D, Н, j и р. Собственно, именно это свойство системы.уравнений (2.2)—(2.4) яв- ляется основанием того, что совокупность полей ЕД В является сос- тоянием S электродинамической системы. Ясно, что возможны и другие варианты конкретного задания со- стояния S электродинамической системы, например, с помощью полей D и Н или Е и Н. Состояние S можно задать и с помощью совсем дру- гих величин, например потенциалов. Самое существенное не в конкрет- ном способе задания S, а в том, что существует такое описание S, через которое могут быть выражены все остальные физические величины и которое само подчиняется уравнению вида (2.1). Этот факт делает электродинамическую систему динамической системой, т. е. системой, для которой существует полное описание, называемое состоянием, изменение которого во времени им же определяется.
§ 2. ЭЛЕКТРОМАГНИТНОЕ ПОЛЕ И УРАВНЕНИЯ МАКСВЕЛЛА 35 Как открытие Нептуна было триумфом теории Ньютона, так от- крытие электромагнитной природы света было триумфом теории Мак- свелла. И то, и другое было «сделано» на бумаге кончиком пера и лишь затем подтверждено наблюдением и экспериментом. Собственно, это было не только обнаружение электромагнитной природы света, это бы- ло открытие целой гаммы электромагнитных волн, от низкочастотных радиоволн до проникающего рентгеновского излучения и у-лучей, в которой видимый свет занимает лишь свое скромное место. Попутно интересно отметить, что если после теоретических расче- тов Леверье астрономы стали искать и нашли на небе новую планету Нептун (Адамсу, несколько раньше Леверье сделавшему с помощью вычислений то же самое открытие, повезло значительно меньше), то Г. Герц предпринял свои, ставшие знаменитыми, эксперименты для опровержения малопонятной и необоснованной теории Макс- велла. Только под давлением неожиданных результатов эксперимента он признал правоту теории Максвелла и подтвердил существование электромагнитных волн, предсказанных Максвеллом. Как прийти от уравнений Максвелла к электромагнитной природе света? В прямом смысле это сделать нельзя, но можно показать, что существуют прямолинейно распространяющиеся электромагнитные волны, скорость распространения которых близка к измеренной ранее скорости света. Пусть поля Е и Н зависят только от координаты z; пусть только компонента Ех и соответственно Н векторов Е и Н отличны от нуля: пусть еще s=p,=l, о=0. Тогда из (2.2)—(2.4) непосредственно следует, что дЕх дНу дНу _ ~дЕ~ С dz ' dt ~ С дг (2.5) и что при всех t Ey=Ez=0, HX—HZ=Q. Решением уравнений (2.5), в частности, являются гармонические бегущие плоские волны Ех = Ну = A sin со (z—ct), распространяющиеся вдоль оси z со скоростью с. В каждой точке во
36 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ времени электрические и магнитные поля Ех и Ну меняются с частотой <о и амплитудой А. Вектор напряженности электрического поля Е(ЕХ, 0, 0) ортогона- лен вектору напряженности магнитного поля Н (0, Ну, 0), так что в каждый момент времени такая электромагнитная волна имеет вид, по- казанный на рис. 2.2. В заключение отметим, что уравнения Максвелла могут быть запи- саны в лагранжевой форме. В частном случае так называемой квази- стационарной электродинамики, включающей в себя всю электротех- нику и частично радиотехнику, уравнения электромеханической сис- темы записываются в виде обычных уравнений Лагранжа, с той раз- ницей, что в функции Лагранжа под кинетической энергией имеется в виду еще и энергия магнитного поля, а потенциальная энергия вклю- чает не только механическую энергию, но и энергию электрического поля. Такие обобщенные на электромеханические системы уравнения Лагранжа получили название уравнений Лагранжа — Максвелла. § 3. Законы макромира, микромира и космоса Механика Ньютона — Лагранжа и электродинамика Фарадея — Максвелла относятся к так называемой классической физике. Был пе- риод, когда казалось, что в физике уже нечего открывать. Все в прин- ципе понятно, все — лишь многообразные следствия известных общих законов. Это ощущение не ново, оно возникало и будет возникать каж- дый раз после создания обобщающей теории, охватывающей все из- вестные факты. Но оно длится недолго. Новые факты не заставляют себя ждать. Классическая физика очень скоро пришла с ними в проти- воречие. Эти новые факты шли из микромира и из физики высоких ско- ростей, затем они стали приходить и из космоса. Цель дальнейшего изложения ни в коей мере не относится к описа- нию этого бурного героического периода ломки и созидания. Она сос- тоит в том, чтобы отметить, что, хотя все рушилось и переосмыслива- лось, понятие состояния и динамической системы выжило и сохрани- лось и тем самым стало еще более всеобъемлющим и значительным. Только в выявлении этого факта состоит цель дальнейшего изложения. Микромир — это мир элементарных частиц, мир малых масштабов порядка 10“8—10-13 см. Он недоступен нашему непосредственному восприятию, у нас нет никакого опыта непосредственного общения с ним. Так стоит ли удивляться, что он устроен совсем не так, как наш макромир? Скорее следовало бы удивляться обратному. Но как бы то ни было, и в этом необычном микромире есть полное описание, называе- мое состоянием. Оно определяется так называемой функцией ф. Функ- ция ф — комплексная. Ее изменение во времени определяется уравне- нием Шредингера 1/1^=//ф, (3.1) где /7ф — некоторый оператор И от функции ф.
§3. ЗАКОНЫ МАКРОМИРА, МИКРОМИРА И КОСМОСА 37 С помощью функции ф можно найти все физические величины. То, как они определяются и что при этом определяется, удивительно и необычно. Например, нельзя одновременно определить положение и скорость элементарной частицы. В общем случае определяются лишь их плотности вероятности. Но можно найти спектр-излучения атома, теоретически найти все линии его спектра. Можно удивляться первому, но нужно иметь в виду, что обычные известные наблюдаемые нами яв- ления — это некоторые усредненные эффекты, где стираются индиви- дуальности и проявляются законы больших чисел, т. е. вероятностей поведения отдельных индивидуумов. Можно специально придумать эксперименты, где индивидуальное поведение должно проявить себя. Такие эксперименты есть, их данные очень непонятны, но соответствуют тому, что можно получить из функции состояния ф. Так, если на пути пучка электронов поставить экран с двумя отверстиями, сквозь которые они могут пролетать, то на стоящей за экраном фотопластинке в разные ее места будут попадать электроны, вызывая выделение серебра и почернение пластинок. Об- щая картина этого почернения похожа на дифракционную картину от излучения когерентных источников света из точек, отвечающих от- верстиям. Попробуйте понять, как это происходит. Ведь выходит, что электрон, пролетая через одну дырку, «знает» о существовании другой. Но с точки зрения функции состояния ф так и должно быть, ибо она определяет для каждой индивидуальной частицы лишь вероятность попадания ее в то или иное место фотопластинки, и эта вероятность зависит от обеих дырок. Таким образом, для микромира понятие состояния сохранилось, а характер описания существенно изменился: из детерминистического он стал стохастическим. Физика высоких скоростей привела к новому пониманию прост- ранства и времени — к специальной теории относительности, заменив- шей отделенные друг от друга понятия пространства и времени общим понятием пространства и времени, общим пространственно-временным миром. В этом мире время жизни зависит от скорости движения. Быст- ро летящая частица живет дольше летящей медленно. Скорости не складываются, точнее, они складываются очень удивительным обра- зом так, что скорость, большая скорости света, невозможна. Но на общем понятии состояния это никак не сказалось. Раньше оно должно было быть инвариантно относительно преобразований Галилея, а те- перь — преобразований Лоренца. Это, конечно, повлекло изменение его конкретного вида. В частности, изменился вид функции Лагранжа, а сами уравнения сохранились. Но само понятие состояния выжило, с ним ничего не произошло. А как быть с общей теорией относительности? Где в ней понятие состояния? Общая теория относительности связала пространственно-времен- ную геометрию с расположением масс. Задание пространственно-вре-
38 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ системы меннбй геометрии определяет расположение масс, расположение масс определяет геометрию пространственно-временного мира. Пространственно-временной мир общей теории относительности имеет риманову геометрию, а риманова геометрия определяется сво- ей метрикой и порождаемыми ею тензорами аффинной связности и кри- визны. Так что мир общей теории относительности описывается неко- торыми тензорами римановой геометрии. Вот совокупность этих тен- зоров и есть описание Г пространства и времени в общей теории от- носительности. Согласно уравнению Эйнштейна изменение Г им же самим определяется, это находится в полной аналогии с тем, как в нью- тоновском мире движение масс ими же определяется. При этом необ- ходимо иметь в виду, что уравнения Эйнштейна общей теории относи- тельности второго порядка по времени (как, впрочем, и уравнения Ньютона) относительно Г, и поэтому определение последующих его значений требует знания не только начального значения Г, но и ско- ростей изменения Г. То есть понятие состояния S должно включать в себя описание Г и dV/dt. Это опять же в полной аналогии с теорией Ньютона. Однако содержания теорий Ньютона и Эйнштейна разли- чаются сильно. Состояние в теории Ньютона касается только располо- жения масс; состояние в теории Эйнштейна описывает глобальную гео- метрию пространственно-временного мира. Эти различия существенны. Пространство и время в теории Ньютона неизменны, в теории Эйнштей- на они меняются и мир может деформироваться, сжимаясь и расширя- ясь. Принято, что сейчас мы находимся в фазе расширения. Все последние годы своей жизни Эйнштейн отдал единой теории поля. С излагаемой точки зрения он стремился к отысканию такого полного описания мира S, которое, с одной стороны, было бы состоя- нием, а с другой — определяло бы все известные нам физические ве- личины. §4. Модели игр. Марковские системы Пусть два человека играют в угадывание. Один из них «загадываю- щий» — либо зажимает в кулак пятак, либо нет. Другой игрок — «уга- дывающий» — отгадывает — есть пятак у «загадывающего» или его нет. Если «угадывающий» угадал, то он выигрывает; если не угадал, то выигрывает «загадывающий». Можно ли как-то формализовать такую игру, т. е. выбрать для нее описание и построить математическую модель? Понятно, что пока нель- зя. Мы слишком мало знаем об игроках. Мы не знаем законов загады- вания и отгадывания, т. е. стратегии игроков. Стратегии игроков могут быть очень сложными, зависящими от психологических нюансов их поведения, от их чувств и настроения. Все это в деталях учесть очень трудно. Это трудно даже просто описать. Попробуем учесть простые мотивы поведения игроков, упрощая и идеа- лизируя их. У разных людей этот основной мотив не один и тот же. «Загадывающий» может, например, повторять свое действие, если вы-
§4. МОДЕЛИ ИГР И МАРКОВСКИЕ СИСТЕМЫ 39 V S) Рис. 2.3 играл, и менять, если проиграл. Аналогичной может быть и стратегия «угадывающего»: он повторяет свое действие, если в предыдущий раз оно принесло ему выигрыш, и меняет его, если в предыдущий раз оно привело к проигрышу. Таких игроков, которые твердо уверены, что при выигрыше надо повторять ход, а при проигрыше менять его, мож- но было бы назвать «простаками». Такое поведение игроков можно было бы назвать и «прямолинейным». Возможно, что игроки при удачах не меняют своих действий, а при неудачах делают это не сразу, а, на- пример, только после двух неудач подряд. Возможны и стратегии с хитростями, когда, даже выиграв, игрок, чтобы обмануть противника, меняет свое действие, а проиграв, его не меняет. Примем для наших игроков такие примитивные стратегии и попытаемся дать им математи- ческие описания. Начнем с «простака». Пусть ради определенности этот простак — загадывающий. Тогда загадывающий может находиться только в двух состояниях: он уверен, что нужно взять в кулак пятак, либо /'"'ч уверен, что это делать не следует. Обо- \ А / значим эти состояния через х+1 и x_v Находясь в состоянии x_lt он не берет монету, а в состоянии х+1 он зажимает ее в кулак. При выигрышах простак за- гадывающий не меняет своего состояния, т. е., будучи в х_1( остает- ся в x_i, а будучи в х+1, остается в х+1. Напротив, при проигрыше он его сразу меняет, с х_г на х+1 и с х+1 на х_г. Мы полностью описали стратегию простака. В качестве ее мо- дели может служить автомат с двумя внутренними состояниями х_± и х+1 и двумя входными действиями: выигрыш (+1) и проиг- рыш (—1). Выходные действия автомата отвечают следующему оче- редному ходу: в состоянии Х-.±—это не брать пятак (—1), а в со- стоянии х+1—взять и зажать его в кулак (-|-1). Состояния автомата и х+1 можно изобразить точками, а переходы из одного состояния в другое—дугами, идущими из одной точки в нее же или в другую (рис. 2.3). Получившийся геометри- ческий образ называется графом: точки x_j и х+1—это его вершины, дуги, соединяющие эти точки,—его ребра. Примем описанную стратегию для загадывающего. Для угады- вающего возьмем чуть более сложную модель стратегии с четырьмя внутренними состояниями: г/_2 — уверен, что монеты нет, —ду- мает, что монеты нет, но сомневается, г/+1—думает, что монета есть, но не уверен, у+2— уверен, что монета есть. Смену внутренних со- стояний угадывающего в зависимости от того, выиграл он или про- играл, зададим в виде графа рис. 2.4. Согласно этому графу при выигрыше он укрепляется в своем мнении, т. е. из г/.j переходит в у_2, из у+1 — в у+2 или остается при нем (у_2-^у_2, у+2—+у+2). При проигрыше угадывающий в состояниях у_2 и у+2 меняет свое мнение не сразу, переходя в состояния у_г и у+1 соответственно, а смена состояний у_г и z/+] происходит так же, как у загадываю-
40 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМ11Ч ЕСКОЙ СИСТЕМЫ щего. Действия или ходы угадывающего также определяются только его внутренним состоянием. В состояниях у_2 и у_1 он говорит, что монеты в кулаке загадывающего нет, а в состояниях у+1 и у+2, О) о). Рис. 2.4 что монета есть. Ясно, что угадывающий тоже «простак»: при вы- игрыше он ведет себя так же, как загадывающий; при проигрыше в состояниях у_2 и z/+2 он не сразу меняет свое действие на про- „ „ , „ „ „ „ „ тивоположное, а только после повтор- «л 1 У— "г ^—1 У—1 1 У+1 &—1 У+7 'т’ * о п-—-—я ного проигрыша. Такого «простака» / / можно было бы назвать «памятливым». / X “ Итак, мы формализовали игроков. X———о------------cf Каждый игрок — это автомат (система) со +?у-г своими внутренними состояниями, смена Рис. 2.5 которых происходит в соответствии с гра- фами рис. 2.3 и 2.4 в зависимости от результатов игры. Теперь, опираясь на такое описание, попробуем построить математическую модель игры. Рассмотрим систему «зага- дывающий— угадывающий». Зададим ее внутренними состояниями, каждое из которых определим как совокупность xiy yt возможных внутренних состояний загадывающего и угадывающего. Таких внут- ренних состояний будет восемь:' х_г, у_2, х_г,у_у, у+1-, х_л,у+2\ x+i, У-г', х+и У-1', x+i, У+У, х+1,у+2- Смена внутренних состояний введенной системы определяется по графам смен внутренних состо- яний загадывающего и угадывающего и показана на рис. 2.5. На- пример, если загадывающий находится в состоянии а угадыва- ющий— в состоянии у_2, то выигрывает угадывающий; при этом загадывающий переходит в состояние х+1, а угадывающий сохраняет состояние, т. е. состояние у_2 переходит в состояние х+1, у_2. На рис. 2.5 видно, что из каждой вершины графа выходит только одна стрелка, а это значит, что если задать начальное состояние систе- мы, то все будущие смены внутренних состояний игроков определяются однозначно, т. е. граф, изображенный на рис. 2.5, является геомет- рическим заданием оператора и построенная модель игры есть динами- ческая система, состояния которой описываются внутренним состоя- нием системы «загадывающий — угадывающий». На рис. 2.5 видно, что в игре (за исключением, возможно, одной партии) будет происхо- дить циклическая смена внутренних состояний. Цикл состоит из 6 пар- тий, в 4 из них выигрывает загадывающий. Полученная динамическая система с содержательной стороны от- лична от систем, рассмотренных ранее, однако с точки зрения понятия состояния она ничем не отличается от них. Здесь, как и в механических или электродинамических системах, определено состояние S в виде
4. МОДЕЛИ ИГР И МАРКОВСКИЕ СИСТЕМЫ 41 некоторого описания и однозначный оператор Т, позволяющий по на- стоящему состоянию найти 'следующее состояние. Рассмотрим еще игру «простака» с игроком с «примитивной хит- ростью». «Простак» был описан ранее (рис. 2.3). Игрок с «примитив- Рис. 2.6 ной хитростью» описывается графами смен состояний на рис. 2.6. Сис- тема, состоящая из двух игроков, имеет, как и в предыдущем примере восемь внутренних состояний. Од- нако смены этих состояний про- исходят иначе; как — показано на рис. 2.7. Из рис. 2.7 вид- но, что игра также зацикливает- ся, повторяясь через каждые четыре партии. Теперь она но- сит безобидный характер, так как в каждом цикле два раза вы- Рис. 2.7 игрывает один и два раза другой. Рассмотрим еще одну модель игры, в которой угадывающий — «простак», а загадывающий — «мистик». Вне зависимости от проиг- рыша или выигрыша «мистик» подбрасывает пятак, и если он падает гербом, то зажимает его в кулак, а если не гербом — то не зажимает. Конечно, .он подбрасывает пятак так, чтобы этого не видел угадываю- щий. В противном случае «мистик» выглядел бы уж слишком глупым. Описать стратегию загадывающего можно также с помощью графа с двумя вершинами, только теперь из каждой вершины будут выходить по два направленных ребра, переходы по которым равновероятны как при выигрыше, так и при проигрыше (рис. 2.8). Если теперь построить модель игры в виде системы «загадыва- ющий—угадывающий» с внутренними состояниями x_n у_г\ x_lt у+1; х+1, y_i, х+1, у+1, то на графе рис. 2.9 из каждой вершины будут выходить по две стрелки, переходы по которым равновероятны. Это означает, что игра «мистика» с «простаком» не носит, как в преды- дущих примерах, детерминированный характер, она — стохастическая. Ее исход зависит от случая, от того, как упадет пятак после под- брасывания. В соответствии с этим комбинации xf и у у уже не будут состояниями системы, состоящей из играющих друг с другом «про- стака» и «мистика», так как задание х(-, уу не позволяет однозначно определить эту совокупность в следующей партии. Действительно, если в некоторой партии игру описать совокупностью, скажем х_п У-i, то с вероятностями 1/2 в следующей партии будет либо х+1, Улибо x_j, y_j. Но если принять за описание не сами комбина-
42 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ ции х:, у}-, а их вероятности pyx^yf), то такое описание оказыва- ется полным и может быть принято за состояние рассматриваемой системы. Действительно, пусть р(х_1( у_±), р(х_1,у+1), р(х+1,у_1), и р(х+1,у+1) — вероятности в некоторой партии. Тогда в соответствии Рис. 2.8 с графом переходов рис. 2.9 вероятности этих же комбинаций в следующей партии будут равны р(х_п У-1) = ^р(х_1, y-J + ^-piX-i, у+1), Р (х+1, y.J = ^р (x_n y_J Н-1 р (х_п г/+1), — 1 1 (4.1) Р (*+1. P+i) = у Р (*+1. У-1) + 2" Р (*+i. P+i), ?(*-i. У+1) = ^Р(х+1, Г/.0 + 4P(*+i> P+i)* Действительно, в следующей партии, например, комбинация х+1, y_t может возникнуть с вероятностями 1/2 либо из комбинации x_i, у+1, либо из комбинации у_г, и поэтому Р (*+!» Р-1) ~~2 Р (-^-i> Р+1) “b'jr Р (-^-1» Р-1)* Таким образом, действительно по вероятностям р (xt, у}) в предыдущей партии могут быть найдены вероятности p(xit у^ в следующей партии. Это означает, что вектор р, компонентами которого являются вероят- ности p(Xi, yj), является состоянием. Формулы (4.1) могут быть запи- саны в виде одного векторного равенства где Р — матрица вида (4.2) р = рР, 1 т 1 2 0 0 0 0 1 1 2" Т 1 1 0 0 т Т 0 0 1 1 Т 2 (4.3)
§ 4. МОДЕЛИ ИГР И МАРКОВСКИЕ СИСТЕМЫ 43 формула (4.2) непосредственно выражает тот факт, что вектор вероят- ностей р является состоянием. По формуле (4.2), зная начальные ус- ловия игры, например, что в первой партии сделал загадывающий и что сказал отгадывающий, можно найти состояние р(п) в n-й партии. Оказывается, независимо от начального состояния при больших п р(/,) близок к некоторому р*, т. е. limpln) = p*. (4.4) Эти предельные вероятности могут быть найдены из уравнения р* = р*Р, (4.5) а 1-а « 1-13 Рис. 2.Ю Закон изменения этих следующего из (4.2). Решая систему уравнений (4.5), найдем, что все компоненты вектора р* равны друг другу и равны 1/4. Из этого следует, что игра «мистика» с «простаком» безобидная и каждый из них имеет равные вероятности выигрыша и проигрыша. Теперь рассмотрим игрока, который хотя и не мистик, но при при- нятии решения колеблется и может в зависимости от своего «состояния» принять то или иное решение с некоторыми вероятностями. Этих своих «состояний» у игрока может быть несколько, и смена их также подчинена некоторым правилам. Можно, например, принять, что эти пра- вила такие же, как для «простака», или «памятливого простака», или, наконец, для «простака с хитростью». При участии хо- тя бы одного такого игрока игра будет уже носить стохастический характер, а ее состояние будет задаваться вероятностями. вероятностей при переходе от одной партии к следующей, как и в пре- дыдущем примере, можно записать в виде (4.2). Рассмотрим, например, игру «простака» с «колеблющимся проста- ком». Графы смены состояний «простака» и «колеблющегося простака» одинаковые и представлены на рис. 2.3. Различных комбинаций сос- тояний «простака» и «колеблющегося простака» четыре. Они изображе- ны на рис. 2.10. Пусть «колеблющийся простак» в состоянии у_г может принять действие — 1 (сказал «нет пятака») с вероятностью а и соот- ветственно действие +1 (сказал «есть пятак») с вероятностью 1 — а. Аналогично, пусть |3 и 1 — |3 — вероятности действий—1 и 4-1 в состоянии у+1. Как видите, колебания «колеблющегося простака» пос- ле выигрыша и проигрыша неодинаковые. Знание вероятностей а и |3 позволяет найти вероятности смены все- возможных комбинаций состояний хг, х, игроков. Они указаны на рис. 2.10. Зная эти вероятности, непосредственно приходим к
44 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ соотношениям р (x_n y_J = (1 —₽) р (x_n у+1) + (1 —а) р (х+1, y_J, р_(х+1, y-J = ар (x_n t/.J + рр (х+1, г/+1), б p(x_lf у+1) = (1 —а) р (х_!, 1/_1) + (1 —₽) Р (х+1, у+1), р(х+1, у+1) = ар(х+1, j/J+fH*.,, i/+1), которые могут быть записаны в виде (4.2). Как и в предыдущем примере, у этой игры существуют предельные вероятности р*. Для их отыскания введем обозначения Pi = Р (х_1, У-J, pl=p (x+1, y-J, Р*з=Р (х_и у+1), pl = р (х+1, у+1) и запишем уравнения для компонент вектора р* согласно (4.6) в виде Р*1 = (1—Р)Рз + (1—“)Рг. р2=ар1+№, /4 7х р3‘ = (1— a) Pi + (1— Р)а, А*=ар; + Р/>;. ‘ ' Из этих уравнений и из условия нормировки р;+р2* + рз* + р: = 1 (4.8) можно найти предельные вероятности р*, pl, р*3 и р\. Однако и без этого из уравнений (4.7) непосредственно следует, что р3 +рз = Pi и поэтому вероятности выигрыша и проигрыша у обоих игроков одинаковые при любых аир. До сих пор изменения состояний игроков происходили при выигры- ше и проигрыше однозначным образом. Это не касалось «мистика», поскольку он вообще свое состояние менял не в зависимости от игры, а от случайно падающей монетки. Допустим теперь, что и смена сос- тояния другого игрока может быть случайной. «Простак» при выигрыше всегда оставался в прежнем состоянии. Примем теперь, что он сохра- няет свое прежнее состояние с вероятностью а и меняет его с вероят- ностью 1—а. Аналогично, при проигрыше он меняет свое состояние с вероятностью 0 и сохраняет с 1— 0. Назовем такого игрока «простаком с хитростью». Графы смены его состояний при выигрыше и проигрыше изображены на рис. 2.11. Как и ранее, на ребрах этих графов указаны
§4. МОДЕЛИ ИГР И МАРКОВСКИЕ СИСТЕМЫ 45 вероятности соответствующих переходов. При а=Р = 1 «простак с хит- ростью» становится «простаком». Как и ранее, рассмотрим, каким законам подчиняются смены ком- бинаций состояний игроков. Таких всевозможных комбинаций четыре. Их смены имеют вероятности, указанные на рис. 2.12. В соответствии с графом смен состояний рис. 2.12 и вероятностей этих смен приходим к соотношениям i/_i) = (l— а)р(х+1, y+1)+^p(x_t, г/+1), Р (х+1, y.i) = ар (х_п у_х) + (1 —р) р (х+1, i/.j), (4 р_(х+и i/+i) = (l—a)p(x_n (/_i) + Pp(x+1, r/_j), p(x_lt У+1)=ар(х+1, */+1) + (1—Рр) (х_п y+i). В этой игре также существуют предельные вероятности, которые могут быть найдены из уравнений (4.9), если принять, что P_(x.J,y_1) = p(x.1, y_1) = pi, _~р(х+1, У-1) = р(х+1> у_г) = р1, Р (*+1, У+1) = Р (*+!• У+1) = Р11 Р (*-i> У+1) = Р (^+1. У+1) = Рз, и учесть условие нормировки (4.8). Эти предельные вероятности ока- зываются равными Р а Pi = Pi =2(а4-р) > Р2=Рз=2(а+Р)’ Отгадывающий выигрывает в комбинациях у_г и х+1, г/+1. По- этому его ожидаемый выигрыш равен 5(р:+р:)=^. (4.Ю) Из (4.10) следует, что максимальный выигрыш, равный 5, имеет место при а=0 и любом Р=/=0, р=0 исключается. Это вызвано тем, что в этом особом случае, когда формула (4.10) дает неопределенность типа 0/0, соответствующий граф смен состояний распадается на три не свя- занные между собой части. При этом уже не выполняются условия су- ществования одних и тех же предельных вероятностей вне зависимости от начальных условий. Стратегия отгадывающего при а=0, Р#=0 ведет сразу к подлаживанию «простака с хитростью» под «простака» и обыгрыванию его вчистую. Можно догадаться, что любая детерминистическая конечная страте- гия загадывающего имеет против себя такую стратегию уверенного отгадывания. Так что хорошей стратегией может быть либо очень слож- ная детерминированная стратегия с большим числом состояний, либо стратегия стохастическая. Так, стратегия «мистика» всегда беспро- игрышна, правда, она не дает и выигрыша. Как хорошо известно, теория вероятностей возникла из рассмотре- ния азартных игр. Игру в отгадывание нельзя назвать азартной, по- скольку в ней нет нарастания ставки, но и она привела нас к очень
46 ГЛ. 2. ПОНЯТИЯ состояния и ДИНАМИЧЕСКОЙ СИСТЕМЫ важному типу динамических систем — марковским системам, точнее, к дискретным однородным марковским системам с конечным числом состояний. Сразу же отметим, что под состояниями марковской системы по- нимаются вовсе не те состояния, о которых все время шла речь до сих пор. Можно было бы отличать одно состояние от другого, присоединив к одному из них прилагательное «фазовое». Но при этом в теоретичес- кой физике и теории динамических систем употребления этого прила- гательного различны. Менять традицию, даже если она не очень хоро- шая, без большой необходимости едва ли разумно. Так что ограничим- ся этим предупреждением и будем уточнять смысл слова «состояние» по контексту его использования. Прилагательное же «фазовое» будем использовать только применительно к состоянию динамической сис- темы, т. е. как это принято в теории динамических систем. Однородной марковской системой с конечным числом состояний называется система, могущая находиться в конечном числе состояний Xi, х2, . .., хп, смена которых происходит в соответствии с некоторыми вероятностями p(xt->-Xj). Состоянием марковской системы, рассматри- ваемой как динамическая система, является вектор вероятностей p(p(Xi), р(х2)....p(xj). (4.11) Его изменение происходит в соответствии с формулой р = рР, (4.12) где Р — матрица, элементами которой являются вероятности смены состояний p(xt-^Xj). Вероятность р(х;^х7) смены состояния х,- на Aj является элементом матрицы Р, стоящим в t-й строке и /-м столбце. Все элементы матрицы Р неотрицательны. Сумма элементов любой строки этой матрицы равна единице. Такую матрицу называют стоха- стической. Стохастические матрицы обладают рядом отличительных особен- ностей. Одна из них состоит в том, что все собственные значения такой матрицы лежат внутри единичного круга плоскости комплексного пе- ременного. Пространством состояний марковской системы является простран- ство векторов р с неотрицательными компонентами, сумма которых равна единице. Это пространство представляет собой симплекс 2n-1. В случае рассмотренной выше игры «мистика» с «простаком» это про- странство представляет собой трехмерный симплекс S3. Он изображен в виде тетраэдра на рис. 2.13. Вершинам этого тетраэдра отвечают век- торы вероятностей р с компонентами (1,0, 0, 0), (0, 1, 0, 0), (0, 0, Г, 0) и (0, 0, 0, 1). На ребрах и гранях симплекса обращаются в нуль соот- ветственно две и одна из компонент вектора р. Соотношение (4.12) можно рассматривать как преобразование точек симплекса в себя. Если при этом симплекс Sf!_1 преобразуется строго внутрь себя, то геометрически очевидно, что при последова- тельных преобразованиях он будет стягиваться к некоторой точке
§ 5. ДИФФУЗИОННЫЕ ПРОЦЕССЫ 47 р*. Это означало бы, что при любом р£ litn рРт = р*. (4.13) Преобразование симплекса строго внутрь себя заведомо имеет место, так как все элементы матрицы Р положительны. Это известный критерий так называемой эргодичности матрицы Р или соответствующей ей мар- ковской системы. В заключение отметим, что рассмот- ренные детерминистические и стохасти- ческие стратегии игроков приводят соот- ветственно к детерминированным и сто- хастическим динамическим системам. В первом случае — к детерминирован- ному конечному автомату, а во вто- ром — к стохастическому, называемо- му марковской системой. Стохастические Рис. 2.13 автоматы можно рассматривать как обобщение детерминированного ав- томата. Стохастический автомат переходит в детерминированный, если все элементы его матрицы Р — либо нули, либо единицы. Ясно, что и стохастические стратегии являются обобщением детерминированных. § 5. Диффузионные процессы и случайные блуждания Весь окружающий мир состоит из молекул, атомов и элементарных частиц. Явления макромира — это коллективный эффект движений и превращений элементарных частиц, так что все в конечном счете сво- дится к ним, все законы макромира — следствия законов микромира. Но частиц необозримо много, и каждая движется по-своему. В какой же мере возможно вывести и исследовать свойства и законы макромира, ис- ходя из этих многообразных движений громадного количества частиц? Наука, которая пытается это сделать, и иногда не без успеха, назы- вается статистической физикой. Там, где можно ограничиться класси- ческой трактовкой движения частиц — это классическая статистичес- кая механика и физика; там, где необходимо учитывать квантовые эф- фекты — это квантовая статистическая физика. Но законы макромира можно рассматривать и не углубляясь в атомистическую структуру ве- щества. В механике и в электродинамике мы отвлекаемся от тонкой структуры вещества, исследуя лишь их макроскопические проявле- ния. Установление связей между этими двумя подходами и вывод, на- пример, законов термодинамики и материальных соотношений элект- родинамики, исходя из атомистической структуры вещества и элект- ронной теории, очень непростое дело. Последующее имеет целью на очень простом примере диффузион- ных процессов показать суть этой связи и как, исследуя микродвиже- ния частиц, можно прийти к установлению макроскопических законо-
48 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ мерностей. На этом примере, в частности, обнаружится статистическая природа макроскопических закономерностей, детерминизм которых обусловлен лишь необычайно малыми вероятностями отклонений, на- зываемых флюктуациями. Именно исчезающей малостью вероятностей флюктуаций объясняется привычное нам охлаждение горячего стака- на чая, а не нагревание его, и то, что при вдохе воздух поступает в легкие, а при выдохе выходит из них, а не наоборот, и многое, очень многое другое. Но прежде чем перейти к изложению этого простого примера, сле- дует обратить внимание на эфемерность и нереализуемость, казалось бы, верного пути получения макроскопических законов, исходя из прямого исследования движений всех частиц. Это невозможно не толь- ко потому, что частиц слишком много (1020 и больше), но и по другой принципиальной причине. Оказывается, что невозможно найти движе- ния даже только одной молекулы, приняв, например, что все осталь- ные молекулы застыли. Это вызвано тем, что каждую секунду движу- щаяся молекула испытывает сотни тысяч столкновений, и для того, чтобы предсказать их последствия в течение этой секунды, нам необ- ходимо выполнять вычисления с фантастическими точностями и с такими же фантастическими точностями знать начальные условия ее движения и расположение застывших молекул. Это точности порядка 10'10‘ см и больше. Так что, увы, прямой путь никогда не приведет к цели. Методы статистической физики существенно отличаются от этого прямого пути, они обходят его непомерные трудности. Теперь перейдем к непосредственному рассмотрению явления диф- фузии одного вещества в другом. Начнем с опыта. В сосуд с водой кап- нем немного краски. Перемешивать не будем. Через некоторое время весь объем воды будет окрашен. Краска разошлась по всему объему. Это процесс диффузии. Концентрация диффундирующего вещества р зависит от места и времени. Пусть ради простоты речь идет о так на- зываемой одномерной диффузии вдоль оси х; тогда р=р(х, t). Диффу- зия вещества происходит так, что от мест с большей концентрацией оно перемещается в места с меньшей концентрацией и скорость этого перемещения (закон Фика) пропорциональна градиенту его плотности VP- Отсюда легко находится, что dt~Udx2‘ Vх1' Это хорошо известное уравнение в частных производных одномерной диффузии. С его помощью по начальному распределению плотности р (х, 0) диффундирующего вещества можно найти его плотность р (х, t) в любой последующий момент времени t>Q. Так математически опи- сывается явление одномерной диффузии. Не упустим случая подчеркнуть, что это математическое описание также основывается на понятии состояния, которым является плотность диффундирующего вещества р, и определении закона его изменения с
§5. ДИФФУЗИОННЫЕ ПРОЦЕССЫ 49 помощью параболического уравнения в частных производных (5.1) и, возможно, еще каких-то краевых условий. Подойдем -к рассмотрению процесса диффузии с молекулярной точки зрения, согласно которой явление диффузии — это движение молекул одного вещества сре- ди молекул другого. Будем % /г рассматривать одномерную диф- ----1----г*" -----1---1---Д фузию. Есть частицы основ- а’а х х+а ного вещества и частицы диф- „ „,. фундирующего вещества. Части- цы как-то бегают, сталкиваются между собой, перемещаются оттуда, где их больше, туда, где их мень- ше. Причем их распределение на прямой стремится выровняться. Те- перь давайте представим себе, что частиц основного вещества много больше, чем частиц диффундирующего вещества, скажем, в 104— 10е раз. Тогда каждая частица диффундирующего вещества движется, сталкиваясь главным образом с частицами основного вещества, а со своими «собратьями» она сталкивается очень редко. Поэтому можно пренебречь влиянием на движение этой частицы ее «собратьев». Это позволяет нам рассмотреть движение лишь одной диффундирующей частицы, так как другие будут двигаться точно так же. Движение та- кой частицы очень сложное, ее скорость зависит от температуры, а об- щее движение определяется в основном столкновениями с частицами основного вещества. А таких столкновений в единицу времени очень много. По-видимому, единственное, что мы можем более или менее до- стоверно утверждать,— это то, что в силу однородности основного ве- щества диффундирующая частица перемещается влево и вправо с оди- наковыми вероятностями. Перемещения, которые она совершает меж- ду двумя соударениями, различные, времена между соударениями тоже различные. Но мы существенно упростим реальный процесс и бу- дем считать, что наша частица может двигаться с равной вероятностью либо налево, либо направо на один и тот же шаг а. Причем каждый шаг она делает через одно и то же время т. Такую упрощенную модель (рис. 2.14) А. А.' Андронов образно назвал движением «абсолютно пья- ного». Исследуем движение такой частицы. Естественно было бы взять за состояние частицы координату х, определяющую ее положение в мо- мент времени t. Но нетрудно понять, что х состоянием быть не может, так как из положения х частица может перейти либо в положение х—а, либо в положение х+а. Как быть в такой ситуации — известно. Надо в качестве описания взять не положение х, а плотность вероятности та- кого положения. Пусть в некоторый момент t плотность вероятности положения частицы р(х, I); тогда, если р(х, t) — действительно состоя- ние, то мы должны суметь найти плотность вероятности положения частицы в момент /+т. Обозначим ее через р(х, /+т). Как частица мо- жет попасть в точку х в момент времени f-J-т? Она может попасть туда, если находиласв в момент t либо в точке х—а, либо в точке х+а и еде-
50 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ лала в первом случае шаг вправо, а во втором — шаг влево (рис. 2.14). Вероятность каждого шага равна 1/2. Отсюда р(х, р(х—а, + + t). (5.2) Мы получили динамическую систему, которая позволяет по плот- ности вероятности положения частицы на оси х в момент времени t найти эту же плотность вероятности в следующий момент времени /•4-т. Наша частица имитирует движение молекулы диффундирующего вещества, но шаги молекулы очень маленькие и шагает она очень часто, т. е. а и т малы. Учтем это, написав, что р(х, / + т) = р(х, t) + т4-т2(...), р(х—а, t) = p(x, 0—а2+ (•••)*’, р(%+а, t) = p(x, /) + -^a + j|^-a24-(-••)<*’• ^Подставив эти выражения в соотношение (5.2), найдем, что '4r- = ^-S- + 0(T) + 0f-'). (5.3) dt 2т дх2 1 ' ’ 1 \ т j ' ’ Теперь перейдем к пределу в полученном соотношении (5.3), причем примем, что а->0, т->0 так, что limg = R (5.4) При т->0 и а->0 в соответствии с (5.4) а3/т->0, и уравнение (5.3) принимает вид <«) совпадающий с ранее полученным уравнением (5.1). Однако смысл переменных р(х, t) и р(х, i) разный, разный и смысл постоянных D, и пока ниоткуда не следует, что они равны друг другу. р(х, t) — это плотность диффундирующего вещества в месте х в момент времени I, р{х, t) — это плотность вероятности нахождения диффундирующей частицы в точке х в момент времени t. Поэтому, несмотря на совпадения по виду уравнений (5.1) и (5.5), смысл их совершенно различный. Раз- личны и соображения, на основе которых они получены. В макроскопической модели введение плотности диффундирующего вещества р (х, f) основывается на достаточно большом числе диффунди- рующих молекул в сравнительно малых объемах и на макроскопичес- ком законе диффузии, согласно которому ее скорость пропорциональна градиенту плотности. В микроскопической модели функция плотности
6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 5t вероятностей описывает движение одной-единственной диффундирую- щей молекулы. Однако, несмотря на эти различия, связь между этими моделями все же имеется и совпадение видов уравнений (5.1) и (5.5) не случайно. Пусть на отрезке длиной Ах в момент времени t находится т мо- лекул; тогда, с одной стороны (6 — масса одной молекулы), dm « р (х, I) \х, а с другой, если М — общее число молекул, то согласно закону боль- ших чисел Мр(х, t) Дх« т, т. е. р(х, t) « SMp(x, t), (5.6) и, следовательно, величины р(х, t) и р(х, I) пропорциональны. В силу этого коэффициенты D должны быть одинаковыми. Но примерное ра- венство (5.6) имеет место не всегда, его следует понимать в статисти- ческом смысле, т. е. отклонения от него, и даже большие, возможны, но они мало вероятны. Таким образом, правда ценой грубых упрощений, мы связали мак- роскопическую и микроскопическую точки зрения на процесс диффу- зии. Эта связь основывается на законе больших чисел и имеет стати- стический характер. При этом микроскопическая модель является бо- лее полной, макроскопическая модель вытекает из нее, являясь ее следствием. Ее большая полнота состоит в том, что она позволяет рас- смотреть не только законы изменения усредненной плотности вещества, но и флюктуаций этой плотности. Это означает, что описание с помо- щью плотности р (х, t) менее полное, чем с помощью плотности вероят- ности р(х, /). Подчеркнем, однако, что каждое из них является пол- ным в том смысле, что образует состояние и каждая из моделей является динамической системой. Одна — по своему характеру описа- ния исходного конкретного процесса — детерминированной, другая — стохастической. Возможно ли, что меньшая полнота модели, описывае- мой плотностью р(х, t), станет очень существенной? Да, так может быть. Будет это, когда флюктуации станут значительными. Это имеет место, когда рассматриваются слишком маленькие объемы или когда общее число частиц М диффундирующих молекул недостаточно велико. § 6. Случайность — закономерность, закономерность — случайность Из общих законов механики следует, что планеты Солнечной систе- мы движутся, соблюдая законы Кеплера. Из законов геометрической оптики следует, что увеличение лупы обратно пропорционально ее фокусному расстоянию. Если из верхней точки О окружности одно- временно под действием силы тяжести скользят без трения по различ- ным наклонным материальные точки At, А2 и Л3, то, согласно законам
52 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ Ньютона, они вновь достигают окружности через равные промежут- ки времени (рис. 2.15). Все это примеры, когда одни закономерности влекут за собой дру- гие. К этому мы привыкли. Так построена геометрия: из акисиом сле- дуют теоремы. Так построено наше логическое мышление: из посылок мы выводим следствия. В несколько меньшей мере мы привыкли к тому, что закономерно- сти могут быть следствием случайностей. Этому учит теория вероят- ностей. Именно в этом смысл так называемых за- —конов больших чисел. Если много раз незави- \\\ симо повторять одно и то же испытание, в ре- / \ ххд зультате которого может появиться или не по- / \ | явиться некоторое событие, то среднее число 1 \ I наступлений события при достаточно большом \ \ j числе испытаний может быть предсказано и, \ у следовательно, его величина есть закономерное событие. Давление газа — это средний импульс ударов молекул. Каждый из этих ударов — Рис. 2.15 случайное событие, и импульс его случаен, но средний импульс — величина закономерная — это давление газа. Такова же природа многих физических макроскопи- ческих закономерностей, являющихся следствием стохастических зако- номерностей поведения молекул, атомов и элементарных частиц. Так, закон Ома — следствие хаотического движения электронов в электри- ческом поле. Такова же природа закона о переходе тепла от горячего тела к холодному. В общем, это все тоже хорошо известно и привычно. Но, оказывает- ся, возможны случаи, когда закономерности влекут случайности. На первый взгляд кажется',, что так не может быть. Об этом до послед- него времени мало говорилось, это, если можно так выразиться, не было обжито наукой и учебниками, хотя, безусловно, с этим мы все время встречались и, может быть, даже в более явной форме и не менее часто, чем с возникновением закономерностей из случайностей. Давно уже человек наблюдает смены погоды, но и сейчас предска- зание ее на длительный срок — дело неблагодарное. А ведь движение атмосферы подчиняется законам механики. Движение молекул газа тоже подчиняется законам механики, но мы говорим о хаотическом и случайном их движении. Это очень сложные примеры. Возьмем доску Гальтона; здесь все много проще. Доска Гальтона представляет собой вертикальную или наклонную доску, на которой рядами набиты колышки (гвозди). В верхней части из воронки высыпается просо (или другие мелкие круглые одинаковые предметы), зерна которого спус- каются, стукаясь о колышки, вниз и размещаются по отсекам. Все это схематически изображено на рис. 2.16. В отсеках зерна собираются так, что образуют отчетливое нормальное распределение. Считается, что зерна, падая вниз, на каждом ряду колышков отскакивают слу- чайно и, следовательно, уклонение зерна от середины представляет
§6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 53 собой сумму случайных смещений по горизонтали при всех отскоках. Такая сумма, согласно теореме Лапласа из теории вероятностей, имеет нормальное распределение, которое и образуют числа зерен проса в от- секах, если их упадет достаточно много (104—10* штук). Так что в пря- мом своем назначении доска Гальтона демонстрирует закономерность, порождаемую случайностями. Но есть здесь и другая сторона. Молча- ливо и без обсуждения принимается, что зерна, ударяясь о колышки, прыгают случайно. Даже не видя эксперимент, вы легко можете себе его представить и, несомненно, согласитесь, что зерна будут прыгать от колышка к колышку случайно и что движение следующего зерна никак не будет походить на движение предыдущего. Но, собственно го- воря, почему случайно? Ведь движение зерен подчиняется законам ме- ханики, а они не допускают никакой случайности. Откуда же эта слу- чайность берется? Возможно, дело в том, что зерна из воронки вы- скакивают не совсем одинаково, да и сами они не полностью идентич- ны, вот и скачут по-разному. Заменим просо маленькими стальными шариками из шарикового подшипника, сделаем выходную трубку по размеру шариков, чтобы они в ней не болтались. Думаете, что-нибудь изменится? Нет, шарики по-прежнему в отсеки будут падать случай- но. Но этого не может быть, при одинаковых условиях шарики долж- ны прыгать одинаково! В чем же дело? Ответ может быть только один: значит, несмотря на наши старания, ус- ловия падения неодинаковые. Другого вывода быть не может. Либо есть нечи- стая сила, либо условия падения шари- ков неидентичны. Конечно, абсолютной идентичности быть не может. Ясно, что какие-то Рис. 2.16 различия есть, ну, пусть порядка 10-в мм. Это ничтожные раз- личия, едва ли мы их можем исключить практически. Но посмотрим, что из таких ничтожных различий следует. Пусть ради простоты радиу- сы г шариков и колышков одинаковы. Тогда уклонение шарика по го- ризонтали на 6 вызовет изменение угла отскока ба~б/г, а уклонение б при следующем соударении околышек порядка (6/r)D, где D — рас- стояние между колышками, о которые ударяется шарик (рис. 2.17). Итак, после одного удара величина изменения б заменилась на qt), где После п соударений она изменится в q" раз. Пусть «=30 и
54 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ О=5г. Тогда <7"~530>1020. Поэтому к концу движения шарика, если бы он ударялся о те же колышки, что и предыдущий шарик, начальное расхождение возросло бы примерно в 1020 раз. Даже при очень малень- ком начальном различии порядка 10-8 см (размер атома) это привело бы к конечному рассогласованию порядка 10е км. Конечно, такого рассогласования быть не может, и это попросту означает, что следую- щий шарик будет ударяться о другие колышки, и как он будет это де- лать, предсказать невозможно. Эта невозможность принципиальна, поскольку бессмысленно требовать идентичности начальных положе- ний с точностью порядка 10-20см, намного превосходящей размер атом- ного ядра. Да если бы такая точность и была возможна, то проявились бы тепловые флюктуации и привели бы опять к непредсказуемости дви- жения отдельных шариков, к случайности их прыганий с колышка на колышек. Итак, мы вынуждены признать, что в мире, в котором мы живем, существуют ситуации, в которых закономерное развитие событий при- водит к непредсказуемости и случайности. Так что случайность в на- шем мире закономерна даже в рамках детерминистической трактовки. Возможно, мы никогда, несмотря ни на какие успехи науки и вычисли- тельной техники, не сможем предсказывать погоду на сроки, большие двух недель или месяца. Теперь, после того как этот факт принят, рассмотрим его в аспекте занимающего нас исследования динамических систем и систем управ- ления. При этом хотелось бы обратить ваше внимание на следующий непростой вопрос. Да, никуда не денешься, закономерное развитие событий может быть непредсказуемо. Да, в этом смысле оно случайно, но откуда следует, что эти события являются случайными в смысле теории вероятностей, которая требует наличия у них вероятностей? Это не простой вопрос. Теория вероятностей ответа на него не дает. Ее историческое развитие сложилось так, что она его обошла и сформи- ровалась как аксиоматическая математическая наука. Но все же в некоторой мере на этот вопрос ответить можно, причем и в том смысле, что возможна непредсказуемость и случайность, не имеющая вероят- ности. Хотелось бы предупредить, что это вопросы новые, не устояв- шиеся, ждущие своих исследователей. Так что не следует смотреть на предлагаемые высказывания как на какую-то непогрешимую догму, это всегда не так, а в данном случае совсем не так. Пожалуй, самыми простыми примерами, где закономерность по- рождает случайность, являются датчики ЭВМ, алгоритмически вычис- ляющие случайные числовые последовательности. Для того чтобы по- нять, как такое может быть, рассмотрим последовательность чисел х0, х2,. . ., вычисляемых по формуле x„ = <7X„_x—(6.1) где q — число, большее единицы, а скобки [ I означают целую часть заключенного внутри них числа. Достаточно далекие значения этой последовательности непредсказуемы, поскольку начальное значение
§6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 55 х0 может быть задано только с некоторой ограниченной точностью и эта начальная неопределенность после п итераций по формуле (6.1) воз- растет в qn раз, где </>1. Есть ли у чисел этой «случайной» последова- тельности распределение вероятностей? Ответа на этот вопрос нет. (Это не совсем точно. Есть замечательные работы А. Н. Колмогорова, но рассмотрение их увело бы нас слишком далеко.) Можно ответить на другие, в некотором смысле близкие вопросы. Допустим, что начальные ошибки х0 сколь угодно малы и имеют некоторую плотность вероятностей, тогда числа последовательности хп имеют предельную плотность вероятности, одну и ту же для любой плотности вероятностей начальных значений х0. Это же утверждение можно сформулировать и как наличие плотности вероятности у слу- чайных чисел хп при наличии, пусть и очень малых, случайных ошибок вычислений по формуле (6.1). Эти случайные ошибки должны удовлет- ворять требованиям теории вероятностей, т. е. иметь плотность рас- пределения, и тогда вне зависимости от этой плотности вероятностей числа хп имеют некоторую свою, всегда одну и ту же, предельную плот- ность вероятностей. В данном конкретном примере это равномерное распределение на единичном отрезке [0, 11. Примем это за достаточное обоснование случайности последовательности хп и ее равномерного распределения. Можно с этим не соглашаться и предложить что-нибудь Другое. Заметим, что рекуррентную процедуру отыскания чисел ха, xlt х2,. . . при <7=10 можно трактовать как отыскание десятичной дроби числа ха-. целая часть этой дроби — [х01, первый десятичный знак после запятой —[lOxj], второй — [10х21 и т. д. В свете этого факта равно- мерность распределения последовательности хп означает, что десятич- ные знаки чисел единичного отрезка встречаются равновероятно. Уточ- ним, это в предположении, что имеется некоторое распределение самих действительных чисел, неважно какое, но есть. При разложении числа в цепные дроби приходим к рекуррент- ной формуле Уп = ~-----Г— 1- (6-2) ап уп-1 Lv«-iJ v Эта рекуррентная формула также неограниченно увеличивает началь- ную погрешность и порождает на единичном отрезке некоторое распре- деление, но оно уже не равномерное, а с плотностью (ln-12)(l+</)-1. Это было известно уже К. Гауссу. Остановимся на вопросе о существовании предельной плотности вероятностей. Допустим, что случайные величины х и х связаны соот- ношением х — f (х) (6.3) однозначным, но не взаимно однозначным, так что обратная функция x=g(x)—многозначная и имеет несколько однозначных ветвей х= =gs(x) (s=l, 2,. . .). Тогда плотности вероятностей р(х) и р(х), как
56 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ нетрудно обнаружить, связаны между собой следующим образом: Р (х) = 2 Р (gs (х)) g's (%). (6.4> S Каждый раз, когда происходит преобразование (6.3), плотность вероят- ностей испытывает преобразование (6.4). Может оказаться, что при не- ограниченном повторении этого преобразования происходит стремле- ние к некоторой предельной плотности вероятностей р* (х) и что схо- димость имеет место для любой начальной плотности вероятностей. Если это имеет место, а именно в этом и состояло высказанное утверж- дение о характере случайности чисел последовательностей хп и уп, то предельная плотность вероятностей р* (х) может быть найдена ив уравнения Р* (х) = 2 Р* (gs (х)) g's (х). (6.5> а Составим уравнение (6.5) для преобразований (6.1) и (6.2). В случае (6.1) xn_1=(xn/q)+[qxn]q~1, и поскольку [qxn] при </=10 может прини- мать десять значений 0, 1, . . ., 9, то = 7 + Й (5 = 0,1,......9). (6.6> Поэтому, согласно (6.4), 9 Р„(х) = Е.Р„-1(п^)^ (6-7> s = 0 v 7 и, следовательно, предельная плотность вероятностей удовлетворяет уравнению 9 = (6.8> 5=0 * 7 Аналогично, для преобразования (6.2) приходим к уравнению вида р,(»)=Ё^р*(гЬ)- (М> Легко проверяется, что /?*(х)=1 и р* (у)=1 /[(1 +г/)1п 2J удовлетворяют соответственно уравнениям (6.8) и (6.9). Для преобразования (6.1) несложно обосновать наличие и единст- венность предельной плотности вероятностей р* (х) = 1 и то, что к ней происходит сходимость от любой начальной дифференцируемой плот- ности р0(х). Действительно, из (6.7) следует, что 9 Рп(Х)^\0~^Рп-1 (тЙ s=0 ' 7
§6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 57 и что max I р’„(х) К ~ max | р'п_х (х) |. * X Поэтому р'п (х)->0 при п-> оо, что и требовалось. Теперь мы рассмотрим управляемый дискретный динамический про- цесс, в котором связь между последующим состоянием и предыдущим такого же типа, как и в формулах (6.1) и (6.2), т. е. при нем тоже про- исходит неограниченное нарастание начального изменения. Пред- ставьте себе, что вам нужно взобраться вверх по лестнице с очень вы- сокими ступеньками, выше вашего роста. Зацепиться и вскарабкаться на следующую ступеньку не удается, впрыгнуть тоже. Обойти лестни- цу нельзя. А взобраться необходимо. Как это сделать? По правилам такой игры у вас должны быть какие-нибудь подручные средства. Они есть: пружина между двумя дощечками, гвозди и молоток. Кроме того, в ваше распоряжение поступают средства управления. Управлять своими действиями вам никто не запрещает. Предлагается следующее. Прибейте гвоздями свои ботинки в центре одной из дощечек, затем вставьте ноги в ботинки и зашнуруйте их. После этого начинайте подпрыгивать на пружине, потренируйтесь немного и затем, когда научитесь прыгать выше следующей ступеньки, прыгайте так, чтобы оказаться над ней. Получается? Очень хорошо. Когда вы взбираетесь все выше и выше, вы все время управляете своими движениями, то увеличивая свои подскоки, то перебираясь на следующую ступеньку, как только высота вашего прыжка будет для этого достаточной. Это различие формализуем управляемой перемен- ной it. u==Q — увеличивать подскок, и=1 —прыгать на следующую ступеньку. Для того чтобы построить математическую модель вашего подъема вверх по лестнице, нужно принять какие-нибудь предположе- ния о том, как вы наращиваете подскоки, когда и=0, и как вы пры- гаете на следующую ступеньку, когда и=1. Примем что-нибудь прав- доподобное и попроще. Пусть вначале раскачка происходит по гео- метрической прогрессии, а затем наступает сразу предел, т. е. пусть график раскачки имеет вид, показанный на рис. 2.18. Предел высоты подскока, естественно, должен быть больше, чем высота ступеньки. Этот график изображает связь между максимальными высотами х и х над одной и той же ступенькой в следующих друг за другом прыж- ках. Процесс раскачки из спокойного состояния до максимально воз- можных высот прыжков на графике рис. 2.18 изображается ломаной линией. Согласно этой ломаной максимальный прыжок достигается на пятом подскоке. Ясно, что это число могло бы быть и другим. Подско- ки, изображенные ломаной на рис. 2.18, соответствуют управлению м=0. Однако, как только появляется возможность прыгнуть выше следующей ступеньки, мы переходим к действию и=1 и в результате этого прыжка оказываемся над следующей ступенькой, причем макси- мальная высота над ней будет х—h, где h — высота ступеньки. Внесем соответствующее изменение в график рис. 2.18. Это приведет к графику
58 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ рис. 2.19. Ломаная, изображающая наши подскоки, изменится. Вна- чале прыжки 1, 2, 3, как и раньше, и при этом и=0. На четвертом прыжке и=1, дальше снова несколько раскачек с и=0, потом и=1 и прыжок на следующую ступеньку и так далее. Рис. 2.18 Запишем рассматриваемый управляемый процесс подъема по лест- нице в виде уравнения изменения состояния х в зависимости от управ- ления a>h): _ ( а -{- qx—uh при x^alq, х = ( i. , (6.10) | а — uh при x^a/q ' и стратегии управления f 0 при х ssC h/q, U = 1 i (6-И) ( 1 при х > hlq, ’ определяющей управление в зависимости от состояния. Величины q, h и а являются параметрами. От них зависит вид графика рис. 2.19 и то, как будет происходить конкретный процесс управляемого подъема по лестнице. При значениях параметров, соответствующих рис. 2.19, на всех прыжках dx/dx=q>l, и поэтому происходит неограниченное нарастание малейшего изменения состояния, что соответствует непред- сказуемому случайному характеру процесса подъема, точнее, достаточ- но отдаленной от начала его части. Отметим, что при других значениях параметров, когда соответст- вующий график вида, показанного на рис. 2.20, процесс подъема но- сит закономерный, детерминированный характер и с некоторого прыжка — периодический. При этом при каждом прыжке вы заби- раетесь на следующую ступеньку и оказываетесь над ней на такой же высоте, как-и над предыдущей. Какие же выводы следуют из всего сказанного? Вы видели, что ди- намические системы, в том числе и системы управления, подразде- ляются на детерминированные и стохастические. При этом детермини- рованные системы можно рассматривать как частный случай стохасти-
§6. СЛУЧАЙНОСТЬ И ЗАКОНОМЕРНОСТЬ 59 ческих. Но это не умаляет важности их как самостоятельного типа ди- намических систем. Детерминированную динамическую систему можно сделать стохастической, если подвергнуть ее случайным воздействиям. После этого она станет стохастической. Если эти воздействия не кор- релированы во времени или время корреляции достаточно мало, то мы приходим к марковской системе. В том, как возникает стохастичес- кая система из детерминированной и чем определяется ее стохасти- ческое описание, могут быть существенные и очень важные отличия. Наличие этих коренных отличий и есть, пожалуй, самый важный вы- вод из сказанного. В первом случае при воздействии случайных помех детермини- рованная система становится стохастической, но по мере убывани этих помех ее стохастичность исчезает, дисперсии распределений вероятностей становятся все меньше и меньше. Ее стохастическое описание определяется как статистическими характеристиками помех, так и свойствами исходной де- терминированной системы. Подчеркнем еще раз, что при неограниченном убыва- нии стохастических помех возникшая стохастическая система «непрерывно» переходит в исходную детерминирован- ную. Однако возможен и совершенно другой случай, когда убывание помех не влечет за собой исчезновение стохастичности, когда она как бы не зависит от этих помех. При любых малых стохастических помехах перед нами одна и та же стохастическая динамическая система. При на- растании помех на ее «изначальную» стохастичность как бы наклады- ваются еще статистические возмущения этих помех. Естественно, чем помехи больше, тем их влияние заметнее. Первый тип стохастических систем весьма привычен, и именно о нем пишут во всех книгах и статьях о влиянии помех и флюктуаций. Второй тип также в центре внимания в статистической физике, в гидродинамике турбулентных течений. Од- нако высказанная выше точка зрения на природу их стохастичности, если можно так выразиться, не эксплуатировалась в должной мере. Лучше сказать, что она не была настолько отчетливой, чтобы можно было эффективно ее использовать, опираться на нее в теоретических построениях. Однако в самое последнее время тут произошли корен- ные изменения. Можно сказать, что эта новая идея вызвала среди фи- зиков лавинообразный процесс. Вопросы самогенерации стохастич- ности динамической системой усиленно дебатировались на ряде сим- позиумов, школ и семинаров у нас и за рубежом. Особую роль в воз- буждении этого интереса сыграла очень простая дискретная модель конвективной турбулентности, предложенная Зальцманом и Лоренцем в виде системы трех дифференциальных уравнений первого порядка
60 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ и ДИНАМИЧЕСКОЙ СИСТЕМЫ 10 20 J0 Рис. 2.21 нированно определяемых вида х = — ax + <Jy, у = гх—у—xz, z = — bz + xy. (6.12) Здесь х, у, z — фазовые переменные, а, г и b — положительные пара- метры. На рис. 2.21 при Ь=8/3 на плоскости параметров о, г изображена бифуркационная граница Гъ непосредственно выше которой у урав- нений (6.12) имеются решения, носящие хаотический непредсказуемый характер. Вид соответствующей фазо- вой траектории показан на рис. 2.22. Это фотография фазовой траектории с экрана осциллографа. При. значениях параметров между кривыми 1\ и Г2, по- мимо хаотических движений, возможны устойчивые равновесия и движения, стремящиеся к ним. Непосредственно вы- ше кривой Г2 все движения хаотические, все они неустойчивы по Ляпунову. Чтобы в какой-то мере связать приводимые ранее примеры детерми- хаотических случайных последовательно- стей с тем, что наблюдается у решений уравнений Лоренца (6.12), за- метим, что если пересечь фазовое пространство плоскостью z=r—1, Рис. 2.22 то последовательные точки пересечения фазовых траекторий с этой плоскостью с хорошим приближением ложатся на некоторую кривую, порождая на ней точечное отображение такого же типа, как и отобра- жения (6.1), (6.2) и (6.10), (6.11). Вид этого точечного отображения по- казан на рис. 2.23. График точечного отображения таков, что всюду Их/Л|>1, и поэтому имеет место неограниченное нарастание любого отклонения. Он такого типа, как график на рис. 2.19 и графики, изоб- раженные на рис. 2.24 и 2.25 и отвечающие точечным отображениям (6.1) и (6.2). На этом покончим с первым выводом. Он общего характера и ка- сается не только теории управления, но и всей науки в целом. Пожа-
s 7. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ДИНАМИЧЕСКОЙ СИСТЕМЫ 61 дуй, он даже мировоззренческого характера. Второй вывод специаль- ный, он будет относиться прежде всего к теории управления. Естественно думать, что управление вносит организованность и по- рядок. На языке теории динамических систем это соответствует появ- лению устойчивости, синхронизации движений отдельных подсистем в общее ритмичное движение. Так, управление уличным движением вносит порядок в невероятный хаос, который мог бы быть без него, наша нервная и гормональная системы упорядочивают функционирова- ние многих миллиардов клеток нашего организма. Выход из этой ор- ганизованной упорядоченности грозит организму гибелью. Примером тому — рост раковых опухолей, клеток, потерявших связь со всем организмом и растущих в нем как в питательной среде. Но вы видели, что результатом управления может быть и возникновение неустойчи- вости, беспорядка и хаоса. При этом не всегда возникшая хаотич- ность не может быть полезным и выгодным режимом функционирова- ния системы. Это, во всяком случае, не так в задаче о подъеме по лест- нице вверх, это не так при необходимости организации поиска, где, возможно, именно хаотичность необходима для поиска решения и раз- вития. Но дальнейшее обсуждение этих очень интересных вопросов оставим до другого случая. § 7. Математическая модель динамической системы Предыдущее изложение осветило содержательную сторону понятий состояния и динамической системы. Настал черед математической фор- мализации. Эта формализация возможна в весьма различных планах и изоморфных описаниях. Ниже она дается в геометрическом аспекте, в том, который ей придал А. Пуанкаре (1854—1912). Он был геометр по образу мышления, он мыслил геометрически. Во всяком случае, так он сам говорил. Такая геометр изованна я модель динамической системы достаточно удобна и наглядна, она позволяет непосредственно
62 ГЛ. 2. ПОНЯТИЯ СОСТОЯНИЯ И ДИНАМИЧЕСКОЙ СИСТЕМЫ связать теорию динамических систем с топологией. Особенно наглядна она для динамических систем небольшой размерности, где ее образ — фазовый портрет—доступен прямому геометрическому созерцанию. Фазовый портрет позволяет «понимать» динамику системы, логику и обусловленность ее поведения. Он позволяет понять, как и отчего может меняться поведение системы. Многие, если не все, колебатель- ные явления нашли в фазовом портрете свое наглядное и адекватное отражение. Но все же это не единственная формализация и даже не единствен- ная хорошая модель. Так называемая функциональная модель имеет тоже свои положительные стороны. Она берет свое начало от идеи черного ящика, идеи функционального преобразования, связывающего входные действия с выходными, от электротехники и операционного исчисления, от логических устройств и вычислительных машин. Функ- циональная модель не есть портрет динамического поведения, она от- ражает только функциональные связи. Модель Пуанкаре исходит из представления множества возможных состояний в виде некоторого пространства состояний, фазового про- странства. Состояния реальных динамических систем могут быть близ- кими или далекими. Для них имеется естественное понятие близости. Для механической системы близость — это близость конфигураций и скоростей; для электродинамической — близость электромагнитных полей. Это естественное понятие близости делает множество всевоз- можных состояний пространством состояний, точнее, топологическим пространством. Каждая точка этого пространства отвечает некоторому состоянию S и обратно. Это соответствие по смыслу должно1 быть взаимно однозначным и взаимно непрерывным, фазовое пространст- во — это изоморфный геометрический образ множества всевозможных состояний S. Изменение состояния S означает перемещение в фазовом простран- стве точки S, которая описывает при этом некоторую траекторию, на- зываемую фазовой траекторией. Из каждой точки фазового прост- ранства выходит одна и только одна фазовая траектория. Так что все фазовое пространство разбивается на непересекающиеся траектории. Геометрический образ фазового пространства в виде пучка составляю- щих его фазовых траекторий или в виде фазового пространства, раз- битого на фазовые траектории, называется фазовым портретом дина- мической системы. Фазовый портрет динамической системы определяет изменение ее состояния S из любого начального. Изменение состояния S со временем может быть задано оператором (А/) так, что S(t + M) = T (AZ)S(/). (7.1 Оператор Т (А/) однозначен и удовлетворяет очевидному соотношению 7(A/2)T(A/1) = T(A/1 + AQ, (7.2)
§ 7. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ДИНАМИЧЕСКОЙ СИСТЕМЫ 63 означающему, что последовательные изменения состояния S(t) за времена A/j и А/2 совпадают с изменением состояния S(t) за время A/j-f-A/a- Таким образом, с динамической системой связано некоторое фазо- вое пространство Ф с заданным в нем оператором Т (ДТ). Опера- тор Т(А/) однозначен при А/^0 и определяет разбиение фазового пространства Ф на фазовые траектории — фазовый портрет динами- ческой системы. Такова общая геометризованная модель динамической системы, она определяется фазовым пространством Ф и оператором Т(А/). Теперь о некоторых подробностях. Пространство Ф может быть не только непрерывным, но и дискретным. Оно может быть в одних своих частях непрерывным, в других — дискретным. Оператор Т(А/) может быть определен для всех А£>0, но возможны случаи, когда он изве- стен лишь для некоторых значений А/ или пар значений времен и В случае, когда фазовое пространство Ф непрерывно, оно может быть конечной или бесконечной размерности. Наконец, оно может иметь ту или иную топологическую структуру. Так, оно может быть двумерной плоскостью, двумерной сферой или тором. Оно может быть и других топологических типов. Оператор T(\t) может быть задан аналитическими или логическими формулами, он может быть задан дифференциальными уравнениями или некоторыми вычислительными алгоритмами. Наиболее привыч- ными формами задания оператора являются дифференциальные урав- нения в обычных или частных производных. С конкретными видами фазовых пространств, операторов и фазо- вых портретов мы познакомимся в следующей главе. Там мы встретим- ся с различными видами фазового пространства и с различными фор- мами задания и определения оператора T(&t). В следующих главах мы встретимся и с довольно различными фазовыми портретами кон- кретных динамических систем.’ Эти конкретные динамические системы будут различной природы, как детерминированными, так и стохастическими. Однако эти их осо- бенности не имеют отношения к математической модели динамической системы. Они лежат вне нее. Они относятся не к самой математической модели динамической системы или к ее фазовому портрету, а к кон- кретной содержательной трактовке понятия состояния.
ГЛАВА 3 ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ § 1. Фазовый портрет физического маятника Рассмотрение примеров динамических систем и их фазовых порт- ретов начнем с плоских движений физического маятника. Этот пример интересен тем, что позволяет сравнительно легко построить фазовый портрет и дать его физическую интерпретацию, а также большой ролью, которую маятник сыграл в развитии механики, физики, теории колебаний. Рис. 3.1 Рассмотрим физический маятник, совершающий плоские движения относительно неподвижной точки подвеса (рис. 3.1). Мгновенное по- ложение его определим углом <р отклонения от вертикальной оси, про- ходящей через точку подвеса. Так как движущийся маятник пред- ставляет собой механическую Систему, то мгновенное положение <р и скорость <р изменения положения определяют его состояние. Мно- жество всевозможных состояний маятника определяется условиями —л^ф^Тл, —оо<ф<+оо, причем при <р=—л и <р=л маятник за- нимает одно и то же верхнее положение. Как выбрать фазовое пространство маятника? Прежде всего ясно, что это должно быть двумерное пространство, и поэтому естественно взять плоскую полоску (рис. 3.2) с одной исключенной границей, на- пример, ф=—л. Действительно, тогда каждому состоянию маятника соответствует одна точка и, наоборот, любой точке полосы отвечает
§ 1. ФАЗОВЫЙ ПОРТРЕТ ФИЗИЧЕСКОГО МАЯТНИКА 65 одно определенное состояние маятника. Осталось проверить, сохра- няется ли в выбранном пространстве понятие близости состояний. Близкими естественно считать состояния, в которых углы близки и скорости близки. Если близость сохраняется, то выбранное прост- ранство — фазовое. На самом же деле в пространстве, которое мы выбрали, эта близость не сохраняется. Действительно, если, как пока- зано на рис. 3.2, взять одну точку М близкой к А (л, <р), а другую — У близкой кВ(—л,<р),то между собой они находятся далеко, но им от- вечают близкие состояния. Добиться сохранения близости можно, если вырезать полоску и склеить ее края. Получится цилиндр (рис. 3.3). Это и есть фазовое пространство физического маятника. Попробуем освоиться с фазовым пространством, для чего рассмотрим рис. 3.3. Возьмем две точки 0t (ср=О, <р=0) и 02(<р=л, <р=0). Обе они отвечают состояниям равновесия маятника. Точка соответствует нижнему состоянию равновесия, когда маятник 'спокойно висит. Точка 02 — верхнему состоянию равновесия, когда маятник спокойно торчит вверх. Такое состояние теоретически возможно. Мы знаем, что верхнее и нижнее состояния равновесия маятника существенно разли- чаются. Однако с точки зрения фазового пространства точки 01 и 02 ничем не отличаются друг от друга. Теперь представим себе, что изменение состояний маятника изображается замкнутой кривой Г1( охватывающей точку 0х. Что это значит? Это означает, во-первых, что маятник колеблется возле нижнего состояния равновесия, угол и ско- рость меняются в некоторых определенных пределах, во-вторых, со- стояния периодически повторяются. То есть замкнутой кривой, охва- тывающей нижнее состояние равновесия, отвечает периодическое коле- бательное движение маятника около состояния равновесия. Теперь возьмем замкнутую кривую Г2, охватывающую цилиндр. Движению фазовой точки по этой кривой соответствует вращательное движение маятника в положительном направлении. Если нарисовать такую же кривую в нижней части цилиндра, то ей соответствует вращательное движение маятника в другую сторону. А теперь выясним, как действительно маятник движется. Для этого найдем оператор Т динамической системы и построим разбиение фазо- вого цилиндра на траектории. Уравнение, описывающее движение маятника в предположении отсутствия трения, имеет вид 7cp-f-/ngrZsin<p = O, (1.1) где I — момент инерции маятника относительно точки подвеса, m — масса маятника, I — длина маятника. Решение уравнения (1.1) однозначно определяется начальными ус- ловиями <р(О)=<ро, <р(О)=фо и, следовательно, является оператором рассматриваемой динамической системы. Уравнение (1.1) интегрирует- ся в эллиптических функциях, однако, как приятно заметить, для на- хождения фазовых траекторий нет необходимости его интегрировать, достаточно найти первый интеграл. Этим первым интегралом является
66 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ интеграл энергии, и он легко находится, если умножить уравнение (1.1) на (fdt и проинтегрировать. Получим первый интеграл уЛр2—mgl cos <р = const. (1.2) Первое слагаемое в (1.2) дает значение кинетической энергии маятни- ка, второе — потенциальной, а весь первый интеграл означает, что при движении маятника его полная энергия не меняется. Если за нуль отсчета потенциальной энергии выберем нижнее положение маятника, то интеграл (1.2) перепишется сле- дующим образом: Iq2 + mgl(\—соэф) = /1, (1.3) где h— полная энергия маятника. Полученный интеграл (1.3) дает связь между <р и <р, т. е. является уравнением фазовых траекторий. Что- бы построить их, прибегнем к очень простому геометрическому приему. Выразим ф из уравнения (1.3); полу- чим Ф = + ]/4p-V(<p)], (1.4) Рис. 3.4 где У(ф)=т£/(1—соэф) — потенци- альная энергия маятника. Пост- роим график функции V (ф) (рис. 3.4). Проведем прямую У(ф)=/г и от- ложим стрелочками значения h—У(ф). Там, где h—Е(ф)>0, стрелоч- ки направлены вверх и там существуют действительные значения <р; там, где h—V (ф)<0, стрелочки направлены вниз и действительных значений ф не существует. Под этим рисунком нарисуем развертку фазового цилиндра. На развертке для каждого h отложим значения Ф и ф. Получим фазовую траекторию. Отметим стрелкой направление движения фазовой точки (направление изменения состояния) по.фазо- вой траектории. Там, где ф>0, фазовая точка движется в направлении увеличения ф. При ф<0 движение происходит в противоположном на- правлении. В каких пределах можно менять А? Если /г<0, то все стрелки на- правлены вниз. Действительных значений ф нет. При h=0 фазовой траекторией является единственная точка 01 — это состояние равно- весия. Для /г>0, но небольшого, получаем замкнутую фазовую траек- торию, охватывающую точку 01. При дальнейшем увеличении h бу- дем получать подобные предыдущим кривые, но больших размеров.
§ 1. ФАЗОВЫЙ ПОРТРЕТ ФИЗИЧЕСКОГО МАЯТНИКА 67 Так будет до значения h, равного максимальному значению функции V (<р). Если дальше увеличивать h, то будем получать другие кривые. Это тоже замкнутые кривые, но они охватывают цилиндр. Причем каждому h отвечают две такие кривые: одна для ф>0, другая для Ф<0. Теперь вновь вернемся к значению h, равному значению функции У(ф). Этому значению соответ- ствуют три фазовые траектории: точка 02 — со- стояние равновесия и две траектории Si и S2, которые отделяют (сепарируют) замкнутые траек- тории, охватывающие точку 01, от замкнутых траекторий, охватывающих цилиндр. Такиетраекто- рии называются сепаратрисами. Итак, что мы имеем? Точкам 0± и 02 соответ- ствуют состояния равновесия. Кривым 1\ от- вечают периодические колебательные движения, а кривым Г2 — периодические вращательные движения в одну сторону и в другую. Кривым Si и S2 соответствуют только теоретически возможные движения, когда маятник асимп- тотически приближается к верхнему состоянию равновесия с одной и с другой стороны. Раньше мы не могли отличить нижнее состояние равновесия от верхнего. Теперь мы это легко сделаем. Рассмотрим фазовые траектории на цилиндре. Вокруг нижнего состояния равновесия идут замкнутые траектории. А вокруг верхнего таких траекторий нет. Из верхнего состояния равно- весия выходят две траектории Si и S2, которые вновь в него входят. С двух сторон к траекториям Si и S2 примыкают траектории колеба- тельных движений, а с двух других сторон — траектории вращатель- ных движений. Особенно хорошо это видно на обратной стороне ци- линдра (рис. 3.5). Причем становится ясно, в чем существенное раз- личие верхнего и нижнего состояний равновесия. Они отличаются тем, что близкие к ним траектории ведут себя по-разному, хотя сами точки 01 и 02, конечно же, одинаковы. В чем суть этого различия? Возьмем фазовую точку вблизи состояния равновесия. Это означает, что на маят- ник подействовало малое возмущение. Если он находился в нижнем положении, то будет совершать небольшие колебания возле этого по- ложения. Если же он находился в верхнем положении, то при сколь угодно малом возмущении он будет либо сильно качаться, далеко ухо- дя от нижнего состояния равновесия, либо будет вращаться. Увидеть это различие и определить, в чем оно состоит, нам позволил фазовый портрет системы. Итак, на этом примере мы увидели конкретную геометрическую ин- терпретацию всех возможных движений динамической системы в виде разбиения фазового цилиндра на фазовые траектории. Это, по сущест- ву, геометрическая модель возможных движений маятника. Такой портрет можно построить для любой динамической системы. Почему
68 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ это можно сделать? Потому, что мы располагаем понятием состояния, понятием фазового пространства, понятием оператора, который опре- деляет понятие фазовой траектории и единственности разбиения фазо- вого пространства на траектории системы. § 2. Автоколебания генератора с неоновой лампочкой Рассмотрим электрическую схему с неоновой лампочкой, изобра- женную на рис. 3.6. Источник постоянного тока с.э. д. с., равной Е, включен в так называемую 7?С-цепь, состоящую из последовательно соединенных сопротивления R и конденсатора емкости С. Цепь нагру- жена неоновой лампочкой, включенной параллельно конденсатору. Если неоновая лампочка пропускает ток, то газ, наполняющий ее, находится в ионизированном состоянии и светится — лампочка горит; если она не пропускает ток, то не горит. Неоновую лампочку можно считать нелинейным сопротивлением, у которого зависимость меж- ду током i и напряжением и (вольт-амперная характеристика) выра- жается функцией i=f(u). На рис. 3.7 изображен график этой функ- ции ради простоты только для положительных значений и, для отри- цательных и график, симметричен относительно начала координат. Посмотрим, как изменяется величина тока, текущего через лам- почку, при изменении напряжения на ней. При малом напряжении лампочка не горит, ток через нее не проходит. Если напряжение уве- личивается, то при некотором «напряжении зажигания» и3 лампочка загорается, причем через нее сразу же течет ток конечной величины. При дальнейшем увеличении напряжения ток немного увеличивается, лампочка горит ярче, и ничего существенного при этом не происходит. Самое удивительное произойдет, если будем уменьшать напряжение и на горящей лампочке. Уменьшаем напряжение до и3 — лампочка го- рит, уменьшаем дальше — все еще горит и лишь при некотором напря- жении иг, которое назовем «напряжением гашения», лампочка по- гаснет. При этом ток изменится скачком от значения, отвечающего на- пряжению гашения, до нуля. Все эти особенности вольт-амперной характеристики неоновой лампочки отражены на рис. 3.7 и прояв- ляются в том, что функция f(u) — разрывная и двузначная на интер- вале мг^и<^м3.
§2. АВТОКОЛЕБАНИЯ 69 Теперь попробуем разобраться в том, что происходит в этой элект- рической системе. Прежде всего ясно, что если величина э.д.с. Е источника питания меньше, чем иг, то в системе всегда будет устанав- ливаться режим, при котором лампочка не горит. Кроме этого очевидного случая интуитивно ясно, что будет в дру- гом крайнем случае, когда Е>иэ. Если напряжение источника пита- ния достаточно велико, то, в каком бы состоянии лампочка ни находи- лась в момент включения схемы, спустя некоторое время она обяза- тельно загорится и больше не погаснет. Что же будет происходить между этими крайними случаями? Для выяснения этого построим ма- тематическую модель системы, т. е. найдем состояние системы, ее фа- зовое пространство и оператор изменения состояния. За первоначальное описание системы возьмем — ток через со- противление R, q — заряд конденсатора, и — напряжение на неоно- вой лампе и на конденсаторе, i — ток через лампу. Все эти величины меняются со временем. Установим связи между ними. Напряжение на конденсаторе и величина заряда связаны уравнением q=Cu. В со- ответствии с вольт-амперной характеристикой ток через неоновую лам- почку i=f(u), график функции / (и) изображен на рис. 3.7. Закон Кирх- гофа для токов (ток через конденсатор равен dqldf) и напряжений дает еще два уравнения: = I + Ri1-^-u — E. Для четырех переменных в описании системы имеем четыре уравнения. Но легко заметить, что описание избыточно, и можно обойтись лишь одной переменной, исключив из уравнений три остальные. Какие переменные исключить, а какую оставить? Ясно, что труднее всего исключить переменную и, так как она входит аргументом в нелиней- ную функцию f(u). Ее и оставим. Исключая iu I и q из уравнений, по- лучим i = ±[E-u-Rf(u)]. (2.1) Теперь можно думать, что и является состоянием динамической систе- мы. Однако это не так. Уравнение (2.1) не позволяет однозначно опре- делить последующие значения и для любых начальных значений. Дей- ствительно, если взять начальное значение и из интервала [цг, н3], то нельзя однозначно решить уравнение (2.1), так как неизвестно, какую ветвь функции f(u) взять, то ли нижнюю, когда лампочка не горит, то ли верхнюю, когда лампочка горит. Остюда следует, что опи- сание системы только напряжением и на лампочке неполное, и его надо дополнить описанием внутреннего состояния лампочки. Лампоч- ка имеет два внутренних состояния: «не горит» и «горит». Обозначим внутреннее состояние лампочки буквой к и придадим ей два значе- ния: х=0, если лампочка не горит, и х=1, если лампочка горит. Зна- чению х=0 отвечает нижняя ветвь характеристики лампочки, а х=1
70 ГЛ. з. динамическая система и ее фазовый портрет отвечает верхняя ветвь. Закон смены внутреннего состояния неоновой лампочки определяется условиями смены значений х. Если х=0, то переход к значению х = 1 происходит при «=и3 и и>0; если х=1, то переход к х=0 происходит при и=иг и м<0. Теперь дифференциаль- ное уравнение (2.1) и закон изменения х позволяют по заданным зна- чениям иих однозначно определить их дальнейшее изменение. Дей- ствительно, если х=1, то в уравнении (2.1) надо взять верхнюю ветвь функции /(«); если х=0, то надо взять нижнюю ветвь, т. е. введением х-0 дополнительного описания лампочки я-1 мы преодолели неоднозначность функ- ] |_ции f(u). Таким образом, совокупность j| х=(х, и) является полным описанием динамической системы или ее состоя- Рис. 3.8 нием- Теперь перейдем к выбору фа- зового пространства. Прежде всего определим понятие близости состояний системы. Близкими естест- венно считать состояния, для которых х одно и то же, а значения и близки. Тогда за фазовое пространство естественно выбрать две полу- прямые: одну, отвечающую х=1 и и^иг, и другую для х=0 и и^и3 (рис. 3.8). Переход с одной полупрямой на другую может происходить только при мг и и3 в направлениях, указанных пунктирными стрелка- ми на рис. 3.8. Заметим, что за фазовое пространство системы можно взять график функции /(«). Действительно, сравнивая рис. 3.7 и 3.8, видим, что график функции /(«) и изображение фазового прост- ранства состоят из двух полуограниченных линий. Верхние линии отвечают значению х=1, а нижние — х=0. Переход с верхней на нижнюю происходит при и=иг, а с нижней на верхнюю — при и=и3. Теперь перейдем к изучению изменений состояния системы. Фазо- вое пространство будем изображать в виде графика функции f(u). Выберем на графике f(u) произвольную точку (х, и) и возьмем ее за начальное состояние системы. Изменению состояния будет отвечать движение фазовой точки по фазовому пространству, причем закон дви- жения определяется оператором системы, т. е. дифференциальным урав- нением (2.1) и законом изменения х. Надо решить уравнение (2.1), учитывая изменение х. Однако можно определить, как движется фазо- вая точка, не интегрируя уравнение (2.1). Действительно, для каждой точки (х, и) фазового пространства правая часть дифференциального уравнения (2.1) определяет и. Зная и, легко понять, как движется фазовая точка по фазовому пространству. Там, где и>0, она движется вправо в сторону увеличения и, где и<0, движется влево. Определить и можно или вычисляя правую часть уравнения (2.1), или графически. Графически это делается следующим образом: в декартовой системе координат, на оси абсцисс которой откладываются значения и, строим график двух функций y=f(u) и у=(Е—u)/R (рис. 3.9). График y=f(u) является фазовым пространством нашей системы. Графиком второй
§2. АВТОКОЛЕБАНИЯ 71 функции является прямая L. В каждой точке (х, и) определим графи- чески разность (Е—u)/R—f(u) и отметим ее стрелочками, Как пока- зано на рис. 3.9. Если разность положительна, то стрелочку направим вверх; если отрицательна, то вниз. Построенные таким образом раз- ности пропорциональны с коэффициентом 1/С значению и. Посмотрим, как движется фазовая точка в случае, изображенном на рис. 3.9. Прямая L и график функции f(u) пересекаются в одной точке 01. Здесь «=0 и, значит, точка 0^ является состоянием равно- весия. Слева от него «>0, справа «<0. Следовательно, все фазовые точки слева и справа приближаются к точке 01. Точка 01 — устойчи- вое состояние равновесия. Мы получили фазовый портрет системы в этом случае. Он опреде- ляется единственным устойчивым состоянием равновесия, к которому фазовая точка приходит из любого начального состояния. В состоянии равновесия х=0 и и=Е, т. е. лампочка не горит и напряжение на ней и=Е<иг. Какие еще движения возможны в системе? Ответ на такой вопрос можно получить, если рассмотреть все возможные случаи взаимного расположения прямой L и графика функции /(«). Рассмотрим случай, изображенный на рис. 3.10. В фазовом пространстве есть одно состоя- ние равновесия — точка О2. Состояние равновесия устойчивое, так как фазовая точка из любой части фазового пространства приближает- ся к 02. Казалось бы, все аналогично предыдущему случаю, снова имеем единственное состояние равновесия, однако в нем х = 1, а это означает, что лампочка горит, т. е. точке 02 отвечает качественно иное состояние системы. Теперь рассмотрим промежуточный случай, когда Е>и3, но пря- мая L не пересекает график функции /(«) (рис. 3.11). В этом случае в фазовом пространстве системы нет состояний равновесия, но есть замкнутая фазовая траектория ABCD, к которой фазовая точка при- ходит из любого начального состояния. Такую замкнутую фазовую траекторию называют предельным циклом. Предельному циклу отве-
72 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ чает периодический процесс смены состояний в системе, периодическое колебание, названное А. А. Андроновым автоколебанием. Отличитель- ной особенностью автоколебания от других видов периодических ко- лебаний в динамических системах является то, что это колебание си- . стема генерирует сама и его вид, пери- од и амплитуда определяются только свойствами системы. i I Итак, в этом случае фазовый порт- | рет системы определяется единственной замкнутой фазовой траекторией — пре- -------Ai__________ у дельным циклом. Все остальные фазо- х-о иг______________е вые ТраекторИИ с увеличением времени к Рис. 3.11 нему приближаются. Такой предельный цикл называется устойчивым. Устойчи- вому предельному циклу отвечают автоколебания системы, при ко- торых лампочка поочередно то загорается, то гаснет. На рис. 3.12 изображено, как изменяется во времени состояние, когда система совершает автоколебания. Приведены графики измене- ния напряжение u(t) на конденсаторе и тока i(t) через неоновую лам- почку. За начальное взято состояние, отвечающее точке А на рис. 3.11. Когда фазовая точка движется по участку АВ предельного цикла, лампочка не горит, а конденсатор заряжается до значения напряжения и3. Затем фазовая точка перескакивает на ветвь х = 1, лампочка заго- рается, причем ток через нее имеет сразу же конечное значение. Даль- нейшее движение фазовой точки происходит по участку CD. Конденса- тор разряжается через лампочку. Напряжение на нем уменьшается, уменьшается ток через лампочку. При значении напряжения, равном иг, лампочка гаснет, ток через нее изменяется скачком до нуля и про- цесс повторяется. Для того чтобы найти период автоколебаний, надо знать конкретный вид функции f(u). Будем считать ее кусочно-линей- ной, как показано на рис. 3.13. Тогда ее можно описать так: О, и— U если х = О, если х = 1,
§ 2. АВТОКОЛЕБАНИЯ 73 где jj . uTi3—u3ir D и3 — иг Движение фазовой точки на участке АВ описывается уравнением RCu=E—и. Его решение при начальном условии u(0)=ur имеет вид и~Е — (Е—иг)ехр ( — ~ f). Время движения по участку АВ определяется выражением T1 — RC\n-p—Движение фазовой точки по участку CD описы- вается уравнением RCu^EA-^-U-^ — ^u. Кл \ Ад / Решение его при начальном условии u(0)=u3 имеет вид и=Е+т^и~(Е+тгли~Ua}ехр Из условия u(7'2)=ur определяется время движения по участку CD. Оно равно RR С E+r~U Ua т _ ААдЬ 1п _Ад_____ Ад Период Т автоколебаний равен 7’=7’1+7,2. Он пропорционален ем- кости С конденсатора и довольно сложно зависит от других парамет- ров системы. Рассмотрим последний из качественно различных случаев взаимо- расположения графика функции f(u) и прямой L, показанный на рис. 3.14. Здесь ur<ZE<Zu3H прямая L пересекает обе ветви характери- стики лампы. В фазовом пространстве есть два состояния равновесия 0t и 02. Оба они устойчивые, но несколько в ином смысле, чем в слу- чаях, изображенных на рис. 3.9 и 3.10. Если в случаях единственного состояния равновесия фазовая точка приходит к нему из любого на- чального положения, то в случае двух состояний равновесия (рнс. 3.14) все фазовое пространство делится на две области: в одной из них фа- зовые точки приходят к состоянию равновесия О19 в другой приходят к О2. Это области притяжения состояний равновесия. У состояния равновесия 01 — это нижняя ветвь фазового пространства; у состоя- ния равновесия 02 — это верхняя ветвь. Если начальное возмущение невелико и не выводит фазовую точку из области притяжения неко- торого состояния равновесия, то установится то же самое равновесие. Если же возмущение велико, то состояние равновесия может сменить- ся. Таким образом, в этом случае состояния равновесия устойчивы не
74 гл. з. динамическая система и ее фазовый портрет при всех начальных возмущениях, а лишь при таких, которые не вы- водят фазовую точку из области притяжения состояния равновесия. Итак, в этом случае фазовый портрет системы определяется двумя состояниями равновесия, устойчивыми по отношению к небольшим начальным возмущениям. В одном из них, — лампочка «не горит», в другом, 02 — «горит». То, какое из них установится в системе, за- висит от начального состояния. Если в начальный момент лампочка не горела, то не будет гореть потом; если горела, то будет продолжать гореть. Переход системы из одного установившегося состояния в дру- гое можно осуществить, подавая, например, импульс напряжения на конденсатор. Такой режим работы, когда с помощью некоторого управляющего воздействия можно выбрать одно из двух возможных установившихся состояний, называется триггерным. Таким образом, мы построили четыре качественно различных фа- зовых портрета динамической системы, отвечающие различным случаям взаиморасположения графика вольт-амперной характеристики i= =f(u) лампы и прямой L: i=(E—u)/R. Чтобы знать, какой режим уста- новится в системе и как перейти от одного режима к другому, надо изучить зависимость фазового портрета от параметров. Пусть мы можем распоряжаться величиной э. д. с. батареи и сопротивлением резистора, т. е. параметрами Е и R. Рассмотрим плоскость параметров Е и R, причем Е>0 и R^Q (рис. 3.15). Плоскость параметров Е и R разби- вается некоторыми линиями на четыре области, каждой из которых отвечает определенный фазовый портрет. Границы этого разбиения определяются таким расположением прямой L по отношению к гра- фику f(u), изменение которого приводит к качественно различным фа- зовым портретам. Как следует из рис. 3.9—3.11, 3.14, именно таким будет расположение прямой L, когда она пересекает либо нижнюю ветвь графика функции f(u) в точке и3, либо верхнюю ветвь в точке иг. Это будет при значениях параметров либо Е=и3, либо/? = = (Е—иг)/1г. В плоскости параметров Е и R эти условия определяют уравнения граничных прямых.
§2. АВТОКОЛЕБАНИЯ 75 В этом примере генератора релаксационных колебаний довольно легко удается построить фазовый портрет и изучить его зависимость от параметров. Но этот пример еще интересен и тем, что в нем опера- тор динамической системы, который задается дифференциальным уравнением и законом смены х, не является однозначно обратимым. Действительно, рассмотрим случай, изображенный на рис. 3.11; если система находится в состоянии х=0, ur<Lu<.u3, то дальнейшее его изменение определяется однозначно, величина и растет и за конечное время достигает значения и3. Затем х меняется и становится равным 1, а и начинает убывать и т. д. Но если мы попытаемся определить, откуда фазовая точка пришла в это состоя- ние, то ничего не получится. Она могла прийти сюда как с ветви х=0, так и с ветви х=1, т. е. опе- ратор динамической системы одно- значно необратим. Вернемся к электрической схеме генератора релаксационных коле- баний с неоновой лампочкой и обратим внимание на то, что в ее мате- матической модели не нашли отражения процессы установления тока, связанные с наличием самоиндукции электрических контуров и инер- ционностью газового разряда в неоновой лампе. Это пренебрежение самоиндукциями, пусть очень маленькими, и инерционностью газового разряда привело к тому, что в рассмотренной математической модели могут происходить мгновенные изменения тока. Теперь рассмотрим более полную электрическую схему с неоновой лампочкой, изобра- женную на рис. 3.16, где инерционность установления тока учитывает- ся введением индуктивности L в контур лампы. Неоновую лампу, как и прежде, будем считать нелинейным сопротивлением. Однако вид связи между напряжением и током через нее требует уточнения. Дело в том, что ранее неоновая лампочка присоединялась непосредственно к конденсатору, поэтому напряжение v на ней совпадало с напряжением и конденсатора и определялось его зарядом. Изменение этого заряда определяло изменение напряжения на неоновой лампочке. При изме- нении напряжения на неоновой лампочке ток через нее менялся в со- ответствии с характеристикой, изображенной на рис. 3.7. Теперь в контуре неоновой лампочки есть индуктивность L, которая опреде- ляет ток, проходящий через лампу, а не напряжение на ней. Поэтому теперь нас интересует зависимость напряжения v на лампе от проходя- щего через нее тока i, а не зависимость тока от приложенного напря- жения. Казалось бы, эту зависимость можно получить простым обра- щением рассмотренной ранее вольт-амперной характеристики лампы, однако это не так. Не так это уже потому, что на характеристике, пред- ставленной на рис. 3.7, неизвестно, какие напряжения отвечают зна- чениям тока между нулем и минимальным током горящей лампы. В прежней модели этот вопрос не возникал, теперь на него необходимо ответить. Оказывается, значениям тока в этом промежутке отвечает
76 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ так называемый падающий участок зависимости напряжения от тока, участок, где с ростом тока напряжение не возрастает, а убывает. Соот- ветствующая характеристика связи тока и напряжения изображена на рис. 3.17. Теперь можем перейти к рассмотрению динамики электрической системы, схема которой изображена на рис. 3.16. Используя законы Кирхгофа и известные физические зависимости, запишем уравнения для зарядов, токов и напряжений в системе « = £, Rii + u = E, L^ = u—v, q = i±—i, v = g(i). (2.2) В этих уравнениях q — заряд конденсатора, й — ток через сопротив- ление R, i — ток в контуре неоновой лампы, v — напряжение на лам- пе н и — напряжение на конденсаторе. Функция g(i) выражает за- висимость напряжения на неоновой лампе от про- ✓ текающего через нее тока. Ее график изображен / на рис. 3.17. / Исключая из уравнений (2.2) переменные q, й \_Х и v, получим два дифференциальных уравнения ~dt=~—g l> = g(l)> (2.3) Рис. 3.17 описывающие изменение и и й Значит, напряжение на конденсаторе и ток i в контуре лампы можно принять за состояние динамической системы, а за фазовое простран- ство взять двумерную плоскость переменных и и й Теперь перейдем к изучению фазового портрета динамической систе- мы и, в частности, выясним, как связан двумерный фазовый портрет с рассмотренным ранее одномерным и как происходит переход от пер- вого ко второму при L->0. Введем обозначения <р(и, i)=~(E —и—Ri), ф(и, i) = u—g(i) (2.4) н, используя их, запишем уравнения (2.3) в виде ^ = ф(«, О, = О- (2-5) Состояния равновесия динамической системы определяются из урав- нений <р («, i) = Q, ф(и, i) = Q. (2.6) На фазовой плоскости (u, i) эти уравнения задают две линии, точки пересечения которых отвечают состояниям равновесия. Согласно (2.4) одной из них является прямая i (Е — и), а другой—кривая i=/(u), где функция /(и) — обратная по отношению к u=g(i) (рис. 3.18).
§ 2. АВТОКОЛЕБАНИЯ 77 Из рис. 3.18 видно, что возможны различные сл.учаи, когда имеются одно, два или три состояния равновесия. Ограничимся рассмотре- нием только одного из них, когда имеется единственное состояние рав- новесия, расположенное на падающем участке зависимости u=g(i). Заметим, что при L—0 этому случаю отвечает режим генерации релак- сационных колебаний. Остальные возможные случаи могут быть рас- смотрены аналогичным образом. Перейдем к изучению остальных фазовых траекторий. Деля вто- рое уравнение системы (2.5) на первое, получим дифференциальное уравнение первого порядка = (2.7) du <p(zz, О v устанавливающее связь между перемен- Г — ными состояния. Его решения определя---------------> ют фазовые траектории. Но, к сожале- рис 3 18 нию, уравнение (2.7) не интегрируется, и поэтому мы будем анализировать ре- шения качественно, используя особенность системы (2.5) и урав- нения (2.7), состоящую в том, - что параметр L — очень маленький, близкий к нулю. Сначала проанализируем уравнения (2.5). Они определяют скоро- сти движения фазовых точек. Поскольку параметр L мал и в предель- ном случае стремится к нулю, на фазовой плоскости можно выделить две области, в одной из которых скорости движения фазовых точек ко- нечны и невелики по сравнению со скоростями движения в другой, где происходят быстрые движения фазовых точек с тем большими ско- ростями, чем меньше значение L. Действительно, рассмотрим на фазо- вой плоскости кривую Г: i=f (и), в точках которой ф(и, i)=0, и возь- мем ее окрестность, где функция ф(и, i) принимает маленькие значения порядка L. Так как = jj'b (и> О» то в этов окрестности ско- рости изменения-i конечны при любых сколь угодно малых значениях L. Вне этой окрестности картина иная. При уменьшении L величина di/dt увеличивается и в предельном случае при L->0 стремится к бес- конечности. Движения фазовых точек в этой области естественно на- звать быстрыми по сравнению с медленными движениями в окрестно- сти кривой Г. В предельном случае при £->0 область медленных дви- жений стягивается к кривой Г, а вся остальная часть фазовой плоско- сти является областью быстрых движений. Рассмотрим по отдельности быстрые и медленные движения. Прежде заметим, что правая часть уравнения (2.7) определяет в каждой точке угловой коэффициент di/du касательной к фазовой траектории. В об- ласти быстрых движений его величина тем больше, чем меньше L, и в предельном случае при L->0 он становится бесконечно большим. Это означает, что при L малом, но не равном нулю, фазовые траектории
78 ГЛ. Г. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ быстрых движений близки к вертикальным прямым u=const (рис. 3.19), т. е. на них переменная и меняется мало, тогда как i быстро из- меняется, тем быстрее, чем меньше L, и поэтому эти движения можно приближенно описать уравнениями и = const, 1-^- = ф(и, t), (2.8) притом тем точнее, чем меньше L. В предельном случае фазовые траек- тории совпадают с прямыми u=const, и движение по ним происходит Рис. 3.20 скачкообразно с бесконечными скоростями изменения i (рис. 3.20). На- правление движения фазовых точек по траекториям быстрых движений, согласно (2.8), определяется знаком функции ф(и, i). Там, где ф(и, i)>0, значение i возрастает и убывает, где ф(ы, i)<0. Из рис. 3.20 видно, что по отношению к кривой Г траектории быстрых движений ведут себя неодинаково. Всюду, кроме участка BD, быстрые движе- ния приходят к кривой Г, а в окрестности участка BD уходят от нее. Причем в предельном случае быстрые движения ведут себя по отно- шению к Г так, как будто она является для них многообразием состоя- ний равновесия, устойчивым, где быстрые движения приходят на Г, и неустойчивым, где уходят от нее. В этом смысле кривая Г, за исклю- чением участка BD, устойчива по отношению к быстрым движениям, а участок BD неустойчив. Заметим, что участок BD кривой Г отве- чает падающему участку зависимости напряжения на неоновой лампе от проходящего через нее тока. Теперь мы можем ответить на вопрос: какие изменения состояния электрической системы рис. 3.16 отвечают быстрым движениям фазо- вых точек? Им отвечают процессы установления тока через неоновую лампочку, когда изменение тока определяется малой индуктивностью L и происходит настолько быстро, что напряжение и на конденсаторе практически не успевает измениться. В предельном случае, который, очевидно, является идеализацией, ток через лампу устанавливается скачком. При этом в лампе могут установиться любые значения тока, связанные с напряжением на конденсаторе условием i=f(u), кроме
§2. АВТОКОЛЕБАНИЯ 79 тех значений, которые отвечают падающему участку зависимости на- пряжения на лампе от подаваемого на нее тока. Теперь перейдем к рассмотрению медленных изменений фазо- вых переменных в окрестности кривой Г. Начнем с предельного слу- чая, когда областью медленных движений будет сама кривая Г. В этом случае фазовые переменные связаны соотношением i=f(u), а их изменение описывается уравнениями ф (u, i) = О, ~ = <р (и, i). (2.9) На участке BD кривой Г расположено состояние равновесия — точ- ка О. В ней, согласно (2.6), ф(и, i)=0, <p(u, i)=0. Движение фазовых точек определяется знаком и величиной скорости изменения и и происходит, как изображено стрелками на рис. 3.20. Состояние равно- весия неустойчивое, поскольку фазовые точки от него уходят. Все движения приходят к точкам В и D. Но они не являются состояниями равновесия, поскольку в них du/dt^Q. В точке В duldt>0, а в точке D du/dt<S>- Поэтому, попадая в них, фазовая точка в соответствии с на- правлением скорости покидает кривую Г и по траекториям быстрого движения скачком вновь на нее возвращается в точки С и А соответ- ственно. Затем фазовые точки продолжают движение по кривой Г, никогда не попадая на участок ВО. Мы видим, что рассмотреть медлен- ные движения отдельно без быстрых не удается, так как тогда неясно, что будет с фазовой точкой, если она попадает в точку В или О на кривой Г. Учитывая это, посмотрим, как движутся по кривой фазовые точки. Из рис. 3.20 видно, что из любого начального состояния на кривой Г фазовые точки приходят на предельный цикл ABCD, состоя- щий из чередующихся медленных и быстрых движений. При L малом, но не равном нулю, медленные движения происходят в малой окрестности кривой Г. Поэтому естественно считать, что они происходят так же, как в предельном случае, и приближенно описы- ваются уравнениями (2.9). Однако это не везде так. Это справедливо лишь там, где медленные движения устойчивы по отношению к быст- рым, и не выполняется, где они неустойчивы. Действительно, из лю- бой сколь угодно малой окрестности участка BD фазовые точки ухо- дят по траекториям быстрых движений в область устойчивых медлен- ных движений (рис. 3.20). Какие же изменения состояния электрической системы отвечают медленным движениям фазовой точки? Когда быстрые процессы уста- новления тока через лампу, определяемые малой индуктивностью, заканчиваются, дальнейшие изменения тока через нее определяются напряжением на конденсаторе. Именно они и отвечают медленным движениям фазовых точек. Теперь мы можем рассмотреть фазовый портрет системы в целом. В предельном случае он определяется неустойчивым состоянием рав- новесия и устойчивым предельным циклом ABCD. Фазовая точка из любого начального состояния приходит по траектории быстрого дви-
80 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ, ФАЗОВЫЙ ПОРТРЕТ жения на медленные и по ним на предельный цикл, состоящий из чередующихся медленных и быстрых движений. Как и в модели, рассмотренной ранее, предельному циклу отвечают релаксационные колебания, устанавливающиеся в электрической схеме с неоновой лам- пой. Но теперь мы понимаем, что скачки тока означают быстрые про- цессы установления тока в лампе, определяемые малой индуктивно- стью, по сравнению с медленными процессами изменения тока через лампу при изменении напряжения на конденсаторе. Ранее рассмотрен- ная модель не объясняла эти движения. Так как же связан двумерный фазовый портрет на рис. 3.20 с од- номерным на рис. 3.11, рассмотренным ранее? Сравнивая их, видим, что одномерный фазовый портрет представляет собой часть двумерного фазового портрета в предельном случае (L->0), состоящую из предель- ного цикла и траекторий медленных движений, устойчивых по отно- шению к быстрым. Конечно, одномерный фазовый портрет не дает полного представления о процессах, происходящих в рассматриваемой электрической системе, в частности, никак не отражает процессов установления тока через лампу, однако основные процессы, связан- ные с медленным изменением напряжения на конденсаторе, он отра- жает. А это, безусловно, очень важно, так как исследование двумер- ного фазового портрета значительно сложнее. § 3. Динамика сосуществования видов Рассмотрим математическую модель совместного существования двух биологических видов (популяций) типа «хищник — жертва», называемую моделью Вольтерра — Лотки. Впервые она была полу- чена А. Лоткой (1925 г.), который использовал для описания динамики взаимодействующих биологических популяций идеи и математические модели химической кинетики. Чуть позже и независимо от Лотки ана- логичная и более сложные модели были разработаны итальянским ма- тематиком В. Вольтерра (1926 г.), глубокие исследования которого в области экологических проблем заложили фундамент математической теории биологических сообществ или так называемой математической экологии. Модель, которую мы рассмотрим, интересна, пожалуй, как раз тем, что с нее, по существу, и началась математическая экология. Пусть есть два биологических вида, которые совместно обитают в изолированной среде. Среда стационарна и обеспечивает в неограни- ченном количестве всем необходимым для жизни один из видов, кото- рый будем называть жертвой. Другой вид — хищник — также нахо- дится в стационарных условиях, но питается лишь особями первого вида. Это могут быть караси и щуки, зайцы и рыси, мыши и лисы, мик- робы и антитела и т. д. Будем для определенности называть их кара- сями и щуками. Караси и щуки живут в некотором изолированном пруду. Среда предоставляет карасям питание в неограниченном коли- честве, а щуки питаются лишь карасями. Обозначим через у число щук, а через х число карасей. Со временем число карасей и щук ме-
f3. ДИНАМИКА СОСУЩЕСТВОВАНИЯ ВИДОВ 81 няется, но так как рыбы в пруду много, то не будем различать 1020 ка- расей или 1021 и поэтому будем считать х н у непрерывными функция- ми времени. Будем считать совокупность (х, у) состоянием динамичес- кой системы и попробуем написать, как оно меняется со временем. Надо сказать, что в биологии дело обстоит значительно сложнее, чем, скажем, в механике, где само понятие состояния формализовано и су- ществуют четкие законы, позволяющие написать его изменение. В био- логии этого пока нет. Попробуем из самых простых соображений найти, как меняется (х, у). Рассмотрим х. Это скорость изменения численности карасей. Если щук нет, то число карасей увеличивается и тем быстрее, чем больше карасей. Будем считать, что эта зависимость линейная, т. е. х~б!Х, причем коэффициент Bi зависит только от условий жизни карасей, их естественной смертности и рождаемости. Аналогично — для щук. Скорость изменения их числа, если нет карасей, зависит от числа щук, будем считать, что у~£гу. Если карасей нет, то число щук уменьшается, у них нет пищи и они вымирают. В экосистеме скорость изменения численности каждого вида также будем считать пропорцио- нальной его численности, но только с коэффициентом, который зави- сит от численности особей другого вида. Так, для карасей этот коэф- фициент уменьшается с увеличением числа щук, а для щук увеличи- вается с увеличением числа карасей. Будем считать эту зависимость также линейной. Тогда получим уравнения x = ejX—Y1//X, у^ — ^у + у^ху. (3.1) Динамическая система с состоянием (х, у), которое изменяется со- гласно системе уравнений (3.1), называется моделью Вольтерра — Лотки. Построим фазовый портрет системы (3.1). За фазовое пространство возьмем первую четверть х>0, у>0 плоскости х, у. Умножая первое уравнение (3.1) на у2, второе на yi и складывая, получим ?2-« + Т11/ = е1Т2^— (3-2) Вновь умножим первое уравнение (3.1) на е2/х, второе на kJ у и сло- жим; получим (3-3) Вычитая (3.3) из (3.2) и интегрируя, получим первый интеграл систе- мы (3.1) YaX + Vi*/—е21пх—В} 1п у — const. (3.4) Выражение (3.4) в неявном виде дает уравнение фазовых траекторий. Чтобы их построить, рассмотрим поверхность г = 'у2х+'у1у—821пх—еДпу. (3.5)
82 ГЛ. 3. ДИНАМИЧЕСКАЯ (2ИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ Фазовые траектории являются линиями уровня этой поверхности. Качественно вид этой поверхности изображен на рис. 3.21. Харак- терным для нее является то, что z неограниченно возрастает как при приближении к координатным плоскостям х=0 и «/=0, так и при не- ограниченном увеличении х и у. Функция z(x, у) имеет минимальное значение z* при х=х*, у=у*, являющихся координатами состояния равновесия системы (3.1). Если пересекать поверхность (3.5) плоско- стями z=const, то в пересечении будут получаться кривые, проекции которых на плоскость (х, у) являются фазовыми траекториями системы (3.1). Эти кривые приведены на рис. 3.22. Направление движения фазовой точки можно определить из таких соображений. Пусть мало карасей, т. е. х~0; тогда из второго уравнения системы (3.1) «/<0, т. е. движение фазовой точки происходит против часовой стрелки. Итак, построили фазовый портрет динамической системы — см. рис. 3.22. Он содержит одно состояние равновесия — точку О. Все остальные фазовые траектории — замкнутые, охватывающие состоя- ние равновесия. Состоянию равновесия отвечает неизменное число х* и у* карасей и щук в пруду. Караси размножаются, щуки их едят, вымирают, но число тех и других не меняется. Замкнутым фазовым траекториям отвечает периодическое изменение численности карасей и щук. Причем то, по какой кривой движется фазовая точка, зависит от начальных условий. Рассмотрим подробнее, как меняется состояние вдоль фазовой траектории. Пусть фазовая точка находится в положе- нии А (рис. 3.22). Здесь мало карасей и много щук. Щукам голодно, они постепенно вымирают и почти совсем исчезают. Караси «обрадо- вались», что нет щук, скорость их прироста увеличивается и увеличи- вается их число. Так происходит примерно до точки В. Но увеличе- ние числа карасей затормаживает процесс вымирания щук. Они «по- чувствовали», что жить можно, пищи достаточно, и число их начинает расти (участок ВС). Щук стало много, им нужна пища, много пищи. Они едят карасей и почти всех съедают (участок CD). После чего щуки начинают вымирать и процесс повторяется. Участок CD — это «золо-
§3. ДИНАМИКА СОСУЩЕСТВОВАНИЯ ВИДОВ 83 тое время» спиннингиста. Существует много рассказов о феноменаль- ных озерах, на которых бывает пора, когда щукй\«сами прыгают вам в руки». Здесь щук много, а карасей почти нет. Щуки голодны и готовы схватиться за любую железку, лишь бы ее им предложили. «Золотое время» недолгое — два-три месяца, а период его повторения велик — 5—7 лет. На рис. 3.23 качественно построены кривые изменения численности карасей и щук в зависимости от времени. Максимумы кривых чере- дуются, причем максимумы щук отстают от максимума карасей. Это от- ставание разное для разных экосистем типа «хищник — жертва», но, как правило, много меньше периода колебаний. Несмотря на то, что рассмотренная модель является простейшей и в действительности все происходит много сложнее, она позволила объяснить кое-что из загадочного, что есть в природе. Перестали быть загадкой счастливые для рыболовов периоды, получила объяснение периодичность в протекании хронических заболеваний, стало отчасти ясно, почему течение болезни зависит от фазы и интенсивности прово- димого лечения и многое другое. Действительно, как протекает хроническое заболевание? Обост- рение сменяется улучшением и опять все снова повторяется. Болезнь связана с наличием «хищника» (микроб, вирус), который поедает что-то в организме «жертвы». Обострение бывает, когда «хищника» много — верхние участки кривых на рис. 3.22. Улучшение самочувствия соот- ветствует спадающим участкам, нижние участки — когда совсем хо- рошо. И снова наступает ухудшение — возрастающие участки. Обост- рение тем сильнее, чем больше траектория протекания болезни. В со- стоянии равновесия и около него болезнь слабо выражена. Вы больны, но обострений у вас нет. Наконец, вам надоедает такое состояние, и вы идете к врачу. Врач дает лекарство, вы его принимаете и уничтожаете почти всех «хищников». На фазовом портрете изображающая точка уходит резко вниз, скажем, в точку Е (рис. 3.22). «Хищников» почти нет. Чувствуете вы себя великолепно, но через какое-то время (тече- нию болезни отвечает теперь большой овал) вы выходите на такое обост-
«4 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ рение, что если останетесь живы, то очень хорошо. Значит, лечить надо очень аккуратно. Сейчас подобные экологические модели строят- ся при лечении различных хронических заболеваний, в частности, при борьбе с хроническими инфекциями. Строится экологическая модель болезни с учетом всех иммунных факторов и лечение производится в соответствии с этой моделью. 160- ----- заяц h -----Рысь 1&Л5 1865 1885 1905 1925 Гоби Рис. 3.24 В заключение приведем экспериментальные кривые (рис. 3.24) изменения численности североамериканского зайца и рыси в Канаде за период с 1845 по 1935 годы, качественно согласующиеся с кривыми на рис. 3.23, построенными по математической модели. § 4. Эволюция генотипа Следующей рассмотрим модель эволюции генетических свойств по- пуляции. Хотя эволюция включает изменение всех генетических свойств данного вида, записанных в виде многих тысяч томов книг в длинном наборе хромосом, мы рассмотрим лишь, как изменяется от поколения к поколению генотип, отвечающий за какой-нибудь один признак по- пуляции. Пусть это, к примеру, признак цвета, скажем красный и бе- лый, за который отвечают два гена, один из которых потомство полу- чает от мужской особи, а другой — от женской. Генотип определяется совокупностью генов, которые получает потомство от родителей. Пусть ген А отвечает за красный цвет и пусть это доминантный ва- риант признака, а ген а отвечает за белый цвет — рецессивный ва- риант признака. Генотипы популяции определяются комбинациями генов: АА, Аа, аа. Особи с генотипами АА и Аа (доминантная и гиб- ридная особи) не отличаются друг от друга и имеют красный цвет; особи с генотипом аа (рецессивные особи) имеют белый цвет. Пусть х, у и z — относительные численности доминантных, гибридных и ре- цессивных особей одного поколения или, что то же самое, вероятности того, что случайно выбранная особь имеет генотип АА, Аа и аа. Вели- чины х, у, z удовлетворяют условиям х^О, z^O, х-j- у-\-г = 1.
§4. ЭВОЛЮЦИЯ ГЕНбТИПА 85 В результате скрещивания появляется новое поколение, состав гено- типов которого уже будет другим: х, у и г. Нас интересует, как ме- няется состав генотипов от поколения к поколению, что будет через |0, 100 и более поколений, останутся ли одни красные особи или одни белые, или установится какое-либо распределение. Чтобы это выяс- нить, надо найти связь между исходным составом х, у, z популяции и составом х, у, z следующего поколения. Как происходит формирование генотипа потомства? При скрещи- вании берется один ген (одна буква) женской особи и один ген муж- ской. Их комбинация образует генотип потомства. Например, при скрещивании доминантных особей в любом варианте получается до- минантная особь, это можно условно записать так: АА+АА=АА. Если встречаются две гибридные особи, то потомство может иметь лю- бой генотип: А А, Аа, аа, но с разными вероятностями. Вероятности Этих генотипов соответственно равны 1/4, 1/2, 1/4, т. е. Аа±Аа= 1 л л . 1 . ,1 = — А А 4-у Да 4-— и т. д. Используя этот закон формирования генотипа потомства, а также предполагая, что вероятности генотипов среда мужских и женских Особей одинаковы (это оправдано, если одинаковы вероятности полу- чения в потомстве мужских и женских особей), и считая, что скрещива- ние в данной популяции происходит без дискриминации, найдем связь между х, у, z и х, у и г. Для этого составим таблицу 1, в которой выпи- шем всевозможные варианты скрещиваний с указанием как вероятно- Таблица 1 Вероятность скрещиваний Скрещиваемые генотипы Генотипы потомства мужские женские X2 АА АА АА ху АА аА ~2 ЛА-\--^аА XZ АА аа Аа Ух аА АА ~2 AA-j-^aA У2 аА аА 1 „ „ , 1 , , I -^АА+^аА + ^-аа Уг аА аа 1 . 1 2-аЛ + Таа ZX аа АА аА zy аа аА 1 . . 1 г2 аа аа аа
86 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ стей скрещиваний, так и вероятностей различных генотипов в потом- стве, возникающем в результате каждого скрещивания. Согласно таблице вероятности различных генотипов у потомства выражаются через вероятности генотипов у родителей следующим об- разом: х = х2 + хг/ + у у2 = у)2, у = ху + 2хг + ^ у2 + уг = 2^х + -^ yj + у}, (4.1) г = У* + уг 4- z2 = ( z -f- у у у. Выражения (4.1) однозначно определяют генетическое описание сле- дующего поколения по описанию предыдущего. Следовательно, вероят- ности х, у, z генотипов популяции являются состоянием динамической системы, фазовым пространством которой является треугольник x+y + z = 1, О, z>0, показанный на рис. 3.25, а Это дискретная динамическая Н оператор задан соотношениями (4.1). система с непрерывным фазовым про- странством. Ее оператор переводит любую точку фазового пространства, соответствующую некоторому генети- ческому составу популяции, в дру- гую, которая является новым состоя- нием и отвечает генетическому соста- ву следующего поколения популя- ции. Эту точку оператор (4.1) вновь переводит в другую и т. д. Последо- вательность таких точек образует фа- зовую траекторию, которая является геометрическим изображением про- цесса эволюции генотипа данной по- пуляции. Изучим фазовый портрет этой динамической системы. Прежде всего отметим особенность точечного отображения треугольника х-\-у-\- +z=l, х^О, у^О, г^О, в себя. Из (4.1) непосредственно следует, что y2=Axz. Это означает, что отображение (4.1) переводит все точки фазо- вого пространства в кривую, которая получается в пересечении тре- угольника x-4-t/ + z = l, х^О, t/^0, z^O, с поверхностью г/2=4хг. Этим пересечением является участок 2 пара- болы, изображенный на рис. 3.25 и являющийся инвариантной кривой точечного отображения. Любая точка кривой 2 переводится отобра- жением (4.1) в точку той же самой кривой. Следовательно, изучение
§4. ЭВОЛЮЦИЯ ГЕНОТИПА 87 фазового портрета динамической системы сводится к исследованию отображения кривой 2 в себя. Что прежде всего должно быть интересным с точки зрения исход- ной задачи? Это — есть ли такие составы генотипов популяции, кото- рые не изменяются в процессе эволюции? Если есть, то им должны от- вечать неподвижные точки отображения (4.1). Чтобы их найти, надо в (4.1) положить х=х, у=у, z=z и найти их значения х*, у*, г*. Не- посредственной подстановкой х*, у*, г*, удовлетворяющих условиям z/*2=4x*z* и x*+t/*+z*=l, х*>0, у*>0, z*>0, в (4.1) найдем, что каждая точка инвариантной кривой 2 является неподвижной по от- ношению к отображению (4.1). Таким образом, эволюция любого на- чального состава генотипов данной популяции такова, что ближайшее ее потомство получает состав, отвечающий одной из точек кривой 2, и после этого состав ее уже не меняется. А как связан неизменный состав популяции с начальным? Чтобы ответить на этот вопрос, надо найти точки фазового пространства, ко- торые переводятся отображением (4.1) в каждую конкретную точку кривой 2. Из первого и третьего уравнений (4.1) находим х—г— — (х—z)(x+y+z), но так как x-\-y+z= 1, то х—z=x—г. Это означает, что точки отрезка прямой х—z=const, x+i/+z=l, х^О, r/^0, z^O, пере- водятся отображением (4.1) в неподвижную точку, являющуюся пере- сечением кривой 2 с этим отрезком (рис. 3.25). Таким образом, в процессе эволюции не меняется разность между относительным числом доминантных и рецессивных особей популяции; в частности, если x=z, т. е. относительные численности доминантных и рецессивных особей одинаковы, то независимо от численности гиб- ридных особей установится генетический состав х—1/4, г/=1/2 и z=l/4. А теперь рассмотрим математическую модель эволюции состава генотипов, отвечающих за так называемый «признак, сцепленный с иолом». Если в предыдущем примере признак цвета никак не был свя- зан с полом особей популяции, т. е. различные генотипы среди муж- ских и женских особей были равновероятны, то в данном случае ве- роятности генотипов, отвечающих за признак, существенно связаны с полом особи. Таким признаком, например, у человека является даль- тонизм или гемофилия. Рассмотрим один из таких признаков, скажем, дальтонизм. В этом случае мы опять имеем два гена А и а. Ген А — доминантный и обес- печивает нормальное зрение; ген а — рецессивный, порождающий дальтонизм. У женских особей возможны три генотипа А А, Аа, аа. Только в случае аа проявляется дальтонизм, в двух других зрение нормальное. Мужская особь может иметь лишь два генотипа: доми- нантный — А и рецессивный — а. Если в результате скрещивания по- является женская особь, то ее генотип определяется генотипом обоих родителей, как и в предыдущем примере; если же в потомстве особь мужская, то генотип определяется только генотипом женской особи
?8 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ родителей; например, если у нее генотип Аа, то у потомства мужского пола с равной вероятностью может быть генотип или А, или а. Пусть- х, у, г — относительные количества или вероятности генотипов жен- ских особей, и и v — относительные количества генотипов мужских особей. Они удовлетворяют следующим условиям: х+у+г=1, х>0, «/>0, z>0, «4-и=1, u>0, и>0. Y Рассмотрим случай свободного, без дискриминации, скрещивания, предполагая, что вероятности получения в потомстве мужских и жен- ских особей одинаковы. Тогда для нахождения связи между генети- ческим составом предыдущего и последующего поколений можем со- ставить таблицу 2 всевозможных вариантов скрещиваний, аналогично тому, как было сделано в предыдущем примере. Таблица 2 Вероятность скрещиваний Скрещивание генотипов Генотипы потомства женские мужские женские мужские хи АА А АА л XV АА а Аа л уи Аа А у ЛЛ + уЛа 1 л I 1 У ^+"2° yv Аа а уЛа+уаа 1 . , 1 2^+2“ ZU аа А Аа а го аа а аа а Согласно таблице генетический состав потомства определяется через генетический состав родителей следующим образом: и + у^ и, — / 1 \ - I - 1 (4-3) z= (гН-у!/) и, u=x+-g-;/, v^zA-^y- Следовательно, описание х, у, г, и, v генетического состава попу- ляции — полное и является состоянием динамической системы. Но в силу условий (4.2) оно избыточно: среди чисел х, у, г, и, v лишь три являются независимыми. Пусть ими будут х, у и и. Их и возьмем за состояние динамической системы. Состояние х, у, и — это три числа, следовательно, фазовое пространство трехмерное, но не все трехмер- ное пространство, так как в силу (4.2) х, у, и ограничены условиями x-f-j/s^l, х^О, £/i>0, (4.4)
§4. ЭВОЛЮЦИЯ ГЕНОТИПА 89 В трехмерном евклидовом пространстве переменных х, у, и условия (4.4) определяют прямую треугольную призму (рис. 3.26). Каждая точка призмы определяет состояние динамической системы, и, обрат- но, каждому состоянию отвечает точка призмы. Близким состояниям со- ответствуют близкие точки. Значит, призма — фазовое пространство динамической системы. Теперь определим оператор, задающий смену состояний динами- ческой системы. Используя условия (4.2), исключим г и и из соотноше- ний (4.3). Получим х = (х-\-~у\и, й = х + ~у, - / 1 / А (45) У = (*+2 2и) + “• Итак, получили динамическую систему, состоянием которой яв- ляются относительные численности доминантных и гибридных особей Рис. 3.27 женской части популяции и доминантных особей мужской части по- пуляции, фазовым пространством является треугольная призма, а оператор смены состояний задается соотношениями (4.5). Теперь перейдем к изучению ее фазового портрета (рис. 3.27). Прежде всего установим особенность отображения призмы в себя. Ис- ключая из (4.5) и и х+~^-у, получим и2 — 2и (x-f-y у —х. Эта связь значений х, у, и означает, что все фазовое пространство преобразует- ся отображением (4.5) в точки некоторой поверхности S, имеющей уравнение u2 = 2 u—х, а сама поверхность S является ин- вариантной по отношению к отображению (4.5). Кроме S, у отобра- жения (4.5) есть еще одна инвариантная поверхность — плоскость х + ^-у—и—О, (4.6)
90 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ которая пересекается с призмой по треугольнику R. Действительно, если исходная точка х, у, и принадлежит плоскости (4.6), то х2=и2, у=2 (1—и)и, и=и и, следовательно, точка х, у, и тоже принадлежит ей, поскольку х + ^-у—u = u2-f-(l—и) и—и = 0. Однако по отношению к этой инвариантной плоскости точки фазо- вого пространства при преобразованиях ведут себя не так, как по отношению к поверхности S: не всякая точка х, у, г после^преобразо- вания оказывается на ней, однако все они к ней асимптотически при- ближаются. Это следует из того, что расстояние от любой точки до инвариантной плоскости при последовательных преобразованиях убывает со скоростью геометрической прогрессии. Действительно, модуль величины р = х+ -^-у—и дает расстояние от исходной точки х, у, и до инвариантной плоскости, а ее знак определяет, по какую сторону от плоскости она расположена. После преобразования рас- стояние от точки х, у, z до инвариантной плоскости определяется модулем величины'р =х + ^У— и Подставляя в р выражения х, у, и из (4.5), получим р = —4-р. (4.7) т. е. при последовательных преобразованиях любая точка, не принад- лежащая инвариантной плоскости, приближается к ней со скоростью геометрической прогрессии со знаменателем 1/2. Знак минус в выраже- нии (4.7) означает, что точка последовательно переходит с одной сто- роны относительно инвариантной плоскости на другую. Итак, любая исходная точка после однократного применения отоб- ражения (4.5) попадает на поверхность S и дальше преобразуется в точки этой же поверхности, асимптотически приближающиеся к ее пересечению с инвариантной плоскостью (4.6). Если исходная точка лежит на инвариантной плоскости, то она переводится отображением (4.5) непосредственно в точку, принадле- жащую этому пересечению, при этом значение и не изменяется. Пересечением поверхности S с инвариантной плоскостью является часть параболы L, параметрическое уравнение которой имеет вид x = u2, г/ = 2и(1—и), (4.8) Осталось выяснить, как ведет себя отображение (4.5) кривой L в себя. Подставляя (4.8) в (4.5), получим х=и2, у—2и(\—и), и=и. Следова- тельно, все точки кривой L являются неподвижными по отношению к отображению (4.5). Фазовая траектория, выходящая из любой исход- ной точки, приближается к одной из неподвижных точек либо асимпто- тически, если исходная точка не принадлежит инвариантной плоское-
§ 5. ПРОЦЕССЫ РАЗМНОЖЕНИЯ И ГИБЕЛИ 91 ти, либо попадает в нее сразу после однократного применения отобра- жения, если исходная точка принадлежит ей. В последнем случае все точки с одинаковым значением и переходят в одну и ту же неподвижную точку. Итак, в соответствии с фазовым портретом динамической системы эволюция любого начального состава генотипов популяции, не свя- занного соотношением *4-у у—и = 0, в случае признака, сцепленного с полом, не заканчивается за один шаг. Однако уже генетический сос- тав ближайшего потомства оказывается связанным неким соотношени- ем, определяющим поверхность S в фазовом пространстве. Дальней- шее изменение происходит при сохранении этого соотношения в на- правлении к неизменному распределению состава генотипов, отвечаю- щему неподвижным точкам отображения (4.4). Если начальный состав генотипов связан соотношением х+^-у— —и=0, то в процессе эволюции не меняется состав генотипов мужской части популяции, изменяется только генетический состав женской части. При этом эволюция заканчивается за один шаг и происходит точно так же, как в предыдущем примере эволюции генотипа, отвеча- ющего за признак, не сцепленный с полом. § 5. Процессы размножения и гибели Представим себе процесс, при котором в некоторые дискретные моменты времени /1<Х<Дз<--- каждая из частиц некоторого множест- ва может либо исчезнуть, либо сохраниться, либо размножиться на две, три или большее число частиц. Для каждой из частиц эти измене- ния происходят независимо друг от друга с некоторыми вероятностя- ми р0, ри р2, ... Спрашивается, как будет меняться со временем общая числен- ность частиц? Точнее, вероятности того или иного их числа, посколь- ку размножение и гибель частиц носят случайный характер. Описанная абстрактная схема может рассматриваться как идеа- лизированная математическая модель многих реальных процессов: процессов размножения простейших одноклеточных организмов, бак- терий и вирусов, химических реакций, цепных ядерных реакций. Эта схема относится и к вопросу о сохранении фамилии. Обычно фамилия в родословной передается по мужской линии и поэтому происходит по линии сыновей. Отсутствие сына в потомстве означает исчезновение «частицы», рождение одного сына — ее сохранение, рождение двух сыновей — превращение одной частицы в две и так далее. Исследование динамики описанного ветвящегося процесса раз- множения частиц позволяет выяснить судьбу фамилий и, в частности, найти вероятность их исчезновения. Эта последняя задача была реше- на в 1874 г. Гальтоном и Ватсоном.
92 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ <р(р) Рис. 3.28 Сравнительно недавно описанная задача вновь возникла как за- дача протекания в теоретической физике и химии. Название ведет свое начало от работы Бродбента и Хаммерса 1957 г., в которой рассматривалось «протекание» газа по сложному ветвящемуся лаби- ринту ходов угольного фильтра. Теория протекания в своей общей постановке занимается изуче- нием связности элементов различных пространственных структур со случайными связями. Математическая модель протекания носит статический характер, в ней речь идет об областях связности, о кластерах связных частиц, которые определяют многие явле- ния электрической проводимости, ферро- магнетизма, полимеризации и другие. Эквивалентная ей и значительно раньше возникшая задача о ветвящемся процессе размножения, напротив, имеет динамиче- ский характер развивающегося во време- Р ни процесса. Если интересоваться только вероятно- стью обрыва процесса размножения ча- стиц, т. е. вероятностью гибели всех ча- стиц на каком-нибудь из этапов размножения, то она может быть най- дена с помощью следующего простого рассуждения. Пусть первоначально имеется одна частица и пусть р — вероят- ность ее гибели или гибели ее потомства на одном из последующих этапов. В следующем такте эта частица может либо исчезнуть с веро- ятностью ро, либо сохраниться с вероятностью ри либо превратиться в $ частиц ($=2, 3, ...) с вероятностью ps. После того как появилось s частиц, вероятность исчезновения их всех равна произведению веро- ятностей исчезновения каждой из них, т. е. ps. В силу этого P = Po + PiP+PtP2 + paP3+ (5.1) Таким образом, искомая вероятность р гибели удовлетворяет уравнению (5.1). Правая часть уравнения (5.1) представляет собой, в силу неотри- цательности вероятностей р0, ръ р2, ... и /?0<1, монотонно возрастаю- щую вместе с первой производной функцию <р(р) от переменной р. Ее график имеет один из видов, представленных на рис. 3.28. Соглас- но этим графикам уравнение (5.1) имеет в зависимости от того, больше или меньше единицы производная ср' (1), либо корень р* (0^р*<1) и еще один единичный корень, либо один-единственный единичный корень р* = 1. Поэтому при выполнении неравенства ф'(1)=Р1 + 2р2 + Зр3+... < 1 (5.2) происходит обрыв ветвящегося процесса размножения с вероятностью единица. При обратном неравенстве естественнее заключить, что обрыв имеет место не с вероятностью единица, а с вероятностью, отвечающей
§ 5. ПРОЦЕССЫ РАЗМНОЖЕНИЯ И ГИБЕЛИ 93 меньшему положительному корню р*<1. Во всяком случае при р0=1 вероятность обрыва, очевидно, равна нулю, что отвечает именно этому меньшему корню. Прямое обоснование выбора меньшего корня урав- нения (5.1) будет получено в дальнейшем. Однако уже сейчас отметим наличие бифуркации (качественного изменения) в явлении размноже- ния, соответствующей переходу при изменении вероятностей р0, ри р2, ... от неизбежной гибели (обрыва) к возможности неограниченно долгого существования. Более полное рассмотрение состоит в исследовании динамики чис- ленности частиц от такта к такту. В этом исследовании можно ограни- читься случаем, когда в начальный момент имеется только одна части- ца, поскольку процессы размножения от каждой из частиц происходят независимо друг от друга. Пусть х„ — число частиц на n-м такте. На первом такте хх=1. В дальнейшем последовательные значения х2, х9, ... являются некото- рыми целыми числами 0, 1,2, ... Переходы от хх к х2, от х2 к х3 и т. д. можно трактовать как последовательные смены состояний. Однако, поскольку эти переходы носят стохастический характер, фазовыми состояниями являются вероятности различных чисел частиц, т. е. вектор р, компонентами которого являются вероятности /?(0), р(1), р(2), ... различных чисел частиц. Пусть х — число частиц на некотором этапе их — их число на следующем этапе. Каждая из х частиц может превратиться соответ- ственно в gi, |2, • ••, частиц, так что Х = £1 + ^2 + • • • + (5-3} т. е. число частиц на следующем этапе представляет собой сумму независимых одинаково распределенных случайных величин. Число этих случайных величин равно числу частиц на предшествующем этапе. Чтобы упростить вытекающий из (5.3) аналитический вид связи между векторами р и р, рассмотрим вместо векторов р и р их так на- зываемые производящие функции Hz) = p(0) + p(l)z + p(2)z2+..., ,54 /(z) = p(0) + p(l)z + p(2)z2+... Векторы р и р и их производящие функции f(z) и f(z) однозначно друг друга определяют. Однако аналитический вид связи между f(z) и f(z) значительно проще, чем между р и р. Действительно, r(z) = Sp(s)z, = 2z'sS/’(^)P(s|^ = ^) = = ^p(k)^p(s\x = k)zs. (5.5> k s Здесь р (s|x=&) — условная вероятность числа s частиц на следующем
-94 ГЛ. 3. динамическая система и ее фазовый портрет зэтапе, если на предыдущем этапе их было k. Сумма 2p(s|x = A)zJ (5.6) S представляет собой производящую функцию этих условных вероят- ностей и, как нетрудно видеть, равна k-и степени производящей функ- ции <P(z) = Po + piZ + p2z2+... (5.7) вероятностей ра, ри р2, ... Таким образом, Г(г) =2р(^)фй(г) = /:(ф(г))- (5.8) k Последнее равенство в (5.8) следует непосредственно из определения производящей функции вероятностей р(0), р(1), р(2), ... Формула (5.8) определяет производящую функцию f(z) вероятнос- тей различных чисел частиц на следующем этапе процесса их размно- жения через производящую функцию f(z) вероятностей их чисел на предшествующем этапе и производящую функцию <р (г) вероятностей ги- бели и рождения одной, двух, трех и т. д. частиц. Согласно этой формуле на первом этапе производящая функция равна <p(z), на втором — ф(ф(з)), на третьем — ф(ф(ф (?))) и так да- лее. Обозначим производящую функцию на п-м этапе через fn (г). Она определяет фазовое состояние (полное вероятностное описание) на п-м шаге. В этих новых обозначениях формула (5.8) перепишется в виде /п+1(2) = ^(Ф (z)). (5.9) Таким образом, фазовое пространство рассматриваемой динами- ческой системы представляет собой пространство Ф всевозможных функций вида f (z) = а04-atz -|-a2z2 -Т ..., (5.10) где а0, а1у а2, ... — неотрицательные числа, в сумме равные единице, а изменение состояния определяется формулой (5.9). Отметим, что /„(0) = р„(0), (5.11) где рп (0) — вероятность нулевого числа частиц на п-м этапе. Из (5.9) следует, что Рп+1 (0) = f 1 (р„ (0)) = Ф (р„ (0)). (5.12) Эта формула (5.12) показывает, что последующее /?п+1(0) и предыдущее рп (0) значения вероятностей отсутствия частиц связаны точечным отображением (5.12) единичного отрезка в себя. Возможные виды а) и б) графиков этого точечного отображения уже изображены на
<5. ПРОЦЕССЫ РАЗМНОЖЕНИЯ И ГИБЕЛИ 95 рис. 3.28. Согласно их виду точечное отображение (5.12) имеет един- ственную устойчивую неподвижную точку р*, причем в случае a) р* = 1, а в случае б) р*<.1. Последовательные отображения любой точки стремятся к этой единственной устойчивой неподвижной точке р*, следовательно, lim (0) = р*. (5.13) По смыслу р* — это вероятность обрыва процесса размножения на каком-нибудь шаге. Тем самым указанный ранее способ получения этой вероятности получил полное обоснование. Вернемся к формуле (5.9). Она связывает следующие друг за дру- гом состояния. Исходя из графика функции /1(г)=<р(г), можно шаг за шагом построить графики функций f2 (г), f3 (г), ... и найти вид пре- дельного графика L(z). Здесь возможны два случая, отвечающие ви- дам а) и б) функции ср (г). В случае а) = 1 при любом 1 (рис. 3.29). В случае б) f~(z)=p* при 0<г<1 и f„(l) = l (рис. 3.30), т. е. при г=1 имеет место разрыв непрерывности, а при прочих г предельная функция ^(г) — постоянная, равная р* (р* — коорди- ната устойчивой неподвижной точки отображения (5.12)). Можно заметить, что {^М2)}2=0 = А»М <5Л4> Эта формула обобщает соотношение (5.11). При любом конечном т>0 из нее и вида предельной функции fx(z) следует, что Нт рп(т) = 0. (5.15) п-><® Таким образом, приходим к следующему выводу об асимптотиче- ском поведении процесса размножения при неограниченном его про- должении: при <р'(1)<1 процесс обрывается с вероятностью единица; при <р'(1)>1 он обрывается с вероятностью р*<1 и с вероятностью
96 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ 1—р* неограниченно разрастается. Последний вывод следует из того, что (5.15) имеет место при всех т>0, а при m=Q lim рп (0) = р* < 1. Л->00 Вместе с тем математическое ожидание числа т на n-м этапе равно м/и=гп(1) = {^п-1(А.(г))^]=/;_1(1)Г1(1) = [Л(1)Г-1 и неограниченно возрастает с ростом п. В заключение приведем пример расчета вероятности исчезновения фамилии. По статистическим данным переписи населения в Америке от 1920 г. /7о=О,48; /?1=0,21; /?2=0,12; /?3=0,07, и из уравнения (5.1) находим р*«0,8, т. е. вероятность исчезновения фамилии значитель- но больше вероятности ее сохранения. § 6. Самосборка одномерных цепочек Нить ДНК болезнетворного вируса, проникнув в клетку, перестра- ивает ее биохимические процессы так, что они начинают производить многочисленные копии отдельных его частей. Затем эти части соединя- ются в' новые вирусы, которые, покинув клетку, могут повторить этот цикл с новыми здоровыми клетками. Сборка вируса из отдельных его деталей идет сама собой. Под влиянием случайных толчков теплового движения молекул отдельные части могут оказаться в нужных конфи- гурадиях друг по отношению к другу и надлежащим образом соединя- ются. Это случайный, никем и никак не управляемый процесс. Вероят- ности требуемых сборок определяются концентрациями деталей и трудностями создания необходимой для сборки ситуации. Очень по- хожим образом происходят и процессы полимеризации из отдельных молекул длинных цепочек молекул. Для динамического описания процессов подобного рода в 1975 г. в работе А. М. Леонтовича была предложена математическая модель случайной самосборки цепочек из отдельных звеньев. Последующее изложение основывается на работах 1979—1980 гг. М. Л. Тая. Звенья могут быть нескольких разных типов Ai, А2, ..., Ап. Каждого из типов звеньев достаточно много, так что можно говорить об их концентрациях. Эти звенья могут соединять- ся между собой, образуя цепочки. Соединения могут быть лишь опре- деленных типов. К звену типа At могут подсоединиться только звенья типов Л;_1 н Л i+i- После таких соединений возникают двухзвенные цепочки Лг_1Лг и ЛгЛг+1. К ним в свою очередь могут подсоединиться звенья Лг_2, Лг+1, Лг_1 и Лг+2, образуя трехзвенные цепочки ^1-2^1 -1^г> ^г^г'+1'^г+2 и так далее (рис. 3.31).
§6. САМОСБОРКА ОДНОМЕРНЫХ ЦЕПОЧЕК 97 Принимается, что возможны не только описанные присоединения отдельных звеньев к уже возникшей цепочке, но что и цепочки могут соединяться друг с другом. Именно цепочка Аг...Аг может соединиться с цепочкой Ai+1...Aj, образуя новую, более длинную цепочку Az... ...A;...Aj. Этот процесс сборки может продолжаться вплоть до обра- зования цепочек AiA2...An. Однако наряду с этим процессом самосбор- ки возможны и спонтанные разрывы цепочек. Любая цепочка AZAZ+1... ...Ak может разорваться на две части AZ...A^ и AJ+1...Aft. Задача изучения такого процесса состоит в выясне- нии зависимостей от времени концентраций ч всевозможных различных цепочек А;...А;. \а;- Обозначим эти концентрации через хц (1=С \ Всего таких концентраций / j/h-t Чгп(п—1). Спрашивается, как эти концент- 'w 1 рации хи меняются во времени? --о Для написания дифференциальных уравне- ' ний изменений этих концентраций во времени Рис. 3 31 необходимо знать вероятности образования одних цепочек из других и вероятности тех или иных разрывов уже образовавшихся цепочек. В общем случае можно было бы принять, что имеются отнесенные к единице времени и единичным концентраци- ям вероятности pisj образования из любых цепочек Аг...А^ и AS+1...A> цепочки At...As...Aj и вероятности qlkm разрыва любой цепочки Az...AfeAfe+1 . .. Ат на цепочки Az...Afe и Ak+1...Am. Эти вероятности Pisj и Qikm в общем случае могли бы зависеть от всех концентраций Xtj. Они, вообще говоря, зависят еще от среды, в которой происходит процесс, и от ее температуры. Сам процесс сборки и разрывов сопро- вождается поглощениями или выделениями энергии и поэтому может влиять на температуру среды. Наконец, в среде могут находиться мо- лекулы, которые способствуют тем или иным соединениям и разрывам или затрудняют их. Рассмотрим описанный процесс при следующих упрощающих предположениях: вероятности сборок pisf зависят только от соеди- няющихся звеньев As и Ai+1, и, аналогично, вероятности разрыва qlkm зависят только от того, какие звенья Ак и Afc+1 разъединяются. Это означает, что pisj.=ps при любых i^s и / > $ и qikm — Qk ПРИ любых I tn> k. Эго довольно естественное предположение влечет ряд особенно- стей процессов самосборки. Цель дальнейшего—их выяснение. Пред- положение о наличии вероятностей ps и qk неявно предполагает, что акты соединений и разрывов происходят независимо друг от друга, что если xis и xs+1/—концентрации цепочек AZ...AS и AJ+1 ... A/t то независимо от других соединений и разрывов за малое время т из них образуются цепочки A/...А^...Ау с вероятностью xpsxis xs+lj. Аналогично и вероятность разрыва це- почки Ai...Ak...Am на цепочки Az...Aft и Afc+1...AOT равна rqkxlm.
98 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ На рис. 3.32 изображены всевозможные превращения, которые могут привести к образованию или распаду цепочки Дг...Д;. В соот- ветствии с этим изменение концентрации xi} таких цепочек за малое время т равно Дх17 = т 2 РЛА+ц+т 2 + т 2 Яг-1хц — —т 2 Якх1/ т 2 Pi-\xli-lXiJ т 5 P}'xiJxj-Hm~^~ ••• ’ l<i-l m>j+l где многоточие означает члены более высокого порядка, чем т. Переходя к пределу при т->0, придем к системе дифференциальных уравнений вида XI/ qixtm—pjxijxr + S ( <7< - ixi j — Pi - Iхи - Iхi J • (6.1) В системе (6.1) V2n(n—1) уравнений и столько же неизвестных концентраций Хц. Она достаточно сложна. Однако она обладает замечательным свойством, благодаря которому ее исследование при достаточно больших временах сводится к рассмотрению системы всего лишь п—1 уравнений. Это вызвано тем, что в фазовом пространстве системы (6.1) имеется интегральная поверхность Зп_1 размерности п—1, к которой все соседние траектории асимптотически экспонен- циально приближаются (рис. 3.33). Этот факт имеет место не только для постоянных ps и qk, но и при ps и qk, зависящих от Хц. Он говорит о том, что через некоторое время в системе возникают определенные
6. САМОСБОРКА ОДНОМЕРНЫХ ЦЕПОЧЕК 99 ценарушаемые соотношения между концентрациями, которые можно трактовать как возникновение некоторого порядка из первоначально хаотизированных и случайных концентраций х^. В случае, когда в системе (6.1) имеется глобально устойчивое состо- яние равновесия, этот порядок есть просто приход к вполне определен- ным концентрациям Это привыч- ная ситуация возникновения равнове- I сия, при которой процессы образования \ и распада цепочек уравновешивают друг друга. Такой порядок можно на- \ звать полным. Но не всегда имеется /уяч \ глобально устойчивое состояние рав- ______ новесия и отвечающий ему полный по- рядок, и тогда может оказаться, что / имеет место частичный порядок, соответ- рис 3 33 ствующий некоторому асимптотически устойчивому многообразию. По-видимому, такая ситуация в значи- тельной мере является общей для многих сложных систем. Общим является и то, что интегральное многообразие имеет не слишком боль- шую размерность. Мы далеки от того, чтобы хоть в какой-нибудь мере дать сказанному общее обоснование, хотя можно привести очень много самых разнообразных подтверждающих примеров, на основе которых возникло даже новое направление в науке, получившее наименование синергетики — науки о возникновении порядка из хаоса. Ограничим- ся тем, что покажем, что это так для случайного процесса самосборки цепочек. Вполне возможно, что это свойство и не всеобщее, а просто оно очень часто имеет место, и поэтому полезно его иметь в виду и пом- нить о нем. В некотором общем аспекте можно разделять динамическое по- ведение на ведущее к той или иной степени хаотизации или к той или иной степени порядка. Подчеркнем, что по крайней мере сегодня это, скорее всего, общие полезные представления в неизученной и неосво- енной нами области. Вернемся к уравнениям (6.1). Введем новые переменные У 1т - S 2 xiJ- (6-2) 1=1 j = m По смыслу yim — концентрация всех цепочек, содержащих цепочку Др.-Дщ. Можно обнаружить, что Х1т = У 1т У1т+1 У1-1т У1-1т+1- (®.3) Запишем теперь уравнения (6.1) в новых переменных у1т. После ряда преобразований находим, что т — 1 У1т = S [(Z/lfe— yik+l) Pk (Ук+1т — Укт)~ЯкУ1т\- (6-4) k—l Полученные уравнения (6.4) эквивалентны системе (6.1).
100 ГЛ. 3. ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ По смыслу уи—концентрация элемента At. Эти концентрации предполагаются вначале заданными и по смыслу не должны меняться. Можно обнаружить, что это следует из уравнений (6.4). Действитель- но, при т=1 из (6.4) вытекает, что Уц—Q, так как в этом случае сумма, стоящая в правой части уравнения (6.4), не содержит ни одного члена. Введем теперь переменные vij = yij— ai Д ~~ (l<i</<n). (6.5) R-i « Их число нам—1 меньше числа переменных ytj, т. е. равно —1)— —п+1. Можно обнаружить, что в силу уравнений (6.4) при l^iCj— —1<п vij=— + (6-6) где /-1 Р,/= X [Pk + Pi(ai~Уи-Л + р,-! (aj~~yj-ij)], k=i j-2 <P,7 = fe2+i Pk№ik — ^-fe+Ж+и — Vkj + fk^j— fkj) + + (fik — fik+l)(Pk+y-VkJ)], 11 ‘k*c ak Из (6.6) следует, что если при каком-нибудь конечном значении t все v;j=O, то и для последующих значений t они остаются равными нулю. Это означает, что поверхность 3n_t, на которой все Vij—O, состоит из фазовых траекторий, т. е. является интегральной поверхностью. Раз- мерность этой поверхности равца размерности фазового пространства переменных ytj за вычетом числа переменных иц, обращающихся в нуль, т. е. равна п—1. В качестве фазовых переменных можно взять переменные иц и п—1 переменйых us = ysf+1 (s=l, 2, .... n—1). (6.7) В этих новых переменных (!<;/</—l<Zn) и us (l^s^n—1) диф- ференциальные уравнения (6.4), согласно (6.5), (6.6) и (6.7), могут быть записаны в виде М s ^УзЗ Pss+i) Ps (Уз+i s+1 Ухх+1) ЯзУзз+1 I । = (+"“+) Ps (as+l ^s) Qs^s> 'Vij = — S [tffe + Ma,—+) + p;_1(a/—H,._1)]vl7 + k—i * 2 + S Pk (vik—Vik+1) vk+1/ — vkj- + (.ak+1~uk) II J + k=i L s=A+l “sj fc-1 +~(ak~uk) (Vk+ij — Vkj)- (6-8) s= i
§6. САМОСБОРКА ОДНОМЕРНЫХ ЦЕПОЧЕК 101 Из этих уравнений непосредственно следует, что поверхность, на кото- рой все vi}=Q, является интегральной и что она глобально асимпто- тически устойчива по отношению к этим переменным. Все это справед- ливо в предположении, что все qk>0, т. е. что образование всех рас- сматриваемых связей носит обратимый характер: любые звенья, сое- динившись, в последующем имеют некоторую вероятность опять разъединиться. Первое утверждение непосредственно следует из того, что правые части уравнений для переменных vtj обращаются в нуль вместе с v^. Второе утверждение несколько менее очевидно. Его до- казательство может быть получено последовательным рассмотрением групп переменных vtj с различными величинами разностей /—I. Преж- де всего заметим, что во второй член правой части уравнения для пере- менной vi} входят переменные vsk с разностями s—k, меньшими чем I—/, а в первом члене коэффициент при переменной заведомо отри- цательный. Поэтому при переменных иг/ с i—/=1 утверждение имеет место. Но тогда оно имеет место и для переменных vtj с i—j=2 и т. д. Тем самым глобальная асимптотическая устойчивость поверхности Vij=O установлена, и поэтому при больших временах рас- смотрение системы сводится к рассмотрению только уравнений для переменных us общим числом п—1. Попробуем дать осмысленную интерпретацию этому удивительно- му факту. Согласно ему в системе всегда спустя достаточное время устанавливаются зависимости j-i UiJ ТТ ykk + i a, k=i ak ’ Как можно их интерпретировать? Перепишем их в виде у — 1 У!/ Уа+1 тт ykk+i Уп+1 yi+ij (р, который можно интерпретировать следующим образом. Доля элемен- тов Ah находящихся в связи с цепочками вида A[+1...Aj, равна произведению долей элементов Дг, находящихся в связи с элемен- том Д/+1, на долю элементов Д,-+1, находящихся в связи с цепоч- кой Ai+2...Ay. Или, в терминах вероятностей, Р (А(<г+ Д(Ч1... Ду) = £’(Д<«-> Д(-+1)Р (Д(+1«-> Д(-+2- • - Л)’ т. е. вероятность того, что элемент Д(- окажется принадлежащим цепочке Д(-...Ду, равна произведению вероятности того, что эле- мент А/ находится в двухзвенной цепочке Д(-Д;+1, на вероятность того, что элемент Д{+1 находится в цепочке Д(-+1...Ду. Эго можно трактовать как независимость событий Д(-<-> Д(-+1 и Д,-+1<-> Д,-+» • • • Ду. Эта независимость не изначальная, но она устанавливается в системе
102 гл- 3- ДИНАМИЧЕСКАЯ СИСТЕМА И ЕЕ ФАЗОВЫЙ ПОРТРЕТ через некоторое время. Это, если так можно выразиться, законо- мерность равновесного состояния, точнее, состояния, при котором фазовая точка уже пришла на глобально асимптотически устойчивую поверхность q7„_i, но на самой поверхности равновесие при этом, может быть, еще и не установилось и никогда не уста- новится. Что можно сказать о движении фазовой точки на поверхности В простейшем случае постоянства коэффициентов ps и qs на ней имеются два состояния равновесия, одно устойчивое и одно не- устойчивое. В более сложных случаях устойчивых равновесий может быть несколько, может быть устойчивое периодическое движение или даже хаотические и стохастические движения. При произвольных qs > 0 и ps > 0 уравнение (6.8) относительно переменных us довольно общего вида.
ГЛАВА 4 УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ § 1. Как сделать устойчивым верхнее положение маятника Маятник в верхнем положении неустойчив. Теоретически, если его поставить строго вертикально, он не упадет, однако практически это не так, потому что после малейшего возмущения он отклонится от равновесия и упадет, да и поставить маятник строго вертикально не- возможно. Все это находится в полном согласии с фазовым портретом маят- ника, найденным ранее и изображенным на рис. 4.1. Верхнее поло- жение маятника отвечает седловому состоянию равновесия О, при ма- лейшем отклонении от него в дальнейшем происходит все больший и больший уход фазовой точки от равновесного положения. Это не так только в случае отклонений фазовой точки на идущие в седловое равновесие фазовые траектории S+, но нет никаких надежд, что случайные возмущения будут столь уникальными. Поэтому, будучи предоставлен сам себе, маятник из верхнего положения всегда пада- ет. Как сделать, чтобы он из верхнего положения не падал? Безусловно, этот вопрос требует уточнения. Без него решение очень просто: достаточно держать маятник в верхнем положении, например, закрепив его ось вращения либо намертво, либо с некото- рым трением покоя. Подобные решения не годятся. Требуется не до-
104 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ пустить падения маятника не закреплением его оси или каким-нибудь подобным образом, а только с помощью подходящих движений этой оси. Нужно предотвратить его падение, манипулируя его осью. Для большей наглядности представим себе, что ось маятника соединена с ручкой (рис. 4.2), и эту ручку можно перемещать как нам хочется. Спрашивается, как нужно перемещать ручку, чтобы верхнее по- ложение маятника стало устойчивым? Если двигать ручку вниз с ускорением, большим ускорения силы тяжести, то при этом верхнее и нижнее равновесные положения маятника как бы поменяются мес- тами. Этот способ стабилизации верхнего положения маятника не может быть длительным и поэтому тоже не подходит. Возможно, вам уже пришли в голову цирковые эквилибристы: они решают задачи и посложнее. Как же они это делают? Они как-то двигали бы ручку, предотвращая этими движениями опрокидывание маятника. На первый взгляд кажется, что эти слова не содержат ни- какой полезной информации. Однако это не так. Она есть и состоит в том*, что эквилибрист перемещает ручку в зависимости от движения самого маятника, следовательно, он осуществляет некую обратную связь, поскольку перемещения ручки влияют на движение маятника и сами они происходят в зависимости от его движения. Итак, мы пришли к тому, что в рассматриваемом случае эквилиб- рист является управляющей системой, целью которой является удер- жание маятника в верхнем положении. Тем самым стала ясна связь поставленной задачи с основной темой книги. Однако, прежде чем продолжить это рассуждение, рассмотрим другие возможные пути стабилизации маятника, не использующие обратные связи и средства управления. Такое рассмотрение способствует выявлению специфики стабилизации средствами управления. Как же можно стабилизировать маятник в верхнем положении, дви- гая ручкой, не сообразуясь с движением самого маятника? По-видимо- му, таких способов достаточно много. Укажем на следующие два: поставить ручку вертикально (рис. 4.2) и вращать ее вокруг собствен- ной оси (а), держать ручку вертикально и колебать ее вверх и вниз (б). Первый способ применим не к любому маятнику; второй — к любому, нужно только подобрать подходящую частоту и амплитуду, и маятник будет стоять вертикально, а если его легонько толкнуть, будет качаться возле своего вертикального положения. Рассмотрим последовательно каждый из этих способов, а затем рассмотрим возможности использования управления. 1. Стабилизация верхнего положения ма- ятника с помощью вращения. Найдем уравнения движения маятника М, ручка которого Р вращается вокруг собствен- ной оси с угловой скоростью со. При учете силы тяжести и пренебре- жении трением рассматриваемая система будет консервативной, и для нее можно записать обобщенный закон сохранения энергии в виде — ср2—у (со cos ср)2—(со sin ср)2 mgl cos ср = h. (1.1)
$ 1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 105 Здесь <р — угол отклонения маятника от вертикали, ю — угловая скорость вращения горизонтальной оси маятника 0'0" вокруг вер- тикали, А и С — главные моменты инерции маятника относительно точки О пересечения осей маятника 0'0" и ручки. При этом предпо- лагается, что маятник представляет собой тело вращения относительно оси L, проходящей через точку О перпендикулярно О'О", т — масса маятника, I — расстояние центра масс маятника до оси 0'0", g — ус- корение силы тяжести, h — некоторая постоянная интегрирования, Q которая в верхнем равновесном положении маятника равна — A-mgl (<р=ф=О). Равновесное положение <р=<р=О будет устойчивым, если функция V = tngl cos <р—(и cos ф)2—(со sin ф)2 в точке ф=0 имеет минимум, и, напротив, неустойчивым, если — максимум. Непосредственные вычисления дают, что S = °» Sri =“mglA-{C—Л)со2, д<р |ф=о оф2 |ф=о six / > в силу чего устойчивость имеет место при выполнении условия (С — Л) со2 > tngl. (1.2) Таким образом, устойчивости верхнего положения маятника можно добиться, если для него С>Л и если угловая скорость вращения его ручки превосходит a*=mgl(C—Л)-1. 2. Стабилизация вертикальными колеба- ниями. Проще всего ручку маятника колебать вверх и вниз по закону a sin at.- При этом движения маятника описываются уравнением вида Лф—ml (g-f-aco2 sin со/) sin ф =0. Так как нас интересует только устойчивость состояния равновесия Ф=Ф=0, то в этом уравнении в силу предполагаемой малости ф мож- но БШф заменить на ф и записать его в виде Лф—ml (g + aa2 sin at) ф = 0. (1.3) Исследование решений этого уравнения, получившего наименование уравнения Матье, не просто. Довольно сложно и исследование ус- тойчивости состояния равновесия. Поэтому можно поступить двоя- ко: сослаться на известные результаты его исследования или упрос- тить задачу настолько, чтобы можно было ее сравнительно просто решить. Но факт стабилизации вертикальными колебаниями настолько необычен, что, пожалуй, все же лучше, чтобы в этом вы убедились сами. Конечно, можно было бы просто показать это на эксперименте. В свое время такие очень эффектные эксперименты с использова- нием электромоторчика от швейной машины проделывал известный
106 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ физик П. Л. Капица. Маятник стоял вертикально н после толчка, покачиваясь, возвращался к вертикальному положению. Он стремился к вертикали, и можно было «ощутить силу», с которой он это делал. Эта сила была названа вибрационным моментом и была вычислена. Все это не очень просто и несколько в стороне от основной темы об- суждения, так что упростим задачу так, чтобы она сохранила смысл и не очень затруднила решение. Пусть ручка колеблется вверх и вниз не по гармоническому закону «sinco/, а так, что ее ускорение периоди- чески с частотой со меняется с —а®2 на а®2. Это соответствует тому, что уравнение (1.3) следует теперь записать в виде Л<р—/7i/(g-j-aG>2signsin<oZ)<p = 0, (1.4) где значок sign означает знак, т. е. +1, если sincoZ > 0, и —1, если sinco/ < 0. Уравнение (1.4) на промежутках времени от мо- мента ^ = Лл/® (k — целое) до /fc+1 = ifc4-n/0) и от tk+1 до tk+2 = = 4+14~л/со—линейное и может быть проинтегрировано. Пусть при t = tk <р = ср* и <р = cpfc; тогда последовательно с помощью решений уравнения (1.4) на промежутках времени от tk до tk+1 и от tk+1 до tk+2 можно найти значения <р и <р в момент времени tk+2. Обозначим их через q>fc+2, фй+2. Не очень сложные выкладки приводят к тому, что Фл+2 = («Г1®?1 sh ncoj sh лсо2 + ch л «4 ch ли2) Фа + + (иг1 sh TtHj ch лсо2 + ®2 ch лей; sh ли2) <pft, (1.5) <pfc+2 = (иг1 ch лих sh ли2 + sh n®t ch ли2) <pA + + (ch nHj ch ли2 + HjH2 sh л®; sh ли2) <pfc, где 2 ml (g+aco2) 2 __ ml (g—aa2) ®i - д , ©2 = у л • Соотношения (1.5) по значениям <pfc и <Р* в момент времени tk ука- зывают их же значения <pfc+2, Фй+2 через время 2л/и в момент времени ffc+2, т. е. они позволяют проследить последовательные изменения состояния <р, ф маятника через промежутки времени 2л/и. Последо- вательные значения ф, ф связаны линейным преобразованием с по- стоянными коэффициентами. Как известно, неограниченное возраста- ние или, напротив, убывание к нулю этих последовательных значений зависит от собственных значений матрицы линейного преобразования (!,5). Неограниченное' убывание имеет место, когда эти собственные значения по модулю все меньше единицы, а возрастание — когда хотя бы один из них по модулю больше единицы. Уравнение, опреде- ляющее собственные значения преобразования (1.5), можно после несложных вычислений привести к виду X2—[(вМ+Д ) shn®1shn®2-|-2chn®1chn®2j X-f-l =0, (1.6)
§ 1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 117 и, как нетрудно видеть, модули обоих его корней не могут быть мень- ше единицы, так как их произведение равно 1. Возможна лишь так называемая консервативная устойчивость, когда его корни по модулю равны единице, что имеет место при соблюдении условия | J sh raoj sh жоа -f- 2 ch raoj sh nco2 j < 1. (1.7) Это условие можно выполнить, если подобрать подходящие а и а- Построение области устойчивости, ров, где выполняется неравенст- во (1.7), может быть осуществле- но численно и приводит в инте- ресующей нас части к картинке, изображенной на рис. 4.3. Со- гласно виду заштрихованной на рис. 4.3 области устойчивости верхнее положение маятника бу- дет стабилизировано, если вы- брать достаточно большую частоту a^mgl/A и подходящее значение «амплитуды» а. 3. Стабилизация не- т. е. области значений парамет- устойчивого равнове- сия маятника средствами управления. Будем манипулировать ручкой маятника в горизонтальном направлении в плоскости маятника (собственно, только эта часть горизонтального перемещения оказывает влияние на его движение). Обозначим это перемещение ручки через у, тогда уравнения движения маятника запишутся в виде A<p = mgZsin<p—ту (cos<p. (1.8) Разрешается менять у или у в соответствии с величинами <р и <р. Примем самое простое: у = а<р4-р<р, (1.9) где аир — некоторые постоянные, т. е. примем линейную зависимость воздействия у от переменных <р, <р состояния маятника. Если мы сумеем реализовать такое управление, то движение маятника будет уже опи- сываться новым уравнением вида Д<р + m/рф cos ф -|- ml (a cos ф—g) sin ф = 0, или, после линеаризации в окрестности равновесия ф=ф=0, вида Дер-f-m/рф + т/(а—£)ф = 0. (1.10) Верхнее положение равновесия маятника устойчиво, если коэффи- циенты в уравнении (1.10) положительны, т. е. если выполняются
108 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ неравенства 0 > 0, а > g. (1.11) Итак, с помощью введения управления со стратегией вида (1.9) верх- нее положение маятника становится устойчивым, если выполнить условия (1.11). Реализация такого способа стабилизации верхнего положения маятника с помощью автоматической системы вполне воз- можна: нужно только иметь измеритель угла <р и силовое устройство, двигающее ручку с ускорением, определяемым стратегией (1.9). Заметим, что при реализации такой стратегии управления приход возмущенного маятника к равновесному положению может быть осу- ществлен путем затухающих колебаний или путем неколебательного уменьшения <р и <р. Это зависит от корней характеристического урав- нения А X2 + m/fSX + ml (а—g) - 0. Колебательный характер возврата к вертикальному положению будет при комплексных корнях с отрицательной действительной частью, т. е. при выполнении условий (1.11) и условия т/р2<4Л (а—g). При обратном неравенстве корни будут действительными отрицатель- ны (и, что соответствует так называемому апериодическому затуханию. Однако, хотя техническая реализация стратегии управления (1.9) вполне возможна, она не так уж проста; во всяком случае было бы значительно проще воспользоваться стратегией вида У — k при аф + Р<р>0, —k при аф + Рф<0. (1-12) Это так называемый релейный закон управления. Он состоит в том, что ручку двигают с одним и тем же ускорением то в одну сторону, то в другую в зависимости от знака величины аф+Рф. Анализ работы такой системы управления сложнее, чем в предыду- щем случае: перед нами нелинейная система. Однако он сравнительно прост и нагляден, если обратиться к ее фазовому пространству. Фазо- вое пространство маятника, как известно из предыдущего, является цилиндром. Нас оно целиком не интересует. Ограничимся рассмотре- нием его только не в очень большом отдалении от равновесия ф=ф=0, тогда оно изобразится некоторой частью плоскости, содержащей точку Ф=Ф=0. Внутри этой части фазового пространства мы можем прибли- женно заменить эшф на ф и cos ф на 1, и тогда, согласно (1.8) и (1.12), уравнение движения запишется в виде А<р—mglq = — kml sign (аф-|-Рф), (1-13) где sign означает знак стоящей после него величины. Несколько упростим вид этого уравнения. После изменения масш- табов по углу и времени при положительных а и Р оно приводится к
S1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 109 виду ф—ф = — sign (ф-|-хф), (1-14) содержащему только один параметр х. Проведем на фазовой плоскос- ти прямую ф+хф=0. Эта прямая Г разделит ее на две части Ф+ и Ф", в каждой из которых уравнение движения линейное, а именно, ф—ф = —1 в части, где ф4-хф>0, ф—ф=-|-1 в части, где ф + хф<0. В каждой из этих частей Ф+ и Ф“ уравнения движения интегрируют- ся, легко находятся фазовые траектории и соответствующие фазовые портреты. Они изображены на рис. 4.4 (х>0). Точки Oj и О2 — сед- ловые состояния равновесия. Возле них в каждой из частей Ф+ и Ф“ фазовые точки движутся, как показано на этом рис. 4.4. Из этого фазового портрета непосредственно видно, что фазовые точки, близкие к точке О (ф=Ф=0), к ней неограниченно приближают- ся, т. е. что вертикальное положение маятника в результате управле- ния стало устойчивым. Однако отнюдь не всегда маятник, будучи отклонен от вертикали, к ней вернется. Это заведомо не так для всех точек, лежащих вне полосы между прямыми SJ и SJ. Только не очень сильно отклоненный от положения равновесия маятник снова вернется к нему, так что имеет место устойчивость, но только по отношению к не очень большим возмущениям.
110 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Сейчас мы немного разобрались в том, каким образом можно ста- билизировать верхнее, изначально неустойчивое положение маятника средствами управления, путем введения обратной связи, и можно было бы поразмышлять о том, как эту же задачу мог бы решить или решает эквилибрист. Однако прежде бегло сравним способы стабилизации без управления и с управлением. Как было видно из рассмотрения стабилизации «вращением» и «колебанием», устойчивость верхнего положения достигалась, но она носила консервативный характер. При вращении верхнее состояние равновесия типа центра и окружающие его фазовые траектории замк- нутые. Аналогично, в случае колебания устойчивость обеспечивается за счет равенства единице модулей корней характеристического урав- нения, определяющего собственные значения матрицы линейного пре- образования состояния за период колебания ручки. Если при экспе- рименте устойчивость все же асимптотическая, то это только за счет трения в оси маятника, которое по условию задачи не может исполь- зоваться для стабилизации. В противоположность этому, устойчивость, вызываемая управлением и вводимой им обратной связью, асимптоти- ческая, причем мы можем при желании увеличивать или уменьшать скорость прихода маятника к состоянию равновесия, не прибегая к трению в его оси, а только меняя стратегию управления. Далее, нетрудно заметить, что стабилизация с помощью управле- ния более универсальна, чем вращением и колебанием ручки. Универ- сальней в том смысле, что одна и та же стратегия управления приме- нима к всевозможным маятникам, в то время как первые два способа применимы не ко всякому маятнику и требуют подбора параметров о> или а и со манипулирования ручкой. Наконец, можно отметить, что при первых двух способах нужно всё время вращать либо колебать ручку и делать это достаточно ин- тенсивно, в то время как при управлении ее .приходится двигать лишь, если маятник отклонился от вертикали (точнее, значений ср=ср=О), и как только он к ней вернулся, надобность в них исчезнет. Все сказанное — в пользу стабилизации с помощью управления. Однако есть довод и против управления: управление требует опреде- ления состояния маятника, требует создания соответствующей изме- рительной системы. Вернемся к эквилибристу. Трудно думать, чтобы он все время двигал ручку в зависимости от состояния маятника, это скорее для технической системы. Человек действует, по-видимому, несколько по-другому. Он реагирует на достаточно сильное уклонение маятни- ка, вырабатывает программу действий и, реализуя ее в некотором маневре, возвращает маятник в «безопасную» зону. Как только снова возникнет опасность падения маятника, снова осуществляется под- ходящий маневр и т. д. Трудно сказать, так ли на самом деле действует эквилибрист, но такая стратегия управления возможна. Ее особен- ностью является быстрая ликвидация аварийных ситуаций, быстрое приведение маятника в безопасную зону и относительное бездействие,
§ 1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 111 пока маятник с точки зрения эквилибриста находится в безопасной зоне. Попытаемся проанализировать такую стратегию управления. Причем начнем с того, что постараемся понять, в чем состоит маневр Л как его спланировать. Возможно, что маневр вовсе не планируется каждый раз, а есть некий запас таких маневров, спланированных заранее в процессе обучения, н они лишь применяются по мере надоб- ности. Конечно, обучение, при котором эквилибрист находит нужные маневры, существенно отличается оттого, как мы будем сейчас их отыс- кивать, но с анализом этой стороны как отрабатывается маневр илн от- куда он берется, оставим без -вни- мания. Нас будет интересовать, су- ществуют ли такие маневры, в чем они состоят и как осуществить стабилизацию верхнего положения маятника с помощью таких манев- ров, а также что из себя будет представлять соответствующая си- стема управления и какова ее стратегия. Для того чтобы усилить инте- рес к этим вопросам, обратим вни- мание на то, что стабилизируют только в цирке, мы с вами делаем э- мы пока повременим: вопрос о том, верхнее положение маятника не о все время, когда стоим и ходим, мы все время решаем эту сложную задачу, даже не замечая, что это делаем, и не понимая, как это делаем. Лишь после аварийных ситуа- ций падения мы подчас сетуем на свою неловкость или говорим дру- гому, что нужно уметь держаться на ногах и уметь падать, что неплохо бы этому подучиться. Пусть движение маятника подчиняется уравнению (1.8) и пусть в некоторый момент времени t0 он оказался в угрожаемом состоянии <р0, фо- Назовем маневром совершаемое в конечное время движение ручки «/(/), приводящее маятник к равновесию <р=<р=О. Таких ма- невров существует бесчисленное множество. Действительно, пусть <р, <р — отклоненное положение маятника и ф (/) — дважды дифферен- цируемая функция, обращающаяся в нуль при и удовлетворя- ющая начальным условиям ф(£о)=фо, ф(/о)=фо. Из уравнения (1.8) можно непосредственно найти y(t), которое обеспечило бы на проме- жутке от t0 до ti совпадение <р(0 с ф(/). Таким образом, каждой такой функции ф(1) отвечает некоторый маневр y(t), для которого, согласно (1.8), & ml cos ф ' ’ ' На рис. 4.5 показан график изменения <р (О до момента to, затем этот график дополнен произвольным приведением маятника к равновесию
112 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы в момент времени h. Далее, по формуле (1.15) может быть найден со- ответствующий этому способу приведения маятника маневр y(t). При отыскании y(t) по ф(0 следует иметь в виду, что при /=/0 г/(/0)= =у (to)=O- Получаемое при этом перемещение ручки у (t) может не удов- летворять требованию законченности этого движения на промежутке от ta до /1, поскольку вовсе не обязательно y(t!)=Q. Это нужно потре- бовать, и это накладывает еще одно ограничение на функцию приведе- ния ф(0. состоящее в выполнении условия C~A^±mgls-n^dt=^ J ml cos ip ' 1 t 0 Таким образом, всякая функция приведения ф(/), удовлетворяющая условию (1.16), порождает некоторый маневр, т. е. законченное дви- жение ручки y(t) на промежутке времени [/0, /J, в результате которого отклонившийся маятник вновь приводится к равновесию. Возможно, что, обучаясь, человек может научиться программиро- вать в мозгу такие маневры и тем самым приводить наше тело к вер- тикали из различных его отклонений. Едва ли это возможно сделать совершенно точно, и поэтому возможно, что приведение к равновесию совершается путем использования ряда все более и более приближаю- щих к равновесию маневров. Покажем, какими могут быть соответст- вующие маневры приведения маятника к вертикали и как выглядит это приведение на фазовом портрете маятника. Пусть перемещение ручки y(t), совершившееся в небольшой про- межуток времени т, имеет вид, изображенный на рис. 4.6. При малом т из уравнения (1.8) следует, что за это время АФ ~ ДФ ~ °» т. е. такое перемещение ручки (назовем его тоже маневром) меняет угол наклона маятника ср, не изменяя его угловую скорость. Таким образом, с помощью этих быстрых маневров — перемещений ручки y(t) вида, показанного на рис. 4.6, мы можем «скачкообразно» менять его угол наклона, мало влияя на его угловую скорость. Теперь рассмотрим фазовый портрет маятника, изображенный на рис. 4.7. Точка О соответствует неустойчивому верхнему положению маятника. Обратим внимание, что удаление фазовой точки — маят- ника — от равновесия происходит вдоль сепаратрис седла S~, а приближение — вдоль S+. Поэтому положения фазовой точки вблизи S- следует рассматривать как опасные, напротив, вблизи S+ — как безопасные. Соответствующие области на фазовом портрете обозначе- ны буквами А и В. Теперь представим себе, что, когда фазовая точка попадает в зону опасности А, применяется описанный маневр изме- нения ф таким образом, чтобы попасть в зону безопасности В, жела- тельно как можно ближе к сепаратрисе S+. Ясно, что такие маневры не позволяют фазовой точке уйти далеко от точки О. Более того, если
§ 1. СТАБИЛИЗАЦИЯ ПЕРЕВЕРНУТОГО МАЯТНИКА 113 в результате серии таких маневров нам удается попасть достаточно близко к сепаратрисе S+, то маятник весьма близко подходит к поло- жению равновесия и некоторое время пребывает вблизи него. Расши- рение зоны А и сужение зоны В влечет большую близость маятника к вертикальному положению. Вместе с тем сужение зоны В требует большей точности маневра, а расширение зоны А — более быстрого и четкого реагирования на отклонения маятника. Поддерживая свое вертикальное положение после больших отк- лонений, мы прибегаем к некоторому подобию маневра изменения <р: при малых отклонениях мы пользуемся перераспределением нагрузки на площади опоры ног, не последнюю роль играют движения корпуса, рук и ног, использующие возникающие силы инерции. Но все сказан- ное только из области догадок, так может быть, но может быть все и несколько иначе или совсем не так. Хотелось бы обратить внимание еще на одну задачу, внешне сов- сем непохожую на изучаемую, но, как оказывается, приводящую к таким же уравнениям и поэтому в принципе такую же. Это задача о левитации. О свободном висении тела без механических поддержек, не с помощью воздушного потока или силы Архимеда. Согласно леген- де так висел в воздухе гроб Магомета, так якобы могут зависать йоги и «летающие тарелки». Поскольку механические поддержки исклю- чены, то мы с вами можем осуществить левитацию только с помощью электромагнитных сил. Тут возможно несколько вариантов: магнит- ные силы, электростатические, электродинамические. Остановимся на вывешивании тела с помощью магнитных сил. Имеется железный шарик, и нужно его свободно вывесить с помощью магнитного поля. На первый взгляд задача кажется очень простой: магнит сверху притя- гивает шарик, компенсируя силу тяжести, и он висит. Но так ничего
414 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ не выйдет. Кто имел дело с магнитами, тот это сразу сообразит: шарик либо упадет, либо прилипнет к магниту. Заставить его висеть не удастся. Хотя у него и есть положение равновесия, т. е. место, где сила тяжести и сила притяжения магнита равны, но это равновесие неустойчивое. Как же заставить шарик все же висеть? Мы уже знаем, что для этого нужно неустойчивое равновесие преобразовать в устой- чивое и что этого можно достичь с помощью подходящего управле- ния. В данном случае мы можем управлять силой притяжения магни- та, заменив его электромагнитом. Итак, как следует управлять током в катушке электромагнита, чтобы в его магнитном поле мог ус- тойчиво висеть железный шарик? Заметим, что непосредственно уп- равлять током в электромагните трудно, проще управлять напряже- нием. Сейчас следовало бы выписать все необходимые уравнения и начать их исследовать. А может быть, можно и сразу догадаться, что нужно делать? Наверное, управление следует осуществить с помощью обрат- ной связи, определяющей изменение напряжения и в зависимости от отклонения г и скорости г железного шарика от его неустойчивого равновесия; похоже, что для этого подойдет, например, закон управ- ления вида и = az+Pz. Да, подойдет, и шарик будет устойчиво висеть. Нужно только подоб- рать подходящие значения параметров а и 0. У левитации есть много полезных применений. Вывешенный Ша- рик можно раскрутить настолько быстро, что он разорвется. А это уже метод определения его прочности. Есть у левитации и много дру- гих полезных применений. Уже сейчас создаются новые виды без- рельсового наземного скоростного транспорта с вагонами, выве- шиваемыми электромагнитным полем. § 2. Задача о комаре Представьте себе, что Вы легли спать в палатке и, вдруг, на Вас сел комар. Вы хотите не дать ему Вас укусить. Для этого можно либо хлопнуть, надеясь его убить, либо спугнуть. Комар, если его не уби- ли, может снова сесть на Вас, пока Вы не заснули, либо затаиться и дождаться, когда Вы уснете, и укусить Вас. Как же Вам вести себя в этой ситуации, как управлять своими действиями, чтобы прихлоп- нуть комара, не дав ему скрыться? Как сделать это наилучшим обра- зом? Ясно, что перед нами задача управления, задача отыскания его оптимальной стратегии. Управление состоит в последовательности принятия и реализации решений о том, нужно ли хлопнуть ладошкой, нужно ли аккуратно спугнуть, чтобы еще раз сел, и мы почувствова- ли, где сел. Стратегия управления состоит в правиле, по которому мы принимаем решения: хлопнуть или спугнуть. Эта стратегия долж-
§2. ЗАДАЧА О КОМАРЕ 115 Управляющих дейст- на быть такой, чтобы максимизировать вероятность достижения цели управления — прихлопывание комара. Попытаемся построить математическую модель этой задачи уп- равления и, если удастся, с ее помощью найти оптимальную стратегию управления. Не будем стремиться учитывать все тонкости процесса поимки комара, но постараемся отразить основные его стороны. Нам нужна простая модель, позволяющая понять самые существенные моменты в стратегии прихлопывания комара. В нашем распоряжении, если отбросить в сторону нюансы, после посадки комара — два возможных поведения: хлопать, спугнуть. Каждое из этих действий приводит к некоторым последствиям, их тоже всего несколько: комар убит, комар улетел, комар снова сел на Вас, причем он может сесть, обнаружив место посадки либо не обнаружив его. Между «обнаружил» и «не обнаружил» возможны промежуточ- ные градации, однако ради простаты будем относить их все к двум крайним случаям: место посадки комара либо известно, либо неизвест- но. Возможна и еще одна тонкость, когда мы точно не знаем: не то комар улетел, не то все же сел на Вас. Этот нюанс мы тоже исключим, считая, что хотя мы и не всегда знаем место его посадки, но умеем различать слухом, когда он улетел и когда не улетел. Итак, примем, что объект управления имеет четыре состояния: Xi — комар сел в известном месте, х2 — комар сел в неизвестном месте, х3— комар убит, х4— комар улетел. вий два: хлопать — и4, спугивать — и2. При действии «х состояние может смениться на х3, т. е. удалось убить комара, и улететь, и тогда из состояния хх J .. ’ г-, 1 и=и-хлопать он перейдет в х4. После хлопка — 1 действия Ui — он может снова сесть, оставаясь в состоянии хх ли- бо переходя в состояние х2 в зави- симости от того, удалось ли почув- ствовать, где он сел, или не уда- лось. Аналогично, состояние х2 при х< действии Ui может перейти в хх, ос- таться прежним или перейти в х3 или х4. Состояния х3 и х4 могут перейти только сами в себя. Изобразим состояния хи х2, Хз и х4 точками. Тогда возможные смены состояний естественно изобразить стрелками, идущими от одной из этих точек к другой. Получающийся рисунок называется графом смены состояний. Таких графов два: один при действии их и второй при действии и2. Оба эти графа изображены на рис. 4.8. Ясно, что эти графы смен состояний указывают только, что может произойти при том или ином действии, а не то, что действительно произойдет. Объект управления — комар — в данном случае стохастический. Его поведе- ние не может быть предсказано точно. Но оно допускает вероятностное но комар может u^uz~ спугнуть ху- сел, известно где хг-сел, неизвестно аве х3-увит -улетел Рис. 4.8
116 ГЛ. 4. управляемые динамические системы описание, состоящее в указании вероятностей переходов из одних состояний в другие при действиях и п2. Обозначим эти вероятнос- ти через us) и будем считать, что это какие-то заданные числа. Заметим, что это предположение не так уж очевидно, ведь со временем комар может либо наглеть, либо набираться страху и в соответствии с этим менять свое поведение. Кроме того, разные комары могут вести себя по-разному и иметь поэтому разные вероятности тех или иных действий. Примем, что этого не происходит или что, в грубом прибли- жении, этими различиями и изменениями можно пренебречь. Ясно, что не всегда такое допустимо, более того, это изменение иногда может быть даже самым существенным. Например, в том случае, когда мы захотели бы прихлопывать комара, используя особенности комариной «психики», усыпляя его бдительность и убивая наглеца. Возможные изменения состояния xt в зависимости от управляющего воздействия us изображены на графах рис. 4.8. На этом же рис. 4.8 приведены обозначения состояний xt и стратегий us. Каждый переход на этих графах происходит с вероятностью р (Xf-t-Xf, и±) или р (х{-*-Х;, и2) в соответствии с или и—и2. Для построения и оптимизации стратегии управления весьма важ- ным является возможная длительность ловли комара, ваше терпе- ние. Оно может быть таким, что уже после двух-трех неудавшихся попыток вы либо вскакиваете и переходите к более решительным дей- ствиям, либо таким, что закутываетесь с головой, либо таким, что ве- дете борьбу до конца, пока комар не улетит либо не будет прихлопнут. Для того чтобы вести себя с самого начала оптимальным образом, нужно знать, на что вы способны, и заранее решить, как вы будете себя вести. С теоретической точки зрения наиболее существенно раз- личать случай конечного ресурса действий и неограниченного. Однако можно думать, что неограниченное увеличение ресурса в пределе со- ответствует бесконечному ресурсу. 'Рассмотрим сначала случай ограниченного ресурса действий. Пусть этот ресурс ограничен одним действием. Тогда очевидно, что из двух возможных действий Ui и и2 нам следует выбрать то, для кото- рого вероятность убить комара максимальна, т. е. для которого мак- симальна вероятность перехода в состояние х3. В соответствии с рис. 4.8 таким действием является Ui (действие и2 вообще не может привести к состоянию х3). Теперь пусть в нашем распоряжении два действия. При этом на первом этапе в зависимости от состояния xt можно выбирать одну из стратегий us в соответствии с формулой u = gr1(xz) (2.1) и, аналогично, на втором последнем этапе также в зависимости от состояния X; можно выбирать то или иное и. в соответствии с формулой и=Ш (2.2) Формулы (2.1) и (2.2) определяют правила выбора действий на пер- вом и втором этапах всего процесса поимки комара, т. е. стратегию
§ 2. ЗАДАЧА О КОМАРЕ 117 избавления от комара. Ясно, что всего таких различных стратегий шестнадцать: четыре на первом этапе и четыре на втором. Все четыре возможные на каждом этапе стратегии приведены в таблице 3. Непо- средственно ясно, что стратегии 3 и 4 заведомо плохие: при стратегии 3 мы хлопаем комара, когда не знаем, где он сидит, и спугиваем, когда знаем; при стратегии 4 мы ничем не способствуем поимке комара. По- этому остается только четыре варианта стратегий: на первом этапе стратегия 1 или 2 и на втором также 1 или 2. Но мы уже знаем, что, когда в запасе имеется только одно действие, этим действием должно Таблица 3 Состояние Номер стратегии I 2 3 4 Х1 Х3 «1 111 «1 «2 быть Uj, так что на втором этапе следует пользоваться первой стратеги- ей. Фактически остаются только две возможные стратегии: на пер- вом этапе— 1-я или 2-я, на втором этапе — только 1-я. Рассмотрим последовательно каждую из них. Стратегия: g'i(x1)=g’1(x2)=u1, g’2(x1)=g’2(x2)=u1. С самого начала возможны два варианта в соответствии с тем, находится ли комар в состоянии или х2. Для этих случаев нужно найти вероят- ности P2(Xi) и Р3(х2) прихлопывания комара при принятой двухэтап- ной стратегии. На первом этапе принимается действие Ui и изменения состояния комара происходят в соответствии с графом рис. 4.8 с ве- роятностями p(xt-^-Xj, и^. В частности, прихлопнут уже на этом первом этапе комар может быть в зависимости от его начального со- стояния с вероятностями p(Xi-+x3, и^ и р(х2-+х3, иг). На втором этапе комар может быть прихлопнут только, если после первого этапа он окажется в состоянии Xi или х2, причем это может произойти соответ- ственно с вероятностями p(Xi~^x3, Ur) и р(х2-+х3, Ui). Таким образом, для искомых вероятностей P2(^i) и Р2(х2) находим, что Р2 (xi) =p(xi^ xlt и^ р (хх х3, и,) ф- + p(Xi-^x2, Ui)p(x2^x3, Ui)+p(Xi-^x3, ut), (2.3) P2 (хг) = P (x2 Xi, Ui) P (Xi —> X3, Ui) + + p(x2^x2, иг) p (x2x3, Ui) + p(x2 —, X3, Ui). Стратегия: gi(x1)=u1, gi(x2)=u2, g3(Xi)=g2(x2)=Ui. Рас- смотрение этой стратегии совершенно аналогично рассмотрению
118 ГЛ. 4. управляемые динамические системы предыдущей и приводит к тому, что Р2 (xt) = р(х^ Хр «О р (х2 х3, uj 4- + р(х^х2, и1)р(х1—^х3, U1)+p(x1~^x3, иг), (2.4) Р2(х2) = р(х2—>х1г и2) р (Х2 —> х3, иг) + р (х2—> х2, и2) р (х2—>Х3, Mj). Как видно из этих формул, вероятности /^(xj) в обоих случаях одинаковы. Это и понятно, так как в этом случае на обоих этапах поимки применяется одно и то же действие Напротив, вероятности Р2(х2) — различные. Оптимальной является та стратегия, которая дает большее значение этой последней вероятности, а это зависит от кон- кретных численных значений вероятностей смен состояний p(xf->x,, us). Сравним вероятности Р2(х2) для первой и второй стратегий. Их разность А равна А = [j? (х2 ► Xp Uj) р (х2 > х2, u2)J р (х1 > х3, + [р (х2 —>х2, их)—р (х2 —> х2, и2)] р (х2 Х3, Ut). Если А положительна, то в начальном состоянии х2 эффективнее пер- вая стратегия; если меньше нуля — вторая. Первый член в выражении для А положительный, второй отрицательный. В соответствии с этим преимуществу первой стратегии способствует увеличение вероятности прихлопнуть комара наугад и преимуществу второй — осторожность комара, т. е. большая вероятность того, что он улетит, после того как его попытались прихлопнуть. Аналогичным образом могут быть рассмотрены все возможные стратегии и выбрана оптимальная при трех этапах поимки, четырех и любом конечном числе. Однако сложность вычислений при этом быстро нарастает. В связи с этим особый интерес вызывает рассмотре- ние задачи о поимке комара при неограниченном числе этапов, тем более что к этому случаю можно отнести и поимку комара с достаточ- но большим числом этапов, причем может оказаться, что достаточно большое число этапов начинается с 5—6. Может показаться, что рассмотрение процесса прихлопывания комара с возможностью бесконечного числа этапов представляет собой очень сложную задачу. Однако это не так, ибо как раз неогра- ниченность числа этапов влечет существенное упрощение, состоящее в том, что теперь все этапы одинаковые, и поэтому на каждом из них оптимальной будет одна и та же стратегия g(Xj). И поэтому, если рань- ше оптимальную стратегию нужно было выбирать среди большого числа других, то теперь только среди не более четырех стратегий, из которых две заведомо плохие. Четырех — потому, что функция g(Xj) может иметь два значения «j и и2, а аргумент тоже два — Xj и х2. Две заведомо плохие стратегии — это g'(xi)=u2, g’(x2)=u2 и g’(x1)=u2, g(x2) = Ui. Стратегию, одинаковую на всех этапах поимки, назовем стацио- нарной. Пусть g(Xt) — некоторая стационарная стратегия управле-
§ 2. ЗАДАЧА О КОМАРЕ 119 ния и Р(х4), Р(х2) — вероятности убить комара при этой стратегии, если его ловля начинается соответственно в состояниях х4 и х2 и может закончиться только либо состоянием х3, либо х4, а в противном слу- чае неограниченно продолжается. Пусть теперь xt (i=l, 2) — началь- ное состояние и, в соответствии с принятой стратегией управления, к нему применяется действие g(x;), в результате которого с вероят- ностями р(хг^х1, g(x,)), /?(хг->х2, g(xt)), p(x~rx3, g(xf)), Р&г+Хь g(xi)) могут возникнуть соответственно состояния хъ х2, х3 и х4. При продолжении процесса ловли комара с той же стратегией из состояния Xt он будет пойман с вероятностью P(x't), из состояниях, —с вероят- ностью Р(х2), из состояния х3 — с вероятностью единица и из состоя- ния х4 — с вероятностью нуль. Следовательно, вероятность прихло- пывания комара в состоянии х;, с одной стороны, равна Р(х;), а с дру- гой — она равна р (х£ -> xlr g (х,.)) Р (xt) +p(xl-^x2, g (X;)) Р (х2) 4- 4-р (X; -^х3, g (х,-)) = Р (х,). (2.5) Эти соотношения (2.5), записанные для i=l, 2, можно рассматривать как два уравнения относительно Р(х±) и Р(х2), из которых они легко могут быть найдены. Таким образом, для любой из возможных, приведенных в таблице 3, стратегий управления могут быть найдены соответствующие вероят- ности поимки комара Р(х1) и Р(х2). Теперь осталось, перебрав все четыре варианта стратегий, выбрать в качестве оптимальной ту, для которой P(xt) и Р(х2) — наибольшие. При этом имеется в виду, что для оптимальной стратегии одновременно наибольшими являются обе вероятности P(xt) и Р(х2). При этом, однако, сразу же возникает вопрос: а существует ли такая оптимальная стратегия? Ведь возможно, что увеличение одной вероятности происходит в ущерб другой и стра- тегии, при которой обе вероятности наибольшие одновременно, не существует. Однако, оказывается, все же такая стратегия есть, и это можно увидеть из уравнений для вероятностей Р(х1) и Р(х2), которые согласно (2.5) записываются в виде р(х1~^ xn g(x1))P(xl) + p(x1- х2, g(xt))P(x2) + +р(х1—>х3, g(x1)) = P(x1), (2.6) р (х1 х2, g (х„)) Р (х4) + р(х.г-^ х2, g (х2)) Р (х2) 4- 4- Р (х2 х„ g (х2)) = Р (х2), если рассматривать их решения как точки пересечения соответствую- щих прямых на плоскости Р(х4), Р(х2). Действительно, учитывая, что p(x/->x1,g(x.))+p(x,.^x2, g(x,.))<l (i = l, 2), обнаруживаем, что прямые L и М, отвечающие первому и второму уравнениям (2.6), имеют угловые коэффициенты и й2<4 и пере- секают соответственно оси Р(х4) и Р(х2) в точках с абсциссой q4>0 и ординатой <?2^0, т. е. они расположены, как показано на рис. 4.9, и поэтому пересекаются в некоторой точке, лежащей в первом квадран-
120 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы ге. На рис. 4.10 изображены две прямые L1 и L2 и две прямые М1 и M2r отвечающие соответственно двум различным значениям каждой из функций g(Xi) и g(x2). Четыре точки пересечения прямых L1 и ЛР, L1 и М2, L2 и ЛР, L2 и ЛР расположены так, что одна из этих точек,. назовем ее R, обязательно имеет одновременно и самую большую абс- циссу, и самую большую ординату. Эта точка отвечает оптимальной стратегии. Прямые L1 и L2 отвечают соответственно g(x1)—u1 и g(x1)=u2, а прямые М1 и Л12 — соответственно g(x2) = Ui и g’(x2)=«2. Поэтому расположение прямых L1, L2, М1 и М2 на рис. 4.10 означает, что для оптимальной стратегии g(Xj) = Hi и g(xi) = u1, т. е. комара нужно бить ладошкой как в том случае, когда знаешь, где он сидит, так и в том, когда не знаешь. Это соответствует прямо- линейной стратегии управления: бей, не задумываясь. Однако воз- можны и другие расположения прямых L и М, при которых оптималь- ная стратегия охоты на комара не столь прямолинейна. Как для этого должно измениться расположение прямых L и М — довольно ясно. Достаточно, например, поменять местами прямые М1 и М2, и тогда оптимальной стратегией будет Это означает, что в состояниях х2 мы стремимся непосредственно прихлопнуть комара, в то время как в состояниях х2 только добиться ситуации, при которой такое прихлопывание более осуществимо. Та- кого рода управление, при котором часть действий непосредственно направлена на достижение цели, а часть — только на создание усло- вий для таких непосредственных действий, можно назвать дуальным. Но возможно ли, чтобы такая дуальная стратегия была оптимальной? Для того чтобы убедиться, что такое возможно, рассмотрим два число- вых примера, приводящие к прямолинейной и соответственно дуаль- ной стратегиям.
§2. ЗАДАЧА О КОМАРЕ 121 Пример 1. р(Х1-н ► хп «Д = 0,2; р(х4-^ х2, «Д = 0,1; р(Х1-н - xv «Д = 0,6; р (х4 —> х2, «Д = 0,3; Р(Хл-ч - Хр «Д = 0,4; р (х2 —> х2, «Д = 0,2; р(х2_ ► ХрИД = 0,6; р(х2^ х2, «Д = 0,3; Р^-* х3, «Д = 0,5; p(Xj—* х4, «Д = 0,2: p(xt х3, «Д = 0,0; р (х4 —» Хр и2) = 0,1; р(х2-+ х3, иД = 0,2; р (х2 —> х4, «Д = 0,2; р(х2-+ х3, и2) = 0,0; р (х2 — Хр «Д = 0,1. Для этих значений вероятностей смен состояний уравнения (2.6) для прямых L1, L2, М1 и М2 имеют вид 0,2Р (хД-|-0,1Р(хД Д-0,5 = Р (хД, 0,6Р(хД4-0,ЗР(хД = Р(х1), 0,4Р (хД + Q,2P (хД + 0,2 = Р (хД, 0,6Р(хД + 0,ЗР(хД = Р(хД. Они изображены на рис. 4.11. Точке R соответствует прямолинейная стратегия, в ней пересекаются прямые L1 и М1. Для нее и Р(хД«0,6. Заметим, что в этом случае дуальная стратегия лишь немного хуже оптимальной прямолинейной, так как точ- ка пересечения прямых L1 и /И- близка к точке 'R. Другие из рассматриваемых стратегий (включенных в таблицу 3), как это непосредственно видно из рис. 4.11, уже намного хуже. Стратегии «ударять, когда неизвестно, где сидит комар» и «спу- гивать, когда известно» отвечает точка пе- ресечения прямых L2 и Л41. Для нее веро- ятности Р(хД и Р(хД меньше половины. Рис. 4.11 Стратегии «всегда спугивать» соответству- ет точка пересечения прямых L2 и Л42, естественно, что при этом Р(хД=Р(х2)=0. Пример 2. Численные значения тех же самых вероятностей, что и в предыдущем примере 1, следующие: 0,1; 0,2; 0,3; 0,6; 0,2; 0,4; 0,3; 0,6; 0,6; 0,1; 0,0; 0,1; 0,2; 0,2; 0,0; 0,1. Уравнения прямых L1, L2, Л41 и Л42 в примере 2 имеют вид ОДР (хД + ОДР (хД + 0,6 = Р (хД, 0,ЗР(хД4-0,6Р(хД = Р(хД, ОДР (хД + 0,4Р (х2) -f- 0,2 = Р (хД, 0,ЗР (хД + 0,6Р (хД = Р (хД
122 ГЛ. 4. управляемые динамические системы и изображены на рис. 4.12. Из этого рисунка следует, что оптимальной оказывается дуальная стратегия. На этом закончим рассмотрение задачи о прихлопывании комара. Эта задача, несмотря на свою несколько шуточную постановку, очень серьезна, таким же образом могут быть поставлены и решены многие другие очень важные и ответственные задачи. По существу, в ней ставится и решается вопрос о многоэтапном воздействии на стохасти- ческий объект, приводящем к наилучшему конечному результату. Это почти общая постановка задачи управления. Ее специфика состоит в том, что при заданной стратегии управления £„(*,) (n=l, 2, ..., N) наш объект управления является нестационарной марковской системой, Р(Хг) 1,0 0,5 Р&Р 0,5 ijj Рис. 4.12 а в случае стационарной стратегии уп- равления g(xt) — стационарной (одно- родной) марковской системой. Состоя- ниями этой динамической марковской системы являются х± и х2, х3 и х4, фазо- вым ее состоянием — вероятности р(х4), р(х2), р(х3) и p(Xi) этих состояний. Вероятности смен этих состояний зада- ны, это p(Xt-*-Xj, gn(xi)) или, для стаци- онарной стратегии, р(Хг->Х;, g(Xj)). Ве- роятности перехода из состояния х; в состояние х} зависят на каждом этапе смены состояний только от состояния х; и не зависят от предшествующих со- стояний системы, как и требуется для марковской системы. Последующее фазовое состояние pn+i(pn+i(-^i), Pn+i(x2), pn+i(xs), р„+1(х4)) связано с предыдущим р„ (р„(х4), рп(х2), р„(х3), pn(xt)) соотношением вида Pn + J где Рп — матрица вероятностей перехода из состояния х{ в х, при стратегии й„(хг). В случае стационарной стратегии ё’„(хг)=й’(хг) при всех п, и поэтому матрица Рп одна и та же при всех п, что соответствует стационарной марковской системе. Итак, мы пришли к тому, что задача о прихлопывании комара представляет собой задачу об управлении динамической марковской системой. Марковскую систему, вероятности смен состояний которой за- висят от управляемой переменной или переменных, называют управ- ляемой марковской системой. Управляемые марковские системы — это важный и обширный класс стохастических систем управления. В общем случае они имеют конечное или бесконечное число состоя- ний, вероятности смен которых зависят от управления и самого сос- тояния. Предшествующие смены состояний не имеют никакого влияния на эти вероятности, они как бы забываются. Именно благодаря этому «забыванию» вероятности состояний оказываются полным описанием,
§ 3. АВТОРУЛЕВОЙ 123 соответствующим фазовому состоянию. Рассмотрение управляемых марковских систем в дальнейшем будет продолжено. В качестве пере- хода к этому продолжению выясним, не связаны ли между собой стра- тегии управления при различных числах этапов N, и что происходит с ними при неограниченном возрастании N. Пусть gifxt), g^(xt), ..., g’yv(xj) — оптимальная стратегия при N этапах. Пусть мы начали ловить комара и израсходовали s действий М пусть мы его не прихлопнули и он не улетел. У нас осталось в резер- ве еще N—s действий. Согласно нашим упрощенным представлениям то, что комара уже хлопали и спугивали, не оказало никакого влияния на его поведение: он улетает и садится с теми же вероятностями, с теми же вероятностями он обнаруживает и не обнаруживает себя. Эти же упрощенные представления относятся и к нам: мы не стали его луч- шие хлопать или спугивать. Такое упрощение задачи приводит к очень важному выводу: ловля комара после s попыток (этапов), если он после них не улетел и не прихлопнут, ничем не отличается от его ловли с самого начала при наличии в резерве N—s этапов. Это означает, что оптимальный выбор действий на $+1, ..., N этапах должен быть такой же, как и на 1, 2, ..., N—s этапах при ловле с резервом N—s этапов, т. е. Qs+i (Х;) = grs (Xi), ..., g% (Xi) = gft-* (Xi). Эта связь между оптимальными стратегиями при резервах в N и W—s действий (s= 1, 2, ..., N—s) является выражением знаменитого и широкоизвестного принципа динамического программирования Р. Веллмана. Именно он будет положен в основу при дальнейшем рассмотрении оптимального управления динамическими процессами и, в частности, марковскими системами. Осталось еще рассмотреть, что происходите оптимальной стратегией при У->оо. При очень больших значениях N с вероятностью, близкой к единице, комар либо будет прихлопнут, либо улетит, и поэтому на первых этапах «ничего не изменится», если это очень большое число допустимых этапов N будет увеличено или даже станет равным бес- конечности. Если это так, то существует предельная стратегия g™ (xt) и эта предельная оптимальная стратегия ловли комара на первом этапе является оптимальной на втором, третьем и любом, если резерв действий неограничен. Таким образом, мы пришли к тому, что при N—oo оптимальная стратегия стационарна. § 3. Авторулевой Представьте себе, что Вы плывете на лодке и, вдруг, замечаете, что она сбилась с курса. Вы поворачиваете руль и выводите лодку на курс. Вы управляете ее движением. Человек управляет движением и более сложных объектов. Если говорить о поддержании курса, то здесь управление малыми и больши- ми, речными и океанскими судами, велосипедом, автомобилем, под-
124 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ водной лодкой, самолетом, трактором и комбайном, вообще, всевоз- можными движущимися объектами. Человек более или менее быстра научается этому и делает это довольно хорошо. Мы не знаем, как он это делает. Мы не знаем, как наш мозг решает столь сложные задачи. А в ряде случаев нужно управлять объектами в автоматическом ре- жиме. Как же научить управлять движением динамического объекта автомат, если мы не знаем, как это делаем са- / ми? Какие нужно решить для этого задачи? / Как их решать? Некоторые из этих вопросов мы рассмот- 7 \ рим на простейшем примере управления кур- /д сом судна, скажем, лодки. Рассмотрим лодку, которая за счет мо- т0Ра или весел движется с некоторой ско- ростью V. В силу разных причин (течение, волны, ветер и т. д.) лодка уклоняется от за- l /\ данного курса. Будем считать, что это откло- некие происходит путем поворота лодки BO- Z' круг ее центра масс, и обозначим угол от- \ клонения продольной оси лодки от курса Рис. 4.13 через <р (рис. 4.13). Чтобы заставить лодку плыть куда надо, т. е. по нашей воле пово- рачивать ее вокруг центра масс, есть руль. Угол отклонения ру- ля от продольной оси лодки обозначим через хр. Поворачивая руль, мы можем менять положение лодки относительно заданного курса, т. е. можем ею управлять. В чем состоит цель такого управления? Цель состоит в том, чтобы как можно точнее обеспечить движение лодки по заданному курсу. Чем точнее выдерживается курс, тем лучше управление. Ясно, что самым лучшим является управление, при котором лодка все время идет по курсу, т. е. ф^О. Добиться, чтобы лодка все время шла по курсу, трудно. Это идеальная цель управления, но тем не менее мы пытаемся ее осуществить, поворачивая руль должным образом. Руль — это средство реализации цели управления. А как надо поворачивать руль? Как с помощью средств управления добиться осуществления цели управления? Чтобы как-то ответить на этот вопрос, надо прежде всего построить математическую модель объекта управления, т. е. математическую модель лодки. Для этого надо выбрать соответствующее описание и записать уравнения движения лодки. Вообще, движение лодки в воде — это сложная гидродинамическая задача, и на сегодня сущест- вуют различные уровни подробности ее рассмотрения и решения. Мы же напишем самое простое уравнение. Пусть <р — угол поворота лодки относительно вертикальной оси, проходящей через ее центр масс, и I — момент инерции относительно этой оси. Вода действует на корпус лодки и руль, создавая некоторые моменты относительно вертикальной оси. Ясно, что момент от руля
§ 3. АВТОРУЛЕВОЙ 125. зависит от угла его поворота и в самом простейшем виде пропорцио- нален ему с некоторым коэффициентом k, т. е. М (ф)=—kty. Знак минус означает, что момент от руля всегда направлен против направле- ния отклонения руля (рис. 4.13). Момент, действующий на корпус лодки, в грубом приближении равен —/нр, причем в зависимости от конструкции лодки коэффициент h может быть положительным, от- рицательным или равным нулю. При этих предположениях уравне- ние движения лодки запишется в виде /<рф-/1ф = — (3.1) Нас интересует вопрос, как выбирать ф(/), чтобы реализовать цель управления ф(/)=0. Но прежде всего разберемся в том, как ведет себя лодка без управления, т. е. если ф(/)==0. Это означает, что руль установлен вдоль продольной оси лодки, закреплен, и никто его не трогает. Тогда, согласно (3.1), уравнение неуправляемой лодки имеет вид = 0. (3.2) Чтобы разобраться, как ведет себя неуправляемая лодка, надо по- строить ее фазовый портрет. Эта система механическая, значит, ее состояние есть совокупность ф и ф. Так как ф — это угол, а ф — уг- ловая скорость, то фазовым пространством, как в случае физическо- го маятника, является цилиндр. По направляющей цилиндра откла- дывается ф, а по образующей ф (рис. 4.14, а). Этот цилиндр можно рисовать в виде развертки. Надо его разрезать по образующей и раз- вернуть. Получится полоса шириной 2л (рис. 4.14, б). Граничные точки полосы надо отождествить, т. е. считать, что точ- ки ф=—л, ф и ф=л, ф отвечают одному и тому же состоянию. Теперь будем строить фазовый портрет динамики лодки без руля. Интегрируя по времени уравнение (3.2), получим первый интеграл /ф+йф=с,.
126 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ где с — постоянная. Он дает связь между ф и ф, т. е. уравнение фазо- вых траекторий. На полоске это прямые с угловым коэффициентом —hir, на цилиндре винтовые линии (рис. 4.15; —hJI принимается отрицательным, что соответствует положительному h). Фазовая точ- ка движется по траектории в направлении, показанном стрелкой; где ф>0, там <р возрастает, а там, где ф<0, ф убывает: Пусть фазовая точка, двигаясь по траектории, приходит в точку А (рис. 4.15, а) Дальнейшее ее движение происходит по той же самой траектории, но уже из точки В. Двигаясь дальше, фазовая точка приближается к отрезку 001. Что собой представляют точки этого отрезка? Для них ф=0. Но из уравнения (3.2) видно, что для них и ф=0, т. е. ф=0, откуда следует, что ф=сопэ1 является решением уравнения (3.2). К такому же выводу можно прийти и непосредственно, обнаружив подстановкой, что Ф=сопз1 — решение уравнения (3.2). Следовательно, каждая точка отрезка 001 (точнее, окружности, поскольку точки О и 01 отождеств- лены) является состоянием равновесия нашей динамической системы, а в ее фазовом пространстве есть целый отрезок состояний равновесия, к точкам которого приближаются все остальные фазовые траектории. А теперь разберемся, что представляет собой фазовый портрет с точки зрения действительных движений лодки. Прежде всего — состо- яния равновесия. В них ф=сопэ1 и ф=0, т. е. со временем угол ф не меняется. Лодка движется прямолинейно под некоторым постоянным углом к заданному курсу и не отклоняется от этого направления ни вправо, ни влево. Она по существу придерживается одного курса. Скажем, вы толкнули ее в некотором направлении, так она и движется прямолинейно, не отклоняясь от этого направления. Ясно, что таких направлений сколько угодно, и можно толкнуть лодку по любому из «них. А следовательно, и состояний равновесия сколько угодно. Вот
§ 3. АВТОРУЛЕВОЙ 127' отрезок состояний равновесия и отвечает прямолинейным движениям неуправляемой лодки по всевозможным направлениям. Фазовые тра- ектории верхней части фазового пространства, где ф>0, соответству- ют вращению лодки в положительном направлении, а нижней части — в отрицательном направлении. Ну, а если мы отклоним неуправляе- мую лодку от прямолинейного движения, например, крутнув ее в направлении увеличения угла <р? Как она будет вести себя после этого?' С точки зрения фазового портрета этот толчок, отклоняющий ее от прямолинейного движения, отвечает изменению начального состоя- ния, а дальнейшему движению лодки соответствует движение фазо- вой точки по фазовой траектории из этого начального состояния. Как видно из рис. 4.15, а, б, фазовая точка смещается в верхнюю' полуплоскость и затем движется по фазовой траектории в направле- нии увеличения угла <р, но угловая скорость <р при этом уменьшается и стремится к нулю, т. е. фазовая точка приближается к некоторому, уже новому состоянию равновесия. Это новое состояние равновесия также соответствует прямолинейному движению лодки, но по другому направлению. Итак, неуправляемая лодка, лодка «без руля и без ветрил», не обладает целенаправленным поведением. Она может плыть прямоли- нейно по любому направлению. А если ее движение что-то изменит, она покрутится немного и снова придет к прямолинейному движению, но уже, вообще, по другому направлению. Но не все лодки обладают таким поведением. И те, кто любит ло- дочные прогулки и ездил на разных лодках, знают это. Вот, например,, шлюпка. Если ее толкнуть прямо, она прямо и движется. Но есть дру- гие лодки. Одну из них хорошо знают волгари. Это такая красивая лодка с высоким носом. Ее называют великоовражкой по названию одного из красивых волжских мест под городом Горьким. Если такую лодку толкнуть, то она моментально начинает куда-нибудь поворачи- ваться, либо вправо, либо влево. Прямо она не идет никогда. С чем это связано? Как объяснить такое несколько неожиданное поведение?' Давайте возьмем то же самое уравнение (3.2), но будем считать, что А<0. Что это означает? Мы знаем, что когда /С>0, то, если даже- лодку крутнуть, ее вращение замедляется. Это связано с тем, что при h>Q момент —/гф — демпфирующий и поэтому противодействует любому движению лодки, отличному от движения по определенному курсу. Если же /КО, то момент —/гф направлен в ту же сторону, куда направлена угловая скорость. Следовательно, если возникает угловая скорость ф, то этот момент не уменьшает ее, не демпфирует, а, наобо- рот, увеличивает. Пока лодка плывет прямо — ничего не происходит. Но если ее чуть-чуть отклонили от курса, то это отклонение не умень- шается, а, наоборот, увеличивается. Причем, если вначале лодка от- клоняется медленно, то потом отклоняется все быстрее и быстрее. И тот, кто плавал на такой лодке, знает, что нельзя давать ей сильно отклоняться. А если прозевал, то с ней уже очень трудно справиться.
128 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Таким образом, лодкам типа шлюпок отвечают /г>0, а лодкам типа великоовражки /i<0. Теперь рассмотрим случай, когда /г<0. Фазовое пространство то же самое. Уравнение фазовых траекторий то же: /ф+/гф=с. Только теперь на развертке цилиндра это уравнение прямых с положитель- ным коэффициентом —hl/>0 (рис. 4.16, а). На фазовом цилиндре эти траектории имеют вид винтовых линий, изображенных на рис. 4.16, б. Если при /г>0 фазовая точка по траекториям приближается к отрезку 00j, то теперь при /г<0 она удаляется от него, и тем быстрее, чем даль- ше от него находится. Точки отрезка 00j — по-прежнему состояния равновесия, только теперь это совсем другие состояния равновесия. Если при h>0 это были настоящие реальные равновесия, то сейчас это какие-то «призрачные» состояния равновесия. Потому что, если вы чуть тронете лодку, то она уже не придет к состоянию равновесия, а будет поворачиваться. Такие состояния равновесия называют не- устойчивыми. Практически же их как равновесных режимов нет. Лишь с точки зрения фазового портрета они имеют смысл; в данном случае как разделители вращений в одну сторону от вращений в дру- гую. Итак, мы познакомились с объектом — лодкой без управления в двух случаях, когда /С>0 и когда /i<0. В первом случае объект ус- тойчивый, можно сказать, «послушный». При /г<0 объект неустойчи- вый, «непослушный». Однако и в том и в другом случае лодка сама по себе не может обеспечить поддержание заданного курса. Ею нужно управлять. Но управлять «послушной» лодкой, по-видимому, легче и проще, чем «непослушной». «Послушную» лодку нужно только направлять куда надо, а «непослушную» нужно не только направлять, но и справляться с ее плохим «характером», с ее «желанием» все время вертеться.
§3. АВТОРУЛЕВОЙ 129 Представим себе, что лодка, уклонившись от заданного, курса на некоторый угол <р0, еще и начала вращаться в ту же сторону с угловой скоростью фо (рис. 4.17, а). Мы должны, поворачивая руль, т. е. меняя угол ф, привести ее к курсу и не только привести, но и удерживать на нем. Как это сделать? Считая начальным момент времени /=0, изобразим в системе координат (t, ф) начальное состояние лодки точ- кой и вектором (рис. 4.17, б). Точка определяет начальное отклонение лодки от курса, а тангенс угла наклона вектора к оси t равен ф0. Нам надо так менять ф, чтобы из начального состояния (ф0, ф0) перей- ти на прямую ф=0 и на ней остаться, т. е. перейти к состоянию ф=ф=0. 5) Рис. 4.17 Ясно, что это можно сделать разными способами, как, например, показано на рис. 4.17, б. Единственное естественное ограничение состоит в том, что график кривой ф (/) должен быть гладким. Действи- тельно, если есть точка нарушения гладкости, то в ней первая произ- водная меняется скачком, а следовательно, вторая производная бес-/ конечна. Но в силу уравнения (3.1), для того чтобы ф была бесконечна, надо, чтобы момент в правой части был бесконечен, а это невозмож- но — руль создает только конечные моменты. Пусть из всех законов приведения лодки к курсу нам понравился один: ф*(/). Как организовать управление, чтобы реализовать этот закон? Мы не знаем, как должен меняться угол ф поворота руля, но зато знаем, как должен меняться угол ф поворота лодки. Подставляя Ф*(0 в уравнение (3.1), получим для ф условие Г(0 = -|['ф* (04-Лф‘(0]- Посмотрим, как примерно выглядит ф*(/). Там, где выражение в скобках отрицательное, ф*(0 положительно, т. е. руль надо повора- чивать в положительную сторону, а там, где это выражение положи- тельное,— в отрицательную. Согласно рис. 4.18 вначале ф*(0 поло- жительно, а затем отрицательно. Как это можно понять? На первом
130 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы участке мы поворачиваем руль так, чтобы tp уменьшалось, т. е. лодка приводилась к курсу. Эту фазу управления назовем «приведением». В процессе приведения лодка приобретает довольно большую угловую скорость, и если не принять меры, то она проскочит курс и отклонится в другую сторону. Для того чтобы этого не было, надо переложить руль в обратную сторону, т. е. надо как бы «одерживать» лодку. Эту фазу управления будем называть «одерживанием». Таким образом, если лодкой управляет опытный рулевой, то, увидев, что она откло- няется от курса, он сначала поворачивает руль так, чтобы лодка при- водилась к курсу, а затем, когда она начинает быстро приближаться к нему, поворачивает руль в обратную сторону, чтобы одерживать ее и не дать излишне повернуться. Управление, которое мы рассмотрели, называется программным. Это название в полной мере отражает суть рассмотренного способа управления. Действительно, сначала мы составляем программу или план своих действий, а затем находим управление, его реализующее. С такой ситуацией приходится встречаться довольно часто. Бывает, скажем, так. Вы спешите на работу или в университет, а на вашем пути препятствие — большая лужа, в которой кое-где разбросаны камеш- ки. Вы не идете как попало, а некоторое время смотрите на лужу, на камешки и вырабатываете план движения. Потом быстро его реали- зуете, уверенно перемещаясь с камня на камень. Так и в случае управления лодкой. У нас в руках руль. Лодка отклоняется от курса. Мы соображаем, как надо ее привести к курсу, и в соответствии с этим вырабатываем некоторый план управления. Задавая функцию ф*(0, мы программируем желаемый способ приве- дения лодки к курсу; <р* (t) — программа. Затем определяем, как надо поворачивать руль, чтобы реализовать принятую программу, т. е. определяем ф*(/) — программное управление.
§ 3. АВТОРУЛЕВОЙ 131 А теперь рассмотрим еще несколько вариантов программ приведе- ния лодки к курсу и способов их реализации. На рис. 4.19 приведены несколько кривых ф*(/) для различных начальных состояний лодки и примерные графики для соответствующих им функций ф*(/). Ради простоты пусть /г=0. Тогда программное управление имеет вид ф*(0 = —у/ф*(0- Кривые 1 рис. 4.19 описывают приведение лодки к курсу из начально- го состояния, когда лодка отклонена на некоторый угол ф0, но не вра- щается, т. е. фо=0. График функции ф* (/) обязательно имеет точку перегиба. До значения /п, соответствующего точке перегиба, ф* (/)>0 — это фаза «приведения», затем ф* (/)<Х) — фаза «сдерживания». Второй вариант начальных условий: лодка не отклонена, фо=0, но есть уг- ловая скорость фо>0. Этому случаю соответствуют кривые 2. Здесь опять есть фаза «приведения» и фаза «одерживания». Наконец, кривые 3 соответствуют случаю, когда лодка сильно отклонена от курса, но вращается по направлению к нему, ф0>0, Фо<0, т. е. сама к нему при- водится. В этом случае не надо приводить лодку к курсу, она сама к нему приходит. Надо ее слегка «одерживать», чтобы не дать ей пересечь курс и как-то плавно к нему привести. Таким образом, каждый раз, когда надо управлять лодкой, чтобы привести ее к курсу, это управле- ние должно состоять из двух этапов: этап «приведения» и этап «одер- живания». Нужно поворачивать руль так, чтобы добиться быстрого поворота лодки по направлению к курсу, а потом переложить руль в обратную сторону и нужным образом «одержать» ее. Всякий ли из запрограммированных законов управления можно выполнить? По-видимому, не всякий. И связано это прежде всего с ограниченными возможностями средств управления. Одно из та- ких ограничений мы уже рассмотрели. Оно связано с конечностью усилия, создаваемого рулем, и проявляется в том, что реализовать можно только гладкий закон управления. Это ограничение можно уточнить. Руль нельзя поворачивать на какой угодно угол, т. е. |ф* (/)|^ф0. Предельные углы —ф0 и ф0 поворота руля могут быть раз- личными, но ясно, что больше 90° они быть не могут. Ограниченность углов поворота руля означает, что в любой момент времени величина у |/ф* (/)-|-/1ф* (/) | должна быть меньше ф0, т. е. мы можем реализо- вать только те программы, для которых выполняется ограничение у | /ф* (/)4-Лф* (t) | =Сф0. Точно так же, когда, скажем, мы подходим к луже и видим, что она метра два с половиной шириной, то и мысли не возникает ее перешагнуть. Почему? Потому, что длина шага ограни- чена. Итак, мы можем реализовать различные движения лодки. Но ка- кое из них предпочтительнее? Какое является лучшим? Ответ на этот вопрос зависит от цели, которую мы ставим перед собой. Обычно,
132 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ когда мы стоим перед лужей, наши действия зависят от того, спешим мы или нет. В зависимости от этого мы принимаем ту или иную програм- му. Если спешим, то пойдем прямо по луже; если не спешим, то обой- дем ее, даже если расстояние, которое надо пройти, очень велико. Так и в случае управления лодкой. Для того чтобы сказать, какой спо- соб управления лучше, надо сфор- мулировать критерий того, что луч- ше, а что хуже. Один из самых ес- тественных критериев состоит в том, чтобы привести лодку к курсу как можно быстрее. Если есть два спосо- ба приведения лодки к курсу, как показано на рис. 4.20, то надо вы- брать первый, время /пр приведения лодки к курсу для которого мень- время сделать очень маленьким нель- Рис. 4.20 ЭТО шее. Нетрудно понять, что зя, так как при этом ф* (/) должно быть большим и может нарушиться условие у1 /ф* (/) -J- Лф* (/) | ф,,. Итак, для данного критерия цели задача программирования движения состоит в выборе кривой ср* (/), соединяющей точки (ф0, <р0) и (ф(/пр)=0, ф(/пр)=0), для которой /пр принимает минимальное значение при условии, что для всех про- межуточных значений времени выполняется условие | /ф* (/) + 4-/1Ф* (ОКФо- Могут ли быть другие критерии? Могут. Скажем, мы хотим, что- бы лодка приводилась к курсу достаточно быстро и чтобы приведе- ние осуществлялось комфортабельно. Что здесь имеется в виду? Скажем, вы едете в трамвае. Трамвай трогается с остановки. Водителю хочется ехать быстро, чтобы не выбиться из графика. Он резко вклю- чает полный ток. Пассажиры падают, ругаются. Зато он выдерживает график. Даже, может быть, очень хорошо. За что и получает премию. А другой водитель ток включает плавно. Трамвай идет спокойно. Пас- сажиры не чувствуют неудобства. Но он, конечно, проигрывает во времени. Так и в случае управления лодкой. Вы хотите управлять ею плавно, чтобы никто не ушибся и не упал за борт. В чем состоит кри- терий комфортабельности? Оказывается, он состоит в том, чтобы вто- рая производная от угла поворота лодки менялась медленно, т. е. чтобы ф(/) была невелика: |ф*(/)|<е. Ну, а если мы, кроме того, хотим, чтобы приведение было не слишком долгим, то программу ф*(0 надо выбирать так, чтобы было минимальным /пр при условии 4|/Ф*(0 + /1Ф*(0| |ф*(0|<е.
§3. АВТОРУЛЕВОЙ 133 Могут быть и другие критерии, например энергетические, когда надо выбрать программу из условия минимума энергетических зат- рат, т. е. когда вы хотите достичь цели, затратив для этого наименьшую энергию. Во всех случаях, когда программируемое движение объекта определяется из условия минимума или максимума некоторого кри- Рис. 4.21 терия цели, его называют опти- мальным. Управление, реализую- щее оптимальное программирован- ное движение объекта, называют оптимальным программированным или программным управлением. Разберемся в том, что нужно знать, чтобы реализовать оптималь- Рис. 4.22 ное программное управление. Пусть Ф={ф (t), — множество программных движений объекта, определяемое начальным ф0, фо и ко- нечным ф1, ф1 его состояниями и некоторыми естественными ограни- чениями. Так, в случае управления лодкой эти ограничения связаны с ограниченностью угла поворота руля. Есть некоторый критерий цели управления, который представляет собой функционал Е(ф(/)), задан- ный на множестве Ф. Надо выбрать программное движение так, чтобы для него функционал принимал наименьшее значение, т. е. надо выбрать <р*(/)£ф так, чтобы У(ф* (/))^У(ф (/)) для всех ф(/)£Ф. Функция <р*(0 является оптимальной программой. По ней затем нужно найти оптимальное программированное управление ф* (/). Значит, для того чтобы реализовать оптимальное программное управление, надо решить задачу оптимизации и найти оптимальную программу ф* (/), затем найти оптимальное программное управление ф* (/), где-то его записать и в соответствии с ним осуществлять управление (рис. 4.21), т. е. чтобы реализовать оптимальное управление, надо знать его для всех моментов времени. Но интуитивно ясно, что такое знание является лишним. Ведь в каждый момент времени нам нужно знать не всю кривую ф*(/), а лишь то, на какой угол мы должны повернуть руль именно в этот момент, т. е. фу (рис. 4.21). А что было до этого момента и что будет потом, нас не интересует. Так вот, оказывается, что это дейст- вительно так, и нет необходимости определять и запоминать всю кри- вую ф*(0, а можно действовать значительно проще. Для того чтобы
134 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ понять это и разобраться в том, что нужно знать для реализации оп- тимального программного управления, рассмотрим следующее ут- верждение: пусть <р* (/) — оптимальная программа; тогда, если мы реализовали ее до некоторого значения ср* (Q в момент времени tu то оставшаяся часть программы должна быть также оптимальной. Проиллюстрируем это утверждение на примере. Пусть надо пе- рейти из города А в город В, а из него в город С (рис. 4.22), и сделать это за наименьшее время. Утверждается: для того чтобы перейти из города А в город С за наименьшее время, необходимо переходить из города В в город С за наименьшее время. Если tAB — время перехода из А в В, a tBC — время перехода из В в С, то если время /ав+^вс перехода из А в В — минимальное, то тогда и tBC — минимальное, т. е. нельзя перейти из В в С быстрее. Действительно, если существует способ перехода из В в С за меньшее время t'BC<ZtBC, то все время /ав+^вс не будет минимальным. Почему требуется минимальность времени только на последнем участке пути, ведь минимизируется сум- ма Gb+^bc? Дело в том, что слагаемые в этой сумме зависимы, причем tBC за- висят от tA в, а не наоборот. Это хорошо видно на таком примере. Как опытный спортсмен строит график бега на длинную дистанцию? Пер- вую половину, а может быть, даже 3/4 дистанции он не стремится бе- жать за минимально возможное для себя время, зато оставшуюся часть дистанции он бежит изо всех сил, на пределе своих возможностей, т. е. за минимальное время, а вот неопытный спортсмен иногда сразу начинает вести бег на пределе своих возможностей, и хотя он преодо- левает часть дистанции за минимальное "время, на оставшуюся часть дистанции сил у него не хватает. Он либо прекращает бег, либо про- бегает дистанцию не за оптимальное для себя время. Таким образом, необходимым условием оптимальности програм- много движения является оптимальность любого последнего участ- ка движения. Это условие, как было уже сказано, сформулировано американским математиком Р. Веллманом в виде так называемого принципа динамического программирования. Почему так названо это условие? Потому что речь в нем идет об оптимальном программиро- вании движения динамической системы. А теперь постараемся увидеть, что принцип динамического про- граммирования непосредственно связан с понятием состояния динами- ческой системы. Вернемся к задаче об управлении лодкой. Пусть из начального состояния ф0, фо в момент времени t=0 мы хотим привести лодку к курсу, причем так, чтобы время Т приведения было минимальным. Кроме того, надо учесть ограничение на поворот руля |/ф* (/)+ +Лф* (/)|^Фо- Для отыскания нужного нам управления надо сначала решить оптимизационную задачу и найти оптимальную программу Ф*(0- Чем определяется эта функция? Опа определяется только на-
§3. АВТОРУЛЕВОЙ 135 чальными условиями ф0, фо и ограничениями. Теперь рассмотрим какой-нибудь промежуточный момент времени tr (рис. 4.21). В этот момент времени ф становится равным ф1, а ф — равной qjj. Так как вся кривая ф* (/) — оптимальная, то и ее часть от tr до Т — тоже оптимальная. Но ведь функция ф* (/) на этом участке полностью опре- деляется значениями ф1 и ф^, т. е. начальными условиями на этом участке. И хотя вся оптимальная программа ф*(/) однозначно опреде- ляется начальными значениями ф0 и ф0, ее часть от tr до Т определяется только значениями ф^ и ф^ и не зависит от того, что было раньше, т. е. от ф0 и ф0. Это так потому, что все, что нужно знать о системе в данный момент времени, и все, что нужно знать, чтобы определить, как она будет двигаться дальше, сосредоточено в величинах ф и ф, т. е. в ее состоянии. В этом смысле можно смотреть на принцип дина- мического программирования как на естественное следствие понятия состояния. Оптимальная программа ф* (/) определяет закон изменения поло- жения руля, т. е. ф*(/). При функция ф* (t) зависит только от ф! и фъ значит, и функция ф* (t) при зависит только от ф^ и ф^. Значит, в частности, ф*(/) в момент времени определяется только значениями ф^ и фр Но так как — это любой промежуточный мо- мент времени, то отсюда следует, что в каждый момент времени откло- нение руля есть функция значений ф и ф в тот же момент времени, т. е. ф*(С=/(ф(0, ф(0)- Вот к какому удивительному результату привел нас принцип динамического программирования. Он показал, что не нужно программировать всю оптимальную программу ф* (7), не нужно ее запоминать, а нужно лишь обладать некой функцией от состояния и в соответствии с ней выбирать положение руля. Такая функция от состояния объекта называется стратегией управления. Так вот оказывается, что оптимальное программное управление можно реа- лизовать, обладая оптимальной стратегией управления по заданному состоянию, т. е. ф*=/(ф, ф). Итак, что означает — обучиться хорошо управлять лодкой? Это значит: во-первых, понять, что такое состояние лодки, и научиться определять его, т. е. измерять угол ф отклонения лодки от курса и скорости ф его изменения; во-вторых, нужно выработать оптимальную стратегию управления, т. е. выработать такую функцию /(ф, ф), которая позволила бы по ф и ф найти оптимальный угол поворота Руля. Как найти оптимальную стратегию? Это сложный вопрос. По- смотрим, как это делает человек. Скажем, приходит он в спортзал. У него хорошие данные. Он без особой подготовки преодолевает план- ку на высоте 140 см. Тренер его замечает и начинаете ним заниматься. Он обучает его оптимальной стратегии, поведения. Спортсмен прыгает на 160 см, затем выше, но где-то после 190 см происходит заминка.
136 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Проходит год, два, он начинает прыгать выше и достигает своего луч- шего результата. Причем надо сказать, что в разное время потолок результатов различен. Скажем, лет 30—35 тому назад он был где-то вблизи 180—190 см. Очень многие показывали такие результаты, а выше прыгали лишь единицы. Сейчас потолок возрос до 200—210 см, выше двух метров прыгают уже очень многие спортсмены. С чем это связано? Связано это с тем, что совершенствуется стратегия и, как следствие, улучшаются результаты. Значит, у человека выбор опти- мального поведения осуществляется путем индивидуального и коллек- тивного обучения. Все учатся, а потом передают опыт друг другу. В результате этого формируется оптимальная стратегия. Самые жиз- ненно важные оптимальные стратегии заложены в генетических про- граммах нашего поведения. Так, в частности, в инстинктах заложено много программ оптимального поведения. А как найти оптимальную стратегию в нашей задаче об управле- нии лодкой? Мы теперь знаем, что она есть функция состояния лодки. Это, безусловно, большой успех. Но все-таки функция нам неизвест- на. Как ее выбрать? К этому вопросу мы еще вернемся, а сейчас пой- дем по другому пути. Зададимся несколькими конкретными стратегия- ми управления и посмотрим, как будет осуществляться процесс уп- равления лодкой. Сначала возьмем простую стратегию в виде линейной функции от состояния объекта, т. е. ф=аф+Ьф. Это стратегия простейшего линейного авторулевого. Тогда процесс управления движением лодки описывается уравнением (3.1) объекта и уравнением авторулевого /ф + /1ф = — ф = аф + Ьф. (3.3) Сначала рассмотрим простейший случай Ь=0. Поставив ф в уравнение лодки, получим уравнение для изменения ф: /ф + /1ф4-£аф = 0. (3.4) Решение уравнения (3.4) имеет вид Ф (^) = 4-с2еХ2С где Ci и с2 — произвольные постоянные, определяемые из начальных условий, a Xi и Х2 являются корнями характеристического уравнения I№ + h^ + ka = 0. (3.5) Как ведет себя решение с увеличением времени? Здесь возможны два качественно различных случая в зависимости от знаков вещественных частей М и Х2. Если вещественные части обоих корней отрицательны, т. е. Re M<0 и Re А,2<0, то всегда при любых с± и с2 ф при Если хотя бы у одного корня вещественная часть положительна, на- пример, Re/.^O, то возможно, что ф(/)~>-оо при t-+oo. Но по самой сути управления лодкой надо, чтобы с возрастанием времени всегда угол ф(0~>0. А значит, надо, чтобы выполнялись условия Re/.^O и ReX2<0. Условия, обеспечивающие отрицательность вещественных
§3. АВТОРУЛЕВОЙ 137 частей корней характеристического уравнения, очень просты и следу- ют непосредственно из формул для корней квадратного уравнения. Они состоят в том, что все коэффициенты характеристического уравнения должны быть положительными, т. е. Z > О, /г>0, fea>0. (3.6) Коэффициенты I и k положительны по физическому смыслу. Значит, должны выполняться условия й>0 и а>0. Что они означают? Условие /i>0 означает, что управлять можно только «послушной» лодкой. «Непослушной» с /i<0 лодкой так (Ь=0) управлять нельзя. Условие а>0 означает, что руль надо перекладывать в ту же сторону, куда отклонилась лодка. Действительно, если лодка отклонилась влево, то <р>0, тогда при а>0 ф — тоже по- ложительное; если ф<0, то ф<0. Это слишком простая стратегия. Ее простота в том, что рулевой следит лишь за углом отклонения лодки от курса и в зависимости от его величи- ны поворачивает руль в сторону от- клонения лодки. Быстро или медлен- но крутится при этом лодка возле курса —• его не интересует. Такая стратегия достаточна для «послуш- ной» лодки с /г>0, однако при /i<0 она не приводит к цели. Авторулевой Рис. 4.23 с такой стратегией слишком прямоли- нейный. Но, несмотря на его прямолинейность, при /г>0 он позво- ляет поддерживать требуемый курс движения лодки. Какие изменения происходят в фазовом портрете лодки, если ею управляет авторулевой? Для выяснения этого представим уравнение (3.4) в виде системы ф = г/. У= - -^-(hy + aktf). (3.7) Точка ср, у фазового цилиндра — состояние системы. Состояния рав- новесия — это точки, где ф=0 и г/=0 одновременно. Из (3.7) следует, что у лодки с авторулевым всего лишь одно состояние равновесия Ф=0, г/=ф=О. Если выполнено условие а>0, то у «послушной» (/г>0) лодки состояние равновесия устойчивое, у «непослушной» (/г<0) лодки состояние равновесия неустойчивое. Действительно, так как у «послушной» лодки все решения ф(/) и y(t) системы (3.7) стремят- ся к нулю при возрастании времени, то движение фазовой точки по фазовым траекториям происходит примерно так, как показано на рис. 4.23, а. Фазовая точка приближается к состоянию равновесия. У «непослушной» лодки фазовая точка, наоборот, удаляется от состоя- ния равновесия (рис. 4.23, б).
138 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Для того чтобы справиться с «непослушной» лодкой, усложним стратегию управления и возьмем ф=аф4-Ьф, т. е. учтем, кроме угла ф поворота лодки, еще и скорость ф ее поворота. Тогда уравнение для лодки с авторулевым будет иметь вид /ф + (/г-|-^)ф4-а^Ф = 0. (3.8) Его характеристическое уравнение запишется так: A2 + (/i + fefe)X + afe = 0, (3.9) а условие отрицательности вещественных частей его корней будет / > 0, h + bk>Q, ak>Q. (3.10) Первое неравенство выполняется. Третье неравенство ничего нового не дает. Оно уже было (3.6), а старый опыт не заменяется новым — он сохраняется. Новым является второе неравенство. Для его выпол- нения надо, чтобы коэффициент b был больше, чем —h/k, т. е. Ь>—Wk. Если Л>0, то это условие выполняется при любых неотрицательных Ь, и, в частности, при Ь=0, но если /г<0, то для его выполнения надо, чтобы b было положительным и не просто любым положительным, а большим Ь*=—h/k. Разберемся, что это значит. Представим себе, что лодка в некий момент времени t~0 имеет состояние ф>0 и ф<0. При стратегии уп- равления ф=аф мы не обращаем внимания на ф и поворачиваем руль в сторону отклонения лодки, т. е. влево: ф>0. При второй стратегии ф=аф+Ьф, если скорость поворота ф отрицательна и достаточно ве- лика, то руль надо повернуть не влево, а, наоборот, вправо, т. е. надо не приводить лодку к курсу, она сама к нему приводится, а одер- живать ее. Причем чем больше величина /г, тем больше Ь*, и, следо- вательно, интенсивнее нужно одерживать лодку. Таким образом, учет скорости внес в стратегию управления лод- кой, кроме понятия приведения лодки к курсу, понятие одерживания. Если вы управляете «непослушной» лодкой, то вы должны хорошо делать две вещи: во-первых, не давать ей сильно уклоняться от курса; во-вторых, когда она уклонилась от курса и быстро к нему приводит- ся, то надо ее одерживать. Такая тактика, состоящая в разумном сочета- нии приведения и одерживания, является, как видите, уже достаточ- ной, чтобы управлять «непослушной» лодкой. Итак, авторулевой, реализующий стратегию управления ф=аф+ +Ьф при выполнении условий (3.10), обеспечивает движение лодки по заданному курсу и возвращение на него после любых отклонений. С точки зрения фазового портрета это означает существование единст- венного устойчивого состояния равновесия, к которому стремятся все фазовые траектории системы (рис. 4.23, а). Различие в поведении фа- зовых траекторий может состоять лишь в характере их приближения к состоянию равновесия. То, как фазовая точка приближается к состоя- нию равновесия системы, описывается решением ф (0 = с^ 4- с2е^1, Ф (/) = с^е^ 4- c2k^.
§3. АВТОРУЛЕВОЙ 139 Это решение зависит от корней Xt и Х2 характеристического уравне- ния (3.9). При выполнении условий (3.10) вещественные части корней характеристического уравнения отрицательны, т. е. Re Х±<сО и ReX2<0. Рассмотрим два основных случая: 1. Корни Xt и’Х2— действительные и отрицательные. 2. Корни Xt и Х2 — комплексные сопряженные, т. е. X^a+ifJ и Х2=а—ф, причем а<0. Если Xt и Х2 — действительные, то ф(/) и ф(/) меняются плавно без колебаний (рис. 4.24, а). В этом случае процесс перехода лодки из начального состояния к курсу называют апериодическим. Если Xj и Х2 — комплексные, то процесс колебательный. Лодка приводится к курсу, совершая колебания возле него. Приходя к курсу, она проска- кивает его и поворачивается в другую сторону, затем опять приводится и проскакивает и т. д. (рис. 4.24, б). Условие, при котором Хх и Х2 — комплексные, имеет вид (h-\-bk)2—Mka < 0. Итак, теперь мы знаем, как надо управлять лодкой, чтобы обес- печить устойчивое движение ее по курсу. Но устойчивость состояния равновесия лодки с авторулевым гарантирует поддержание курса лишь по отношению к начальным возмущениям, т. е. возмущениям, действующим кратковременно. На самом же деле возмущения, такие, скажем, как ветер, волны, течение и т. д., действуют на лодку по- стоянно. Как будет вести себя лодка с авторулевым при постоянно действующих возмущениях? Возмущения могут быть любыми, во- обще говоря, случайными. Однако мы рассмотрим одно из самых простых — постоянное возмущение. Как его можно себе представить? Скажем, до некоторого момента на лодку не действовали никакие возмущения, но, начиная с этого момента, подул ветер и дует с по- стоянкой скоростью. Это соответствует тому, что возмущение появ- ляется в момент времени /=0 и его величина после этого постоянна и равна некоторому Л40. До этого момента времени возмущений не было и лодка плыла по курсу, т. е. при /=0 ф=0 и ф=0. При £>0 уравнение движения лодки будет иметь вид /ф + (h + bk) ф + aktf = A40. (3.11)
140 'ГЛ. 4. управляемые динамические системы Его решение при нулевых начальных условиях /=0, <р=0, <р=0 имеет вид Ф (0 = сге^- + с2е^‘ + ^, Ф (/) = , где Xj и Х2 — корни характеристического уравнения, а постоянные Ci и с2 равны „ __ М0Х2 Л40А.1 1 ’ 62 — akfa—Х2)’ Посмотрим, как ведут себя ф(/) и ф(/) при увеличении времени. При t -> оо слагаемые с и стремятся к нулю, так как Re Х2<; Рис. 4.25 <0, ReX2<0 и ф-^ф*=А40/(аХ), ф-> 0. Что это означает? Под воз- действием момента /Ио у лодки с авторулевым появилось новое со- стояние равновесия. Без постоянного возмущения состояние равно- весия было ф=0, Ф=0, а теперь состоянием равновесия является <р=А40/ (ak), ф=0. Чем отличается фазовый портрет в этом случае от предыдущего? Раньше состоянием равновесия была точка ф=0, Ф=0, а теперь точка ф=А40/(ak), ф=0 (рис. 4.25, а). Все остальное остается таким же, как и прежде, т. е. характер приближения фазо- вых траекторий к состоянию равновесия не меняется по сравнению с рис. 4.23, а. Теперь посмотрим, как в соответствии с фазовым портретом будет двигаться лодка (рис. 4.25, б). Лодка движется по курсу до того момента времени, когда на нее стал действовать момент Л40, т. е. ее фазовое состояние изображалось точкой ф=ф=0. Угол начинает возрастать, затем убывать и т. д., и лодка приходит к новому курсу. Появляется установившаяся ошибка в курсе, и она равна ф=Л40/(а6). Лодка плывет не туда куда надо. Однако все же она с управлением ведет себя лучше, чем если бы этого управления не было. Действи- тельно, без авторулевого лодка под действием постоянного момента просто вращалась бы и не придерживалась бы никакого курса. Если
§3. АВТОРУЛЕВОЙ 141 же есть авторулевой, то лодка не вращается, но и не плывет точно туда куда нужно, появляется ошибка. Естественно стремиться к тому, чтобы сделать эту ошибку как можно меньше. Для этого надо увеличивать ak. Что это означает? Прежде всего, k — это коэффи- циент пропорциональности между поворотом руля и моментом, ко- торый он вызывает, т. е. величина k характеризует, насколько сильно влияет поворот руля на лодку. Величина k зависит от очень многих факторов, в частности, ясно, что чем больше руль, тем больше k. Если руль — маленький, то k — маленькое, и таким рулем ничего нельзя сделать против ветра, т. е. руль должен быть достаточно боль- шим. Но сделать руль больше лодки нельзя, он должен быть много меньше лодки, поэтому k имеет вполне определенные пределы. Его можно увеличивать, но слишком большим сделать нельзя. Следова- тельно, остается возможность уменьшать ошибку только за счет увеличения а. Что такое а? Это коэффициент стратегии управления ф=аф+&ф. Казалось бы, ничего нам не мешает взять а достаточно большим. Условия устойчивости а>0 и Ь>—h/k при этом не наруша- ются, и, увеличивая а, можно добиться сколь угодно малой устано- вившейся ошибки. Этот вывод совершенно точно следует из рассмот- ренной нами модели. Но что означает большое а, скажем, а~106? Это значит, что ф«?106ф, и если лодка отклоняется от курса за одну секунду на угол ~1°, то угол поворота руля должен быть »(106)°, т. е. руль надо поворачивать по кругу более 2000 раз. Но это бес- смысленно. Руль по кругу вращать нельзя. Более того, известно, что руль можно поворачивать только в ограниченных пределах |ф|<?фо. С другой стороны, стремление увеличить а, чтобы уменьшить устано- вившуюся ошибку, ставит вопрос о возможности реализации стра- тегии управления в том виде, как мы ее написали, т. е. ф=аф+Ьф. Более того, если, скажем, аа 100, то при ф~0,5° надо повернуть руль на угол «50°. Но для того, чтобы повернуть руль на такой угол, нужно время. Ведь повернуть руль мгновенно нельзя. Можно поворачивать достаточно быстро, но мгновенно нельзя. Любой при- вод всегда имеет конечную мощность. Значит, мы не только не можем поворачивать руль на любые углы, но и не можем поворачивать его сколь угодно быстро. Поэтому реализовать стратегию управления в виде ф=аф+Ьф невозможно. Это идеальный рулевой. Чтобы пост- роить более точную и реалистическую модель авторулевого, разбе- ремся подробнее, что он собой представляет. Вернемся вновь к постановке задачи об управлении курсом лодки. Есть лодка, у нее есть руль. Этот руль поворачивается либо непо- средственно человеком, либо рулевой машинкой. Лодка может ук- лониться от курса. Это отклонение характеризуется углом ф. Но откуда он берется? Значит, должны быть какие-то измерительные устройства, которые измеряют ф. Кроме того, для реализации стра- тегии управления нужно знать ф, которую можно получить либо дифференцированием ф, либо непосредственным измерением.
142 ГЛ. 4. управляемые динамические системы Рулевая машинка поворачивает руль, реализуя стратегию уп- равления, но делает это не сама по себе, а по команде, зависящей от того, что надо получить. А нужно в соответствии с выбранной стратегией получить поворот руля, равный ф=аф+Ьф. Значит, должно быть устройство, которое фор- мирует такую команду. Итак, реальный авторулевой представляет собой довольно сложную систему, состоящую из нескольких устройств, каж- дое из которых выполняет свои вполне определенные функции. Судно и авторулевой представ- ляют собой систему автома- Рис. 4.26 тического управления, которую схематически изобразим на рис. 4.26. Здесь судно и каждый функциональный блок авторулевого изо- бражены в виде прямоугольников со входящими в них и выходя- щими из них стрелками. Входящие стрелки соответствуют входным переменным блока; выходящие — выходным. Начнем рассмотрение схемы на рис. 4.26 с судна. Мы управляем курсом судна, поэтому естественно назвать его объектом управления. Чем он характеризуется? Углом ф, и это есть выход объекта. Управ- ляем мы поворотом руля, т. е. углом ф, и это есть вход объекта. Ка- кова' цель управления? Цель управления — обеспечить ф=0, т. е. движение судна по заданному курсу. Ясно, что это идеальная цель, и реально достичь ее невозможно; естественнее определить цель, скажем, так: обеспечить |ф|^6, где 6 мало. Дальше идет измерительное устройство, которое, воспринимая поворот судна, выдает значения ф и ф. Это выходы измерительного устройства. Измеренные значения ф и ф поступают на блок, который формирует в соответствии с выбранной стратегией командный сигнал о для рулевой машинки, скажем, о=аф+Ьф. Рулевая машинка испол- няет команду и поворачивает руль. Именно по такой схеме осуществ- ляется реальное автоматическое управление курсом судна. В ней отражен смысл того, как это происходит на самом деле. Такая схема называется структурной. Но это еще не математическая модель. Чтобы ее получить, надо выяснить, что представляет собой каждый из этих «ящиков», надо найти, как у них связаны выход со входом. Прежде всего, объект управления. Его мы будем по-прежнему описывать уравнением /ф + /гф = —£ф. Это и есть связь между углом ф отклонения руля и углом ф откло- нения судна от курса.
§3. АВТОРУЛЕВОЙ 143 Измерительное устройство. Это сложное устройство. Мы пока не будем описывать его детально, а учтем только простейшую не- приятность, которая с ним связана. Дело в том, что результаты из- мерения выдаются с некоторым запаздыванием. Скажем, если мы просто смотрим на компас и снимаем с него данные, то нужно время, чтобы установилась стрелка, нужно их как-то записать и передать. Кроме того, если угловая скорость не измеряется, а определяется дифференцированием, то для этого надо накопить значения угла отклонения. Для всего этого также требуется время. Поэтому в мо- мент времени t измеритель определяет не <р и ср, а ф=ф (t—т) и ф=ф (t— —т), где т — некоторое время запаздывания. Ранее рассмотренный авторулевой соответствует идеальному измерителю, для которого <р=Ф, ф=ф- Но учет одного только запаздывания при описании из- мерителя, конечно, очень грубое приближение. В действительности все обстоит много сложнее. Далее идет устройство, которое по данным измерителя формирует командный сигнал о=аф+Ьф для рулевой машинки. В соответствии с командным сигналом рулевая машинка должна обеспечить поворот руля на угол ф=о. Но мгновенно выполнить команду может только идеальная рулевая машинка. На самом деле никто и ничто не может обеспечить мгновенную перекладку руля. Для этого нужно время. Если, скажем, до прихода командного сигнала ф=0, и командный сигнал равен о0, то идеальная рулевая машинка осуществляет мгно- венный перевод руля из положения ф=0 в положение ф=о0- Реально же изменение угла происходит не скачком, а плавно, как, скажем, показано на рис. 4.27. Здесь кривая 1 отвечает идеальной рулевой машинке, а кривые 2 и 3 описывают, как реально изменяется угол ф поворота руля. Причем переход руля из положения ф=0 в положение ф=о0 по кривой 2 происходит быстрее, чем по кривой 3. А теперь построим некоторую математическую модель рулевой машинки, учитывающую, что руль мгновенно повернуть нельзя. Если урав- нение идеальной рулевой машинки ф=о, То реальную опишем так: 7’ф + ф = о>. Покажем, что такой закон связи командного сигнала с углом поворота руля действительно отражает тот факт, что руль мгновенно повернуть нельзя. Пусть до момента /=0 командный сигнал равен а=0 и угол поворота руля равен нулю, ф=0. В момент /=0 пришел командный сигнал о=о0- Тогда, в соответствии с уравнением Тф+ф= = о0, изменение угла ф будет происходить следующим образом: ф= =о0(1—e~i/T). График этой функции изображен на рис. 4.28. На рисунке изображено несколько кривых, отвечающих различным значениям параметра Т. Чем меньше Т, тем быстрее руль приходит к значению о0; чем больше Т, тем медленнее происходит поворот руля, т. е. величина Т является характеристикой того, насколько
144 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ быстро рулевая машинка исполняет команду. Действительно, при £=7 значение угла уже будет ty=o0(l—е-1), т. е. команда почти выполнилась. Параметр Т обычно называют постоянной времени. Это характерный параметр, означающий быстроту, с которой испол- нительное устройство выполняет командный сигнал. Если, скажем, 7=10 с, то это означает, что для выполнения команды нужно при- мерно 10 с. Так, если мы управляем шлюпкой, то для поворота руля нужно 0,5—2 с. Если же мы управляем большим судном, то Т может быть порядка 10—20 с и более. Теперь мы можем записать математическую модель системы уп- равления судном на курсе, более полно учитывающую то, что про- исходит на самом деле. Правда, измеритель будем по-прежнему счи- тать идеальным: /<р-4-Дф = — Лгф, Г"ф-|-4': = |2ф + Ьф. (3.12) При 7=0 получаем идеальное исполнительное устройство и прихо- дим к прежним уравнениям (3.8). Значит, уточненная модель вклю- чает как частный случай первоначальную модель. Исследование модели с идеальной рулевой машинкой показало, что установившуюся ошибку авторулевого можно сделать сколь угодно малой за счет увеличения а. Будет ли это сохраняться для уточненной модели? Прежде всего рассмотрим вопрос об устойчиво- сти авторулевого. Изменение угла ср отклонения судна от курса в этом случае получается как решение уравнений (3.12) и имеет вид Ф (/) = -|- с3е^, где съ с2, с3 — постоянные, зависящие от начальных условий, a и Х3 — корни характеристического уравнения. Характеристиче- ское уравнение системы запишется так: 1П2 + /й k I — а — Я ТЦ-1Ги- Его можно переписать в виде кубического уравнения /7V + (I + Th) X2 4- (h + bk) /. + ak = 0. (3.13)
§3. АВТОРУЛЕВОЙ 145 Устойчивость авторулевого означает, что <р -> 0 с увеличением вре- мени. Для этого нужно, чтобы у всех корней характеристического уравнения (3.13) вещественные части были отрицательными, т. е. ReXi<0, ReX2<0, ReX3<0. Уравнение (3.13) — это алгебраическое уравнение третьей степени, установление знаков действительной части его корней — задача не очень сложная, но и не очень простая. Поэтому мы просто сформулируем условия, при которых все три корня имеют отрицательные действительные части. Пусть дано уравнение X3 tzpX2 -|- п2Х ф- <23 = 0. Для того чтобы все корни этого уравнения имели отрицательные действительные части, необходимо и достаточно выполнение следую- щих неравенств: аг > 0, а2>0, аз > 0 и ага2—а3 > 0. (3.14) Запишем эти условия в нашем случае. Сначала запишем простые условия положительности коэффициентов характеристического урав- нения IT>0, I+hT>0, h-\-kb>0, ak>0 и посмотрим, что они озна- чают. Первое неравенство выполняется по физическому смыслу, третье и четвертое нам хорошо знакомы по предыдущей модели и ничего нового не дают. Из них следует а>0 и Ь>—h/k. Второе неравенство новое. При /г>0 оно выполняется и никаких новых ограничений на параметры не дает. Но если /г<0, то оно выполняется при условии Т<—I/h. Что это значит? Это значит, что если судно «норовистое» (й<0), то команды управления надо выполнять достаточно быстро. Если, скажем, вы обладаете очень плохой реакцией, то лучше в «но- ровистую» лодку рулевым не садитесь, управлять ею вы не сможете. Теперь рассмотрим последнее неравенство (3.14). Оно имеет вид (/ + Th) (Л + kb) — ITak > 0. Разделим неравенство на IT и перепишем в виде h^kba~ Т’ (3.15) Построим в плоскости параметров а и 1/Т область, где выполняются все условия устойчивости (3.14). Неравенства а>0 и 1/Г>0 вместе с (3.15) определяют эту область. Она называется областью устой- чивости. На рис. 4.29, а показана область устойчивости при й>0, а на рис. 4.29, б — при /г<0. Как следует из рисунков, при любом конечном Т существует критическое значение а=акр(Т), больше ко- торого брать а нельзя ввиду появления неустойчивости. Следова- тельно, при Ту=0 условие устойчивости налагает ограничение на зна- чение а, и неограниченно увеличивать а нельзя. С уменьшением Т критическое значение акр(Т) увеличивается.
146 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Итак, какое бы ни было Т, пусть даже очень маленькое, всегда существует порог для значений а, поэтому есть порог для значения установившейся ошибки. Этот порог можно уменьшить, если умень- шать Т, но сделать его равным нулю нельзя. Сделаем некоторые выводы из результатов исследования дина- мики управления судном на курсе. Модель авторулевого при Т=0 (идеальное исполнительное устройство) дает следующие условия Рис. 4.29 ми б) а устойчивости: а>0, Ь>—h/k. Модель при (учитывается постоян- ная времени исполнительного устройства) дает такие условия устой- чивости: h (^+h}(h+kb) а > 0, & > —4 , Th +1 > 0, а < -----L-------. ’ k 1 Ik Если в условиях для второй модели устремить Т к нулю, то они пе- реходят в условия первой модели. Значит, обе модели согласованы. Выводы, полученные из более простой модели, следуют из выводов более полной. Но полная модель дает нечто новое; Она, во-первых, показывает, что' нужно обладать достаточно хорошей реакцией, чтобы быстро исполнять команды, и, во-вторых, что нельзя выбирать а произвольно, надо, чтобы а было меньше некоторого акр(Т). Учтем теперь неидеальность измерительного устройства, а ру- левое устройство будем считать идеальным. Чистая задержка в из- мерениях означала бы, что ф(/)=ф(7—т), где т — время задержки. Наличие инерционности в измерителе можно отразить так же, как это было сделано для рулевой машинки, т. е. принять, что Тф + ф = ф. (3.16) Принимая (3.16), придем к следующим уравнениям авторулевого: 7ф-(-йф = —М л|) = а, G = al + bt, т| + В = ф. Первое уравнение — это уравнение объекта управления, оно связывает курс лодки ф с углом поворота руля i|>. Второе уравнение —
§3. АВТОРУЛЕВОЙ 147 это уравнение идеального исполнительного устройства, идеальной рулевой машинки. Третье уравнение отражает принятую стратегию управления. В нем £ — другое обозначение для измеренного значения Ф угла <р. Наконец, последнее уравнение отражает динамику про- цесса измерения отклонения корабля от курса. Устойчивость единственного состояния равновесия ф=ф=ф=о= =|=0 зависит от корней характеристического уравнения |П2 + /й ka + kbl\ „ I -1 U+l | — U’ или Ix№ Ц- (I -f- т/i) X2 + (h -|- kb) X -|- ak = 0. Это характеристическое уравнение имеет с точностью до замены Т на т такой же вид, как характеристическое уравнение (3.13) в ранее рассмотренной математической модели авторулевого, учитывающей динамику рулевой машинки. Поэтому все выводы, сделанные ранее с учетом замены Т на т, относятся и к рассматриваемой сейчас модели авторулевого, в которой учитывается динамика измерительного процесса. В частности, остаются в силе выводы, что необходимо до- статочно быстро измерять и что а>0 не может быть слишком большим, а также то, что упрощенная стратегия с Ь=0 возможна только при /г>0. Учтем теперь неидеальность как измерителя, так и исполнитель- ного устройства. Это приведет к следующей системе уравнений: /ф4-/ир = — &ф, 71ф4-ф = о, о = at,-)-bl, т£ + ? = ф. Составляя обычным образом для этой системы линейных дифферен- циальных уравнений характеристическое уравнение в виде опреде- лителя JM+M, 0 k 0 П+1 — a — Ь/. = 0 — 1 0 тХ+1 и раскрывая его, найдем, что им является уравнение уже четвертой степени вида /7ЧХ4-|-[/ (Т + т) 4-йТт] Х3 + [/ + й(Т4-т)] № + (kb + h)k + ka = 0. Выяснение для него условий устойчивости — это уже довольно слож- ная задача. Ее постановка еще в прошлом веке связана с зарождаю- щейся тогда теорией автоматического регулирования. Была эта за- дача в общей постановке для уравнения произвольной степени ре- шена независимо и в различных формах Раусом и Гурвицем. Раус нашел алгоритмическое ее решение, а Гурвиц—в виде конечных детерминантных неравенств. Сейчас эти условия широко известны й именуются условиями устойчивости Рауса— Гурвица. Позднее мы с ними познакомимся. А сейчас постараемся понять, что в первую
148 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ очередь нам от этих условий нужно. Точнее, не нам, а конструктору и, возможно, наладчику авторулевого. Обычно лодка (судно или корабль), на которой хотят поставить авторулевой, уже имеется. Поэтому параметры I, h и k имеют какие-то определенные значения, не подлежащие изменению. В несколько меньшей мере заданы и по- стоянные времени т и Т. На корабле уже есть рулевая машинка, не человек же поворачивает его громадный руль, и имеются сконструи- рованные ранее измерительные системы. Так что основное внимание конструктора, естественно, уделяется выбору параметров а и Ь. Как бы он их ни выбирал, он обязан их выбрать так, чтобы авторулевой был устойчив, т. е. параметры а и b должны выбирать- ся из некоторой области на плоскости а, Ь, именуемой областью устойчивос- ти. Эта область устойчивости не оп- ределяет, какие нужно взять значения для параметров а и b стратегии управ- ления, она лишь указывает, среди че- го их можно выбирать. Вернемся к идеальному авторулевому. Пусть в начальный момент времени t=0 судно отклонено от заданного курса на Рис 4 3Q угол фо и продолжает уходить от него с начальной скоростью ф0. Мы хотим при- вести судно на заданный курс и сделать это как можно быстрее, т. е. за минимально возможное время т. Попробуем, основываясь на ин- туиции и на том, что любая стратегия управления судном на курсе реализует этапы приведения и сдерживания, понять, какова оптималь- ная стратегия в этом случае. Ясно, что вначале мы должны повер- нуть руль так, чтобы с максимальной скоростью приводить судно к курсу. Для этого надо отклонить руль на максимально возможный угол и так держать его (рис. 4.30). Но если долго держать руль в крайнем положении, то скорость приведения станет нарастать и судно проскочит курс. Значит, нужно вовремя переложить руль и одерживать судно. Но чтобы выполнить этот этап как можно быстрее, нужно его выполнять с максимальной интенсивностью, т. е. руль надо переложить в другое крайнее положение. Интуитивно ясно, что именно такая стратегия, когда руль перекладывается из одного край- него положения в другое крайнее положение, является оптимальной. На самом деле так оно и есть. Оптимальная стратегия характеризуется тем, что угол поворота руля принимает лишь два крайних значения фо и —ф0- Учитывая, что оптимальная стратегия есть функция со- стояния судна и принимает только два значения ф0 и —фо, можем записать ф=ф0 sign о, где о=й’(ф, ф)- Для отыскания функции о= —£(ф, ф) нужно решать специальную оптимизационную задачу.
§3. АВТОРУЛЕВОЙ 149 В настоящем параграфе мы не будем заниматься такой задачей, а возьмем о=аф-|-Ьф и посмотрим, как будет управлять судном такой двухпозиционный авторулевой. Уравнения, описывающие изменение угла <р поворота судна, уп- равляемого двухпозиционным авторулевым, запишутся так: Ар + /кр = — fe^0signo, о = аф + Ьф. (3.17) Параметр а в стратегии управления будем считать положительным, <2>0. Это условие, как следует из анализа авторулевого с линейной стратегией, обеспечивает правильное направление поворота руля на этапе приведения в ту же сторону, куда отклонено судно. Будем изучать возможные движения судна по изменению состояния (ф, ф) в фазовом пространстве. Фазовым пространством здесь будет дву- мерный цилиндр, развертку кото- рого будем рисовать в виде пло- скости. Проведем на этой плос- кости прямую о=0 (рис. 4.31). Она разделяет плоскость на две ча- сти: Ф+, где о>0, иФ", где о<0. В каждой из них уравнения движе- ния линейные вида /ф4-/1ф = —/гф0 в Ф+, (з /ф4-Лф = 6ф0 в Ф_, которые легко могут быть проинте- грированы. Заметим еще одну осо- бенность системы уравнений (3.17). При замене ф на —ф и ф на —ф уравнения (3.17) не изменяются, т. е. фазовые траектории симмет- ричны относительно начала координат, и поэтому их достаточно изучить, скажем, только на полуплоскости Ф + . Посмотрим, как ведут себя фазовые траектории в Ф+ и, в част- ности, вблизи прямой о=0. Уравнение движения в Ф+ имеет вид 7ф + /гф = — &ф0. (3.19) Найдем, как меняется вдоль фазовых траекторий величина о=аф+Ьф. Считая ф решением уравнения (3.19), получим, что о = — (3.20) Пусть a~>bhH. При ф=ф*=6Ьф0/ (1а—bh) имеет место о=0. Если Ф<Ф*, то о<0, а если ф>ф*, то о>0. Так как в Ф+ значение о — положительное, то при ф>ф* фазовые траектории уходят от прямой о=0 в направлении увеличения о. При ф<3р* фазовые траектории
150 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ идут в направлении уменьшения о и втыкаются в прямую о=0. На полупрямой <р=ф*, оОО значение о вдоль фазовой траектории до- стигает своего максимума. Если еще учесть, что полупрямая ф =—ktyjh, оОО является фазовой траекторией в Ф+ и что выше этой прямой Ф<0, т. е. ф уменьшается, а ниже этой прямой фОО, т. е. ф увеличи- вается, то приходим к качественному виду поведения фазовых тра- екторий, показанному на рис. 4.31. При этом фазовые траектории на полуплоскости Ф“ изображены по соображениям их симметрии от- носительно начала координат траекториям на полуплоскости Ф+. Здесь, кроме указанных уже предположений а>0, fc>0, al — bh>Q, считается, что ф*<7гф0//г. Из рис. 4.31 видно, что на прямой о=0 есть отрезок АА' (с коор- динатами концов Л(—Ьф*/а, ф*) и A'(b<f*/a, —ф*)), в который фазо- вые траектории втыкаются с двух сторон, как из полупространства Ф + , так и из Ф'. Вне отрезка АА' фазовые траектории втыкаются в прямую о=0 в одной полуплоскости и уходят с нее в другой. Что будет на самой прямой о=0, неясно, так как значение правой части уравнения (3.17) в этих точках не определено. Но дело не только в том, что правая часть уравнения (3.17) на прямой о =4=0 не определена и неизвестно, как должна двигаться попавшая на нее фазовая точка. Дело еще и в том, что на этой прямой правая часть дифференциаль- ного уравнения (3.17) испытывает разрыв непрерывности и не удов- летворяет хорошо известным условиям существования решения. Разрыв непрерывности правой части влечет разрывность второй производной ф, но скорость при этом должна меняться непрерывно/ так как скачок скорости требует бесконечной величины момента силы. Таким образом, дифференциальное уравнение (3.17) по меньшей мере нельзя назвать полной математической моделью авторулевого. Попытаемся доопределить модель, определяя поведение фазовой точки на прямой о=0 на основе понятия состояния и фазового порт- рета. Так как состояние (ф, ф) системы со временем изменяется не- прерывно, то фазовые траектории должны быть непрерывными ли- ниями, и поэтому естественно доопределить поведение фазовой точки на прямой о=0 вне отрезка А А' по непрерывности. В этой части прямой о=0 фазовая точка переходит с фазовой траектории одного полупространства на фазовую траекторию другого, и при этом про- исходит мгновенная перекладка руля из одного крайнего положения в другое. Иногда в таком случае говорят, что фазовые траектории сшиваются по непрерывности. На отрезке А А' дело обстоит значительно сложнее. Здесь фазовые траектории втыкаются в прямую о=0 с обеих сторон. Такое пове- дение фазовых траекторий возможно, если все точки А А' являются состояниями равновесия. Но здесь этого нет. В точках отрезка АА', за исключением одной точки О(ф=0, ф—0), значение ф не равно нулю, т. е. состояние должно меняться. Но как? Ведь фазовая точка
§3. АВТОРУЛЕВОЙ 151 не может уйти ни в полупространство Ф+, ни в полупространство Ф Значит, остается одно: она остается на прямой о=0. Следовательно, имеет место уравнение аф+Ьф=0, решение которого ф=фОе"(а/6)/ означает, что фазовая точка движется по отрезку А А' к точке О с координатами ф=ф=0. Доопределение поведения фазовой точки на прямой о=0 завер- шает построение фазового портрета системы в рас- смотренном случае. Как следует из рис. 4.31, любая фазовая траектория после конечного чи- ела пересечений прямой о=0 приходит на отрезок \ \ А А' и дальнейшее движение фазовой точки про- \м) исходит по нему к точке О. Это означает, что \/ и_ после некоторого переходного процесса судно при- * ходит к заданному курсу и на нем удержива- (’ \ •ется. \и+ чЛ Итак, мы построили фазовый портрет уп- \ \ равления судном двухпозиционным авторуле- рис 432 ъым, реализующим стратегию, при которой руль в зависимости от командного сигнала о находится то в одном крайнем положении ф0, то в другом —ф0. При о=0 происходит мгно- венная перекладка руля из одного крайнего положения в другое крайнее положение. После конечного числа перекладок руля автору- левой переходит в режим, когда о все время равно нулю. В таком режиме судно монотонно приближается к курсу и на нем удержи- вается. Этот последний режим называют скользящим. Ясно, что этот скользящий режим движения авторулевого находится в противо- речии с тем, что руль может быть только в двух крайних положениях •фо и —ф0- Ни при ф=ф0, ни при ф=—ф0 фазовая точка не движется по линии о=0. Фазовая точка А4(ф, ср), лежащая на отрезке сколь- зящих движений АА', движется при ф=ф0 с фазовой скоростью v+, а при ф=—ф0 — со скоростью v_ (рис. 4.32). Ни скорость v+, ни v_ не направлены вдоль линии о=0. Что же происходит на самом деле? Чтобы это понять, следует учесть конечность времени перекладки руля из одного крайнего положения в другое. Пусть точка А4 (ф, ф) приходит на отрезок скользящих движений А А' со скоростью v+. Руль начинает перекладываться, в соответствии с чем скорость v+, меняясь, становится равной v_. При этом фазовая точка успевает пересечь линию п=0 и после окончания перекладки руля снова дви- жется к линии о=0, пересекает ее и так далее. Таким образом, фа- зовая точка, колеблясь возле линии о=0, движется к точке 0. Эти колебания тем более быстрые, чем быстрее происходят перекладки руля. В пределе они совершаются бесконечно быстро и фазовая точка движется по отрезку скользящих движений. Ясно, что такой харак- тер управления, связанный с мгновенной перекладкой руля, может осуществляться только идеальным авторулевым и реально реализо- ван быть не может. Поэтому важно выяснить, насколько математиче-
152 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ская модель адекватна тому, что происходит на самом деле. Для этого надо обратиться к реальному авторулевому и детальнее разо- браться, как он реализует двухпозиционное управление. Рассмотрим одну из возможных систем, реализующих поворот руля из одного крайнего положения в другое. Схематически такая Рис. 4.33 система изображена на рис. 4.33. Руль поворачивается электромо- тором с помощью червячного редуктора. Мотор — реверсивный, Рис. 4.34 питается от источника постоянного тока. Он может вращаться в обе стороны в зависимости от знака прикладываемого напряжения. Один полюс источника присоединен к общему контакту О. Другой полюс через реле переключателя П и контакты С и D ограничителя пово- рота руля может подключаться либо к контакту А, либо к В. В за- висимости от того, к каким контактам подводится напряжение, мотор поворачивает руль либо вправо, либо влево. Реле переключателя управляется командным сигналом о. При о=0 якорь реле занимает нейтральное положение. Мотор выключен. Как только появляется командный сигнал, скажем, о>0, переключатель П подключает мо- тор к контактам ОВ, и мотор начинает вращаться, поворачивая руль в крайнее, например, правое положение ф0. Как только руль упрется в упор, фиксирующий положение ф0, размыкается контакт С, двига- тель перестает вращаться и поворачивать руль. Аналогично проис- ходит поворот руля в крайнее левое положение при о<0. Посмотрим, как реально происходит изменение положения руля с течением времени, если о меняет знак. Кривые изменения o(t) и ф(/) изобразим на рис. 4.34. Пусть при t<Z.t-L командный сигнал о — отрицательный и руль занимает крайнее левое положение ф=—фо. В момент времени 1± командный сигнал обращается в нуль, o(t1)=Q, и затем становится положительным. Переключатель П включает мотор на поворот руля вправо, однако происходит это не в момент времени t±, а чуть позже, в момент времени /i+б. Это происходит из-за того, что в переключателе есть зазор и нужно время, чтобы его выбрать. Значит, до момента времени /i+б руль будет находиться
§3. АВТОРУЛЕВОЙ 153 в положении —ф0. Затем с момента Zi+б мотор начнет быстро, но не мгновенно поворачивать руль до положения ф0, так что на некотором интервале времени от /i+б до /i+А функциях])(0 меняется непрерывно от значения —ф0 до значения ф0. Далее, при />/1+А до момента вре- мени t2, когда о (0 вновь меняет знак, ф(^)=ф0. После смены знака о(/) произойдет аналогичный процесс перекладки руля. Теперь сравним закон х|) (t) =ф0 sign o(Q изменения угла поворота руля, который принят в математической модели авторулевого, с тем, как он меняется на самом деле. Математическая модель правильно отражает реальную ситуацию, за исключением малых промежутков времени длительности А, когда руль переводится из одного крайнего положения в другое. Идеализация состоит в том, что мы пренебрегаем реальным поведением авторулевого на этих интервалах времени длительности А, считая, что руль мгновенно перекладывается из одного крайнего положения в другое. Но чтобы идеализированная модель отражала поведение реального авторулевого при о=0 и, в частности, учитывала, что при перекладке руль может занимать лю- бое положение между —ф0 и ф0, мы во всяком случае должны дооп- ределить модель так, чтобы при о=0 угол ф мог принимать любое значение между —ф0 и ф0. Тогда идеализированную модель двухпо- зиционного авторулевого можно записать так: J Фо sign о 1 —Фо<Ф при при сг=/=О, о = 0. (3.21) <Фо Можно ли двухпозиционное управление описать более точно? Можно, например, принять, что мотор поворачивает руль с постоян- ной скоростью и. Тогда скорость изменения угла поворота руля оп- ределяется следующим образом: ( со, если о > 6, ф < ф0, { —и, если о < — б, ф>— фо, ( 0, если —б < о < б, ф = ф0, о > 0; ф = — ф0, о < 0. Это уже более точное описание. Но и оно не полное. Ведь, если мо- тор включается, то его скорость не сразу становится равной и или —й. Значит, надо учесть время разгона двигателя и написать урав- нение Тф-|-ф = и, если о > б, ф < фо, —й, если о <—б, ф>—ф0, О, если —б < о < б, ф = ф0, о > 0; ф = —ф„, о < 0. Но и это еще не все. Можно учесть еще действие пружины огра- ничителя и то, что мотор останавливается не сразу, и т. д. и т. п. До каких же пор уточнять? Ведь каждое уточнение усложняет модель и требует более сложного исследования. Поэтому нужно выбрать та-
154 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ кую модель, чтобы она, во-первых, была адекватна тому, что есть на самом деле, и, во-вторых, не была очень сложной, чтобы в ней можно было разобраться. Поэтому попробуем ограничиться уточнением, даваемым формулой (3.21). Достаточно ли этого для полного описания всех возможных движений авторулевого? В какой мере эти движения соответствуют реальным движениям авторулевого, точнее, его дви- жениям при условии, что перекладки руля происходят очень быстро? В идеализации — бесконечно быстро. Постараемся ответить на эти не очень простые вопросы. Они не очень просты уже потому, что ответы на них были получены далеко не сразу. Итак, пусть фазовая точка М (ф, ср) приходит на линию переклю- чения о=0 ради определенности с полуплоскости Ф_. Пока она дви- жется на полуплоскости Ф~, имеем ф=—ф0, как только она попадает на линию о=0, угол ф нам неизвестен, но —фо^ф^фо- В соответствии с этим скорость движения фазовой точки М, пришедшей на линию о=0, заключена между скоростями ее при ф=—ф0 и ф=ф0 и, следо- вательно, пересекает линию о=0, переходя с полуплоскости Ф- на полуплоскость Ф+. Это дает полное обоснование сшивания решений на о=0 вне отрезка АА'. Рассмотрим теперь, что происходит, если фазовая точка М (ср, ф) приходит на отрезок АА'. Согласно принятой идеализации на отрезке АА' движение авторулевого описывается уравнением /ф + /1ф = — 6ф, (3.22) где—фо^Сф^фо, пока о=0. Нетрудно видеть, что эти условия однозначно определяют воз- можные значения угла ф. Действительно, из уравнения (3.22) нахо- дим, что о = аф-|-Ьф = аф4-Ь — уф—А ф^) = (а—yj ф—уф. (3.23) Мыслимы три возможности: о>0, о<0 и о=0. Две первые отпадают. Поскольку, например, из о>0 следует о>0 и, следовательно, ф=ф0. Но при ф=ф0, согласно (3.23), о<0. Так что остается только возмож- ность о=0. Из нее, согласно (3.23), находим, что । а ( г bh\ • Ч’- Таким образом, ф найдена и движение фазовой точки подчиняется уравнению (3.22) с этим значением ф. Из него следует, что или афДЬф = О,
§3. АВТОРУЛЕВОЙ 155 что означает движение фазовой точки М(ф, ср) по отрезку АА' сколь- зящих движений к точке О по закону ф = фое-(а/6> ф =-------2. фо^ - (а/Ь) Итак, уточненная математическая модель полностью определяет изменение фазового состояния авторулевого как при о=^0, так и о=0. Однако соответствует ли она реальным движениям авторулевого? На этот вопрос нельзя дать однозначный ответ, поскольку он за- висит от того, как же на самом деле работа- ет рулевая машинка, как она выполняет ко- манды управления о. Примем, что полная перекладка руля при смене знака о проис- ходит достаточно быстро, но все-таки за не- которое конечное время. Тогда фазовая точ- ка, пришедшая на отрезок скользящих дви- жений АА', его пересечет, немного удалится от него, затем станет снова к нему прибли- жаться, пересечет его, немного удалится, потом будет приближаться и так далее (рис. 4.35). При этом до тех пор, пока пересека- ется отрезок АА', фазовая точка не может от так что выполняется условие <т = аф + Ьф = е (t), него уйти далеко, (3.24) где |е (0|^е и е-> 0 вместе со стремлением к нулю времени перекладки руля. Из (3.24) находим, что t ф (/) = фое-("/Ь)Л _|_2-J е-(а/6) (/ — т) е о и, следовательно, t | ф (/) —ф0е_<а/6)''/1 < у J e-(“/W (z-x> dx < у . о Таким образом, предельное при е-> 0 изменение фазовых пере- менных ф и ф уточненная модель также описывает верно. Осталось установить, верно ли она описывает изменение угла поворота руля. Как и прежде, из соотношения (3.24) и уравнения движения (3.22) находим, что Ч =у(— Zip—Лф) = ^( —Лф) = <3-25>
156 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Это соотношение не позволяет найти ф, поскольку из малости е вовсе не следует малость е(/). Однако все же некоторые сведения о ф из него извлечь можно: ф(/) может представлять собой быстро осцил- лирующую функцию, размах колебаний которой лежит между —ф0 и фо- Но усредненное значение ф будет медленно меняющейся функ- цией. Именно, из (3.25) находим, что /+ т Ф = §г ( ф(т)бгт= t'-T ф(т)4т kt) 2Т <т) d-1 и, следовательно, Или, выбирая время усреднения Т = Ке, получим При е О Ф Ф, и поэтому (3.26) Таким образом, уточненная модель не дает, вообще говоря, правиль- ного представления о том, как меняется угол поворота руля ф, по- скольку (3.26) дает не сам угол поворота ф(/), а его скользящее сред- нее значение ф. Теперь перейдем к детальному изучению фазового портрета судна, управляемого идеальным двухпозиционным авторулевым. Но прежде чем построить фазовый портрет, разберемся с зависимостью его от параметров системы. Как следует из (3.17), динамика судна с авто- рулевым зависит от шести параметров: I, h, k, ф0, а, Ь. Каждый из них имеет вполне определенный реальный смысл. Такие параметры называют физическими. Когда их много, задача построения и ис- следования фазового портрета становится очень сложной. Поэтому нужно стремиться по возможности уменьшать число параметров. Па- раметры, от которых зависит фазовый портрет, называют сущест- венными. Найдем их для этого конкретного примера. Изменим мас- штаб времени и масштаб измерения угла, т. е. введем новые перемен- ные: х=М и ф = р,фи. Тогда уравнения (3.17) перепишутся так: rf2<pH I h dq>H _ *Фо f /„. dr2 П dx ~ П2ц' 1 h o = aiMf„ + bkiid-S?,
§3. АВТОРУЛЕВОЙ 157 где I sign а при а Ф О, \—1^/(0)^ 1 при о = 0. Выберем масштабные множители так, чтобы максимально уменьшить число параметров: K=I/\h\, р.=/Х2/(&ф0). Так как функция f(o) за- висит, по существу, от знака а и не меняется при умножении о на любое положительное число, можно умножить о на 1/(ар.) и тем самым довести число параметров до одного: х= (b/d)/(I/\h\). Если производные по новому времени т обозначать снова точками и опу- стить индекс у нового значения угла, то уравнения, описывающие динамику судна с идеальным релейным авторулевым, запишутся в виде ф±ф =— /(а)> о = ф+хф. (3.27) Знак плюс в уравнении (3.27) нужно брать, когда /С>0, и знак минус, когда h<ZQ. Итак, в нашем примере фазовый портрет зависит лишь от одного существенного параметра х. Перейдем к построению фазового портрета. Будем считать судно послушным с /г>0 и поэтому в уравнении (3.27) возьмем знак плюс. Сначала рассмотрим х>0. Качественно вид фазовых траекторий в этом случае мы уже изучили (они приведены на рис. 4.31). Прямая о=ф+хф — назовем ее прямой переключения — делит фазовое про- странство на две части: Ф+, где о>0, иФ“, где о<0 (рис. 4.36). В каж- дой из них движение фазовой точки описывается, согласно (3.18), линейным дифференциальным уравнением. Фазовые траектории в Ф~ симметричны относительно начала координат траекториям в Ф+. На прямой переключения существует отрезок АА' скользящих движений, на который фазовая точка приходит как из Ф+, так и из
158 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Ф . В дальнейшем она движется по отрезку А А' в направлении к состоянию равновесия <р=0, ф=0, асимптотически к нему приближа- ясь. Этим движениям отвечает скользящий режим авторулевого. Координаты точек А и А’ следующие: А — 1-----> 1--- и А 1--------, —5----- . \ 1—X 1 — X J —X 1—X J На рис. 4.36 изображен случай, когда 0<х< 1. Вне отрезка АА' фазовые траектории пересекают прямую переключения, сшиваясь по непрерывности. Фазовая точка, двигаясь по такой траектории, переходит из одного полупространства, скажем, Ф_ в Ф^. В полу- пространстве Ф+ есть траектория, уравнение которой <р = — 1. В Ф_ есть симметричная ей траектория <р = 1. Анализ изменения величины о = ф4-хф вдоль фазовых траекторий, скажем, в Ф+, где о > 0, по- казал, что при ф>х/(1— х) величина о возрастает и достигает своего максимального значения при ф = х/ (1—х). После этого, т. е. при ф<х/(1—х), значение о убывает вплоть до нуля на прямой переключения. Качественный вид фазовых траекторий показан на рис. 4.36. Чтобы детально изучить фазовый портрет, воспользуемся методом точечных преобразований. В чем он состоит? По существу, он состоит с изучении смены состояния непрерывной во времени динамической системы по изменению состояния (ф, ф) в определенные дискретные моменты времени. Как этот метод реализуется в нашем конкретном примере? Из качественного хода фазовых траекторий следует, что все они попадают на прямую переключения и затем вновь и вновь ее пере- секают до тех пор, пока, может быть, не попадут на отрезок скользя- щих движений. Будем интересоваться последовательностью точек пересечения фазовой траектории с прямой переключения. Каждая точка пересечения характеризуется одной переменной, скажем, ф. Чтобы отличить от других, обозначим ее буквой s. Фазовая траектория, выходящая из точки s, например, в Ф+ пересекает линию переключе- ния в точке, которая также характеризуется значением ф, обозначим ее s. Так вот, метод точечных преобразований состоит в следующем вместо того чтобы изучать, как движутся фазовые точки по траекто- риям и как фазовые траектории пересекаются с линией переключения, мы будем изучать, как эти точки пересечения переходят друг в друга. Точка s при этом называется предыдущей, as — последующей. Зави- симость s от s, т. е. s=f(s), называется функцией последования и яв- ляется оператором точечного отображения, порождаемого на линии переключения фазовыми траекториями системы. Оказывается, зная эту зависимость, мы, по существу, знаем, как происходит движение нашего судна, т. е., зная значение угла и скорости в моменты переклад- ки руля, мы знаем, как судно движется.
§3. АВТОРУЛЕВОЙ 159 Итак, вместо того чтобы смотреть весь фазовый портрет, мы будем смотреть только состояние нашей системы в момент перекладки руля. Именно в этом состоит идея секущей поверхности, которую впервые в прошлом веке применил Анри Пуанкаре (1854—1912). Теперь найдем эту функциональную связь s=f(s) в нашем случае. Интегрируя уравнение (3.27) при оОО и начальных условиях <р=—xs, cp=s, получим s = e~x-s—(1 —е~х), где т — время движения фазовой точки по траектории из точки $ в точ- ку s, которое определяется из уравнения (1— х)(1 — е~т) (s+1)—х = 0. Исключить х из уравнения для времени не удается, и поэтому мы представим зависимость s=f(s) в параметрическом виде: S = — 1 *(!— х)(1— e-t) ’ s = ~1 +(1-х) (ет—1) ’ (3-28). причем х меняется от 0 до сю. Итак, (3.28) задают точечное отображение линии переключения в себя, порождаемое фазовыми траекториями полупространства Ф + . Фазовые траектории полупространства Ф_(о<С0) также порождают точечное отображение линии переключения в себя. Причем, в силу центральной симметрии фазовых траекторий, оно такое же, как (3.28),. но только с заменой s и s на —$ и —s. Если выбрать направления от- счета s и s противоположными, скажем, s — вверх по линии переклю- чения, as — вниз, то оба отображения запишутся одинаково в виде S = — 1 + (1—x)(l-e-t) > S=1 (1—х)(ет—1) ’ (3‘29) Теперь будем изучать отображение (3.29) при различных значениях параметра х. Начнем со случая 0<х<1. Графики функций (3.29) по- казаны на рис. 4.37. При х=0 s(0)=x/(l—х) и s(0)=—х/(1—х). При т->+оо s (т)4-оо, a s(x)->l. Функции s(x) и s(x) при возрастании х монотонно возрастают и не пересекаются, так как s(t)—s(x)<0 для всех т>0. Значения s, s £ I—х/(1—х), х/(1—х)1, отвечают отрезку сколь- зящих движений авторулевого. Возьмем любое исходное значение s=s0. По нему найдем время Xj и отвечающее этому времени значение s=Sj. Следующееs получим, выбирая исходное s=Sj и т. д. Получаем последо- вательность s0, Si, ... точек пересечения фазовой траектории с линией переключения и последовательность хъ х2, ... времен, по истечении ко- торых фазовая точка вновь попадает на линию переключения. Последо- вательность s0, Si, $2, ... отвечает состояниям авторулевого в моменты Перекладки руля, а последовательность т1г х2, т3, ... — промежуткам времени от предыдущей перекладки руля до следующей. Как следует
160 ГЛ. 4. управляемые динамические системы из графика функции последования, в случае 0<х<1 (рис. 4.37), каким бы ни было исходное положение точки, после конечного числа переходов или, как говорят, итераций точечного отображения она приходит на отрезок скользящих движений. А следовательно, любая фазовая траек- тория после конечного числа пересечений линии переключения вты- кается в отрезок скользящего движения (рис. 4.36). Дальнейшее дви- жение фазовой точки происходит по отрезку скользящих движений 'к состоянию равновесия. Таким образом, действительно, точечное ото- бражение s=/(s), порождаемое фазовыми траекториями на прямой переключения о=0, определяет фазовый портрет системы. В случае 0<к<1, как следует из рис. 4.36, авторулевой после конечного числа переключений руля переходит в скользящий режим, при котором судно апериодически приближается к курсу. График изменения угла отклонения от курса судна, управляемого таким авторулевым, пока-
§3. АВТОРУЛЕВОЙ 161 зан на рис. 4.38. Сначала характер приведения судна к курсу коле- бательный. Затем после конечного числа колебаний, когда авторуле- вой переходит в скользящий режим, судно монотонно приближается к курсу. Причем чем меньше х и, следовательно, меньше отрезок АА' скользящего движения, тем большее число колебаний совершает судно, Рис, 4,41 но при этом увеличивается скорость приведения судна к курсу в сколь- зящем режиме. Если х увеличивается, то число колебаний уменьшает- ся. Авторулевой быстрее входит в скользящий режим. Но скорость приведения в скользящем режиме уменьшается и переходный процесс удлиняется. На рис. 4.36, 4.37 изображены фазовый портрет и функция последования в случае 0<х<1/2. Если 1/2^х<1 и х>1, функция последования и фазовые портреты показаны на рис. 4.39 и 4.40. В этих случаях авторулевой входит в скользящий режим не более чем при второй перекладке руля, но приводится судно к курсу медленно.
162 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Теперь посмотрим случай х^О. В этом случае авторулевой правиль- но реализует этап приведения, т. е. перекладывает руль в сторону отклонения лодки, но либо не реагирует на скорость приведения (х=0), либо реагирует, но неправильно, т. е. перекладывает руль после прохождения судном курса. Как ведет себя судно, управляемое та- ким авторулевым? Рассмотрим сначала случай х<0. Качественный анализ фазовых траекторий показывает, что они, как и в случае х>0, вновь и вновь а) пересекают линию переключения о=0, но уже нет отрезка скользяще- го режима. Фазовые траектории уходят с отрезка АА' как в Ф+, так и в Ф~ (рис. 4.41, б). Посмотрим, как выглядит точечное отображение в этом случае (рис. 4.41, а). Теперь график $(т) начинается в точке х/(1—х)<0, а график s(x) — в точке—х/(1—х)>0. Графики функ- ций $(т) и s(t) всегда пересекаются в некоторой точке, назовем ее s*. т*, которая определяется из уравнения $(т)=$(т). Это неподвижная точка отображения. Любая последовательность s0, $i, $2, ... итераций точечного отображения и соответствующая ей последовательность времен Xi, т2, т3, ... сходятся соответственно к $* и т*. Фазовый порт- рет системы в этом случае определяется глобально устойчивым пре- дельным циклом (рис. 4.41, б), отвечающим неподвижной точке s*. Предельному циклу отвечают автоколебания судна с авторулевым. Судно вместо того, чтобы идти по курсу, совершает периодические ко- лебания возле него с периодом, который определяется из уравнения •£cth£= 1 — х. С уменьшением х уменьшается амплитуда колебаний, уменьшается значение $* и уменьшается период автоколебаний. В предельном слу-
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 163 чае х=0, когда авторулевой перекладывает руль только в зависимости от угла <р поворота судна и не следит за скоростью ср его изменения, вид точечного отображения и фазовый портрет изображены на рис .4.42. В этом случае время между последующими перекладками руля Рис. 4.43 уменьшается, уменьшается и амплитуда рыскания. Авторулевой при- водит судно к курсу, все чаще и чаще перекладывая руль. На рис. 4.43 показано, как меняется угол <р отклонения курса судна, управляемого таким авторулевым. § 4. Исследования Максвелла и Вышнеградского систем прямого регулирования Сейчас рассмотрим некоторые проблемы управления на примере классической задачи, с которой фактически началась теория автома- тического регулирования. Это задача о стабилизации скорости враще- ния вала паровой машины. Различные регуляторы были известны давно. На древнем Востоке, в Египте, Греции и древнем Риме использовались различные регули- рующие устройства. Но первые теоретические исследования, давшие начало теории автоматического регулирования, относятся к середине XIX века и связаны с остро стоявшей проблемой регулирования угло- вой скорости вращения паровой машины. Изобретенные в конце XVIII века паровые машины широко внедрились в различные области жизни. Для того чтобы паровая машина вращалась плавно, со ско- ростью, мало зависящей от нагрузки, на вал насаживался маховик, увеличивающий инерционность, и применялся регулятор. Таким ре- гулятором в то время был центробежный регулятор, изобретенный Д. Уаттом (1736—1819). Сначала регуляторы Уатта работали хорошо. Но техника развивалась, появлялись более мощные и скоростные ма- шины. Повысились требования к точности регулирования. Более тща- тельно стали изготовляться регуляторы. И вот тогда все чаще и чаще стали проявляться случаи, когда регуляторы не справлялись со своей задачей. Вместо того чтобы обеспечивать постоянство скорости, они вызывали колебания ее, которые зачастую приводили к авариям. Почему хорошо работавшие регуляторы вдруг стали плохими? В чем
164 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ здесь дело? Возникла проблема, которая долгое время была тормозом технического прогресса. Решением ее занимались многие ученые и инженеры. Но наиболее существенный вклад был сделан физиком Д. К. Максвеллом (1831—1879) и профессором Петербургского тех- нического института И. А. Вышне- градским (1831—1895). Именно они впервые привлекли к решению ин- женерных задач регулирования теорию колебаний в виде теории малых колебаний Лагранжа, именно они поставили и дали ответы на ряд вопросов применительно к регу- лированию скорости вращения, ко- торые на долгие годы определили направление теории автоматического регулирования, ныне называе мое классическим. Занимаясь одной и той же задачей, они получили диаметрально противоположные результаты. Но оба были по-своему правы. Так, оказывается, бывает. Мы рассмотрим их исследования, но прежде попробуем разобраться в самой проблеме регулирования ско- рости вращения паровой машины. Паровую машину схематически изобразим, как показано на рис. 4.44. Вал машины, к которому прикладывается нагрузка Л4Н, приводится в движение за счет подводимого пара. Нужно обеспечить постоянство угловой скорости (0=<р и независимость ее от нагрузки. Рассмотрим сначала паровую машину без регулятора. Уравнение ее движения можно записать в виде Ар = Л1д(р, ф)—Ми. (4.1) Здесь I — момент инерции, приведенный к валу, /Ид(р, ср) — движу- щий момент, который зависит от величины р подачи пара в цилиндр машины и от угловой скорости <р вращения ее вала. В уравнение (4.1) не входит угол <р поворота вала, такую переменную в механике приня- то называть циклической. Поэтому в качестве фазовой переменной можно рассматривать только одну переменную <р, а за фазовое про- странство принять прямую, на которой откладываются значения <р. Следует отметить, что уравнение движения паровой машины в виде (4.1) является следствием идеализации, пренебрегающей зависимостью вращающего момента 7ИД от угла поворота вала машины и положения поршня в цилиндре. Такая идеализация предполагает достаточно бы- строе вращение паровой машины, при котором с хорошим приближе- нием допустимо их усреднение. Вместе с тем это говорит о том, что урав- нение (4.1) справедливо не при всех <р, а лишь не очень маленьких. Заб- вение этого факта приводит к неправильным представлениям о поведе- нии паровой машины при малых скоростях вращения.
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 165 Движущий момент Мл (р, ф), естественно, возрастает с увеличе- нием подачи пара и падает с ростом скорости вращения ф, так как при увеличении скорости вращения давление пара, поступающего в цилиндр, не успевает достигать своего максимального значения. Фиксируем величину подачи пара и изобразим на плоскости <р, М график зависимости М = Л1д(р, ф) от угловой скорости ф. Пере- сечем этот график прямой М = М„. При значении <р = со*, отвечаю- щем их точке пересечения, правая часть уравнения (4.1) обраща- ется в нуль, т. е. скорость вращения ф = и* является равновесной. При <р > со* правая часть отрицательна и происходит убывание ф вплоть до <р = (1)*, а при <р < со*, напротив, возрастание <р вплоть до Ф = и*. Таким образом, фазовый портрет, отражающий динамику паровой машины, состоит из состояния равновесия 0(<р = ®*), к ко- торому все остальные фазовые точки асимптотически приближаются (рис. 4.45). Это состояние равновесия отвечает равномерному вра- щению паровой машины, а его устойчивость означает, что со вре- менем любое другое вращение паровой машины переходит в равно- мерное вращение, отвечающее этому состоянию равновесия. Теперь увеличим нагрузку, произойдет изменение равновесной скорости — она уменьшится. Как сделать, чтобы равновесная скорость враще- ния осталась прежней? Оказывается, можно так изменить величину р подачи пара, что кривая Л4=Л1д(р, ср) вновь пересечется с прямой нагрузки при том же значении ф=и* равновесной скорости вращения. И это понятно: если мы идем или едем на велосипеде по прямой дороге, а затем в гору, не меняя усилий, то скорость движения уменьшается. Но если мы, как говорится, «нажмем на педали», то скорость снова возрастет и при под- ходящем большем усилии примет прежнее значение. То же самое и с паровой машиной. Но для того чтобы так делать и таким образом доби- ваться постоянства угловой скорости вращения, необходимо знать, как меняется момент нагрузки Л1Н и насколько следует изменить пода- чу пара, чтобы компенсировать это изменение момента нагрузки. Ос-
166 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ новная проблема здесь в том, что мы не знаем нагрузку Ми и не знаем, как она меняется. Как же обеспечить постоянство угловой скорости вращения паровой машины, не зная нагрузку Л4Н? Решается эта проб- лема с помощью принципа обратной связи. Как он применяется в этом конкретном случае? Изобразим паровую машину в виде кружка (рис. 4.46). На нее дей- ствуют два входных воздействия, р, — подача пара и М„ — момент на- грузки. Выходом является угловая скорость вращения вала. Прямая связь состоит в том, что изменение подачи пара меняет угловую ско- рость. Обратная связь состоит в том, что изменение угловой скорости меняет подачу пара в паровую машину. Этой зависимости в самой па- ровой машине нет. Ее нужно привнести и сделать такой, чтобы добить- ся постоянства угловой скорости вращения.. Именно путем реализации обратной связи с помощью центробежного регулятора Уатт решил задачу стабилизации скорости вращения вала паровой машины. Од- нако во времена Ползунова и Уатта такого способа рассуждений не было. Не писались уравнения, не было никакого принципа обратной связи. Поплавковый регулятор Ползунова и центробежный регулятор Уатта были изобретениями, не являющимися следствиями научных представлений того времени. Поэтому примем регулятор Уатта таким, как он был изобретен, и проанализируем его работу, следуя Максвел- лу и Вышнеградскому. Схематически паровую машину с регулятором Уатта можно изо- бразить, как показано на рис. 4.47. Изменение нагрузки приводит к изменению угловой скорости вращения вала машины и оси центро- бежного регулятора, соединенного с валом при помощи шестеренча- того редуктора. При изменении скорости вращения расходятся или опускаются шары центробежного регулятора, поднимая или опуская муфту, которая с помощью механической передачи связана с дроссель- ной заслонкой паропровода. Увеличение угловой скорости приводит к опусканию дроссельной заслонки и уменьшению подачи пара, умень- шение угловой скорости — к подъему дроссельной заслонки и увеличе- нию подачи пара. В этой системе центробежный регулятор играет
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 167 роль измерителя угловой скорости паровой машины и одновременно исполнительного устройства, перемещающего дроссельную заслонку. Позднее системы регулирования, в которых регулятор выполняет роль измерительного и исполнительного устройства, стали называть систе- мами прямого регулирования в противовес системам непрямого ре- гулирования, где имелись специальные устройства, перемещающие дроссельную заслонку в зависимости от данных изме- рителя. Таким образом, логику работы регуля- тора угловой скорости вращения паровой машины можно представить следующим об- разом: Асо > 0 —* Ар < 0 —Асо < О, Асо < 0 —Ар > 0 —Ай > 0. Эта логика безупречна. Почему же, вопре- Рис. 4.48 ки этой логике, регуляторы могут не ста- билизировать угловую скорость вращения, а, наоборот, приводить к нарастающим колебаниям ее, как это показано на рис. 4.48? По- нять причину такого явления непросто. Для этого нужно было иссле- довать динамику системы, состоящей из паровой машины и регуля- тора, и выработать эквивалентные ей общие представления. Составим математическую модель системы и проведем ее исследо- вание примерно так, как делали это Максвелл и Вышнеградский. Прежде всего, система «паровая машина с регулятором» — механиче- ская. Значит, ее фазовые переменные — угол <р и угловая скорость <р поворота вала, угол ft и угловая скорость ft расхождения шаров ре- гулятора. Кинетическая энергия системы имеет вид где /(&) — момент инерции вращающихся частей машины и регулято- ра, приведенный к валу машины, А — момент инерции шаров регуля- тора относительно оси их вращения. Момент обобщенных сил, отнесен- ных к углу поворота вала машины, равен Q<p = Aln(ft, <р)~Л1Н, где A4a(ft, ср) — движущий момент, зависящий от угла расхождения шаров О и угловой скорости ф, Мн — момент нагрузки. Относительно оси поворота шаров регулятора учтем момент силы вязкого трения Qo =—hb и момент силы тяжести, равный —дУ/дЬ, где V(ft) — потен- циальная энергия, зависящая от угла расхождения шаров. Уравнения Лагранжа для системы записываются в виде /(й)Ф+4(й)&Ф=л1д(ф, ft)—ми, 42 4ft — V2 (ft) ip2 + V" (ft) = — hft. '
168 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Переменная ф является циклической, и поэтому за фазовые перемен- ные можно взять <р, $ и 4, т. е. фазовое пространство трехмерное. Урав- нения (4.2) описывают движение системы «паровая машина — регуля- тор». Но что с ними делать? Проинтегрировать уравнения (4.2) и найтн их общее решение нельзя. Их нельзя было проинтегрировать в прош- лом веке, когда возникла эта задача, их нельзя проинтегрировать и сегодня. Можно, конечно, получить численные решения, но это будут лишь отдельные частные решения. Как же быть? Давайте посмотрим, что, собственно, нас интересует. Нас интересует, когда будет устойчивым процесс регулиро- вания. Что это означает? Это означа- ет, что должно существовать решение, для которого <p=const, и это решение должно быть устойчивым. Из уравне- ний (4.2) следует, что cp^const отвечает ft^const, ^=0, т. е. в фазовом про- странстве режиму вращения вала с постоянной скоростью отвечает состояние равновесия. Будем обозначать координаты состояния рав- новесия <p=Q, 0=0, Д=0. Это состояние равновесия должно быть устойчивым, т. е. все соседние с ним фазовые траектории должны приближаться к нему (рис. 4.49). Итак, вопрос об устойчивости процесса регулирования свелся к тому, что фазовый портрет паровой машины с регулятором должен иметь состояние равновесия с требуемым значением ф=£2, и к тому, что эго состояние равновесия должно быть устойчивым. Кроме этого, нас будет интересовать вопрос о том, как зависит равновесная ско- рость Q от нагрузки. Равновесное значение фазовых переменных определяется, если под- ставить в уравнение (4.2) решение вида ф = й = const, 0 = 0 = const. Подстановка приводит к уравнениям МЯ(Й, 0) — Л1н = 0, — 4^'(©)P-2 + V'(0) = O. (4.3) Второе уравнение (4.3) определяет зависимость угла 0 равновесного отклонения шаров регулятора от равновесного значения скорости Q вала паровой машины. Первое уравнение с учетом того, что 0 — функ- ция Q, дает зависимость Q от нагрузки 2ИН. Найти явно эту зависи- мость нельзя. Но можно найти производную dQ/dM„, которая харак- теризует, насколько быстро меняется от изменения нагрузки равно- весная скорость вращения паровой машины, и называется дифферен- циальной неравномерностью. Из (4.3) получаем dQ_________________________________1_____ dM„ d& ’ (4.4)
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 169 где de _ I'Q dQ -l/''Q2+r (4.5) Величина dQ/dQ характеризует зависимость угла 0 от скорости £2, т. е. чувствительность измерителя. Чтобы ответить на первый вопрос и выяснить условия устойчиво- сти состояния равновесия, линеаризуем уравнения (4.2) в окрестности состояния равновесия <p=Q, 0=0 и рассмотрим движения близких к нему фазовых точек. Для этого положим <p = Q-f-g, О = 0 + т]> 0 = т] и запишем уравнения движения (4.2) в новых переменных £, т] и т]. Переменные £, ц, т] называют возмущениями, а уравнения их измене- ния — уравнениями в возмущениях. Разложим в ряды Тейлора по воз- мущениям все нелинейные функции в уравнениях и, рассматривая малые возмущения, сохраним в уравнениях только линейные члены, все же остальные: квадратичные, кубичные и т. д., т. е. члены более высокого порядка малости, отбросим. Получим линейные или, как их чаще называют, линеаризованные уравнения, которые приближенно описывают исходную систему в малой окрестности состояния равно- весия: 4-1'Йт| = £ + Мдап, Л’п-Ш] — — у ГП2) п = 0- (4.6) Действительно, состояние равновесия £=0, т|=0, г|=0 линеаризован- ной системы отвечает состоянию равновесия ф=й, 0 = 0, г]=0 исход- ной системы. Оказывается, устойчивость состояния равновесия ли- неаризованной системы и исходной имеет место одновременно. Этот факт доказан многими|разными способами, но первое общее доказа- тельство дано 'А. М. Ляпуновым (1857—1918). Состояние равновесия линеаризованной системы будет устойчиво, когда решения уравнений (4.6) будут стремиться к нулю при возрастании времени, т. е. £(/)->0, т](/)->0 при £->оо. Это будет иметь место, когда корни характеристиче- ского уравнения системы линейных уравнений (4.6) имеют отрицатель- ные вещественные части. Характеристическое уравнение системы (4.6) имеет вид /'ЙХ4-Л4Д<> — 1'0 ЛХ2 + ЙХ+Г—у Z"Q2 = 0.
170 ГЛ. 4. управляемые динамические системы Раскрывая определитель, получим MV+(- AM'- + Ih)M+ Г/ (V'-lra) -hM + пт I \ у пт I + Кр (I /"Q2 —г)-/'ЙМд<> =0. (4.7) Это алгебраическое уравнение 3-й степени. Если записать его как А.3-|-а1Х2-|-а2Х-|-аз = 0, (4.8) то условия устойчивости, как уже говорилось при изучении авто- рулевого, имеют вид aj>0, а3>0, at’a2—а3>0. Эти неравенства яв- ляются необходимыми и достаточными условиями того, что все корни алгебраического уравнения третьей степени (4.8) имеют отрицатель- ные действительные части. Максвелл и Вышнеградский успешно спра- вились с этой задачей. Но они понимали, что третьей степенью дело не ограничивается. Чуть посложнее задача — и будет 4-я степень, 5-я и т. д. В связи с этим на одном из заседаний Лондонского математическо- го общества Максвелл поставил задачу об отыскании необходимых и достаточных условий отрицательности действительных частей всех корней алгебраического уравнения n-й степени. Через несколько лет эта задача была решена молодым английским математиком Раусом сначала для уравнений 4-й и 5-й степеней, а затем и полностью. Раус дал алгоритмическое решение задачи, где последовательно через ко- эффициенты уравнения выписываются условия отрицательности дей- ствительных частей корней уравнения. Независимо от Рауса и немного позже его эта задача была решена немецким математиком А. Гурвицем (1859—1919), который получил эти условия в виде детерминантных неравенств, составленных из коэффициентов уравнения. Гурвицу эта задача была предложена видным специалистом в области теории регулирования А. Стодолой (1859—1942), который был хорошо знаком с работами Вышнеградско- го и пользовался его приемами при работе с кубическими уравнениями, но отчетливо понимал важность этой проблемы для уравнений более высоких степеней. Позже было обнаружено, что результаты Рауса и Гурвица одинаковы, но имеют разную форму, и с тех пор условия, полученные Гурвицем, стали называться критерием Рауса — Гурвица. Применительно к нашей задаче условия Рауса — Гурвица имеют вид -AM^A-Ih > 0, м;- (1/"Й2-Г)-7'ЙМДф > 0, (- AM'^ + Ih) [/ (V"-| П2] - >0. (4.9)
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 171 Теперь перейдем к анализу того, что сделали Максвелл и Вышне- градский. Начнем с Максвелла. Он был физиком и хотел создать тео- рию совершенных идеальных регуляторов, которые были бы способны поддерживать постоянной угловую скорость независимо от нагрузки. Рис. 4.50 Поэтому он считал, что любое трение в измерителе может только ухуд- шить работу регулятора и с ним надо неукоснительно бороться. По- этому в уравнениях у него /i=0. Далее, согласно (4.4), чтобы равно- весная скорость Q не зависела от Мн, надо, чтобы дифференциальная неравномерность d£i!dMa была нулевой. Но для этого надо, чтобы d0/dQ=oo, т. е. регулятор обладал бесконечной чувствительностью. Итак, чтобы сделать регулятор с нулевой дифференциальной не- равномерностью, нужно сделать измеритель с бесконечной чувстви- тельностью. Согласно (4.5) условие бесконечной чувствительности измерителя можно записать в виде ^_[V(0)_|/(0)Q2]=O. (4.10) Максвелл записывает это условие и дает рекомендации, как его вы- полнить. Давайте разберемся, что представляет собой измеритель — регу- лятор Уатта. Это, по существу, физический маятник, подвешенный на вращающейся с угловой скоростью Q оси (рис. 4.50, а). Под дей- ствием центробежных сил маятник отклоняется на некоторый угол 0. Во вращающейся вместе с осью регулятора плоскости х, у груз маят- ника движется по окружности. Максвелл предположил: а нельзя ли, отказавшись от физического маятника, подобрать так кривую x=x(fl), у=у($), по которой будет двигаться груз, чтобы выполнялись условия (4.9) (рис. 4.50, б)? В случае произвольной кривой x=x(fl), у=у($} потенциальная энергия У(&) равна V(b)—tngy(b) и момент инерции /(&) равен /($)— =1/2тх2. Условие (4.9), которое теперь записывается в виде [mgy (fl) —mx2Q2j> = 0,
172 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы будет выполнено, если в качестве этой кривой взять параболу Максвелл понимал, что такой идеальный регулятор будет работать только при выполнении условий устойчивости. И он выписал эти уело-' вия в предположении /г=0 и dQ/dMH=0, т. е. нет трения в измерителе и отсутствует дифференциальная неравномерность. При этих предполо- жениях линеаризованные уравнения (4.6) несколько упрощаются и принимают вид Д-Ли£4-ГЙП-Л1д<Р1 = 0, An—т = (4.11) Это приводит к соответствующим упрощениям характеристического уравнения (4.7) и условий устойчивости (4.9), которые в силу /г=0 и V"—y/"Q2=0 (так как dQM'4H=0) принимают вид — АМ^>0, — 4(0)ЙМ;<>(Й, 0) > О, —Мда(й, 0) 7^(0)£2-(-7Л1д«(й, 0) > 0. Для выполнения первого неравенства требуется, чтобы ЛГДф(й, 0) было отрицательным. Это условие не относится к регулятору, это огра- ничение на объект. Не для каждой машины оно выполняется, а лишь для такой, у которой состояние равновесия устойчиво и без регулятора, причем для паровой машины оно выполняется (рис. 4.45). Машины, обладающие таким свойством, называются машинами с саморегулиро- ванием. Второе неравенство выполняется, так как /#(0)>О и Л4до(й, 0)<О: при увеличении угла расхождения шаров регулятора момент инерции I возрастает и подача пара в машину уменьшается. В третьем неравенстве первое слагаемое положительное, а второе от- рицательное. Чтобы выполнялось это условие, надо сделать так, чтобы по величине первое слагаемое было больше второго. За счет чего? За счет увеличения /*(0), т. е. надо делать шары достаточно массив- ными, возможно, даже соизмеримыми с маховиком. Вот что получил Максвелл. А рекомендации он выдвинул такие: можно построить идеальный регулятор, для этого надо построить измеритель с бесконечной чувствительностью и обеспечить указанные условия устойчивости. Теперь перейдем к рассмотрению исследования Вышнеградского. Оно проведено столь же безукоризненно, каки у Максвелла, но делал его уже инженер, а не физик. Прежде всего он считал, что основная проблема состоит в обеспечении устойчивости регулирования, и пони- мал, что трение в регуляторе может только способствовать этому. Поэтому он в уравнениях (4.6) учитывал член —h'}, причем не просто учитывал, а ввел новый конструктивный элемент — катаракт — кото- рый обеспечивал эту силу трения. Затем Вышнеградский детально
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 173 проанализировал уравнение машины. Слагаемое А4дф в уравнении машины — это изменение движущего момента, связанное с изменени- ем ее угловой скорости. Этот момент характеризует способность маши- ны самой восстанавливать свою скорость при неизменной подаче пара. Если Л1дф(й, 0)<О, то машина обладает таким свойством и это ма- шина с саморегулированием. Именно такой должна быть машина у Максвелла. Но Вышнеградский — инженер. Он понимает, что ма- шины могут быть разными и устойчивости надо добиваться не за счет свойств самой машины, а за счет правильно построенного регулятора. Поэтому он рассматривает худший случай, когда нет саморегулирова- ния и Л1дф =0. Слагаемое ТИд^т] в уравнениях (4.6) представляет со- бой изменение движущего момента за счет изменения подачи пара. Этот момент основной. На него вся надежда. Именно за счет изменения подачи пара нужно обеспечить регулирование. Наконец, слагаемое —7'(0)йт]. Это момент, противодействующий изменению угловой скоро- сти вращения вала машины за счет того, что изменяется приведенный к валу машины момент инерции при изменении положения шаров регу- лятора. Масса шаров регулятора—это ничтожная доля от общей массы маховика паровой машины, т. е. этот момент мал, и делать ставку на него в обеспечении устойчивости инженер не может. Поэтому Вышне- градский не учитывает его в уравнениях (4.6) и в результате записывает их в виде = 0, Лц—1гЯа)т] + Лп = 0. (4.12) После чего условия устойчивости принимают вид Ih > 0, — /'(0)м;#(й, 0) > 0, AQI' (S2)Af^(Q, 0) + 7й(Г—>0 и существенно отличаются от того, что получил Максвелл. Первое условие выполняется, если /г>0, т. е. наличие вязкого тре- ния необходимо для устойчивости регулирования. Второе условие выполняется, поскольку Л1дв. (Q, 0)<О. Основным является третье условие. Перепишем его в другом виде, используя выражение (4.4) для дифференциальной неравномерности. У Вышнеградского оно имеет вид Г(0)—4-/" (9) й2 dQ 2 dM„~ й/'(е)Мд#(й, 9) • Тогда третье условие запишется так:
174 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Вот к такому условию устойчивости пришел Вышнеградский. Из усло- вия (4.13) следует, что для устойчивости регулирования необходимо, чтобы дифференциальная неравномерность была не равна нулю, при- чем dQ/dM„ должна быть отрицательная, т. е. равновесная скорость машины должна уменьшаться с увеличением нагрузки. Вышнеградский дал условиям устойчивости Jhk Л V////////////////////7 наглядную геометрическую интерпретацию в плоскости параметров IdQ/dMJ и IhlA, плоскости параметров |dQ/dMH| и IhlA, построив знаменитую диаграмму Выш- неградского (рис. 4.51). Над гиперболой, уравнение которой определяется гра- ницей неравенства (4.13), расположены параметры, где неравенство (4.13) вы- полняется. Это область устойчивости. Чтобы регулятор управлял вращением вала паровой машины, надо, чтобы па- раметры регулятора были выбраны из области устойчивости. В соответствии с этим чем меньшую дифференциальную устойчивости Рис. 4.51 неравномерность регулирования мы хо- тим получить, тем большее трение в регуляторе должен обеспечивать катаракт. Окончательные выводы Вышнеградский сформулировал в виде знаменитых тезисов. 1. «Регулятор, не снабженный катарактом, какова бы ни была при этом его конструкция, не может хорошо работать...» 2. «Изохронный регулятор не сможет хорошо работать, даже если он снабжен катарактом, сколь бы эффективным он ни был...» Изохрон- ный регулятор — это регулятор без неравномерности, тот самый, ко- торый предлагал Максвелл. Итак, Максвелл и Вышнеградский получили диаметрально проти- воположные выводы. Максвелл сказал, что можно построить идеаль- ный регулятор, и дал для этого рекомендации. Вышнеградский же сказал, что нет регулятора без дифференциальной неравномерности, нет идеального регулятора. Кто же прав? Ведь оба они не сделали ни- каких ошибок. Рассудила сама жизнь. В то время, безусловно, был прав Вышнеградский. Его исследование было направлено целиком на решение кризисной ситуации, которая возникла в регуляторострое- нии. Он объяснил, почему с увеличением мощности машин и улучше- нием конструкций регуляторов (в частности, увеличением чувствитель- ности) нарушалась их работа, и дал конкретные рекомендации, как надо выбирать параметры, чтобы регулирование было устойчи- вым. Регуляторы, которые строили бы по рекомендации Максвелла, не могли бы работать, потому что при их тогдашней конструкции невоз- можно было обеспечить выполнение условий устойчивости. Но лет через 20—30 стало ясно, что и Максвелл был прав. Его идея идеального регулятора была совершенно верна, но нужно было конструктивное изменение регулятора, при котором условия устойчивости стали бы
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 175 реализуемыми. Такой конструктивный элемент был изобретен и был назван изодромом. Таким образом, история рассудила так: применительно к системам регулирования, которые были в те времена, прав был Вышнеградский, а Максвелл был неправ. Вышнеградский дал практические указания, как надо конструировать регуляторы. И.поэтому результаты его ис- следований прочно вошли в инженерную практику. Но с точки зрения перспективы развития регуляторостроения был прав и Максвелл, и даже более прав, чем Вышнеградский, потому что осветил дальнейший путь регуляторостроения, ориентировал его на «синюю птицу». Детальным знанием истории возникновения теории автоматического регулирования и тем, что забытые работы Максвелла и Вышнеградско- го вновь увидели свет, мы обязаны усилиям А. А. Андронова и И. Н. Вознесенского, которые провели анализ многих работ того вре- мени, выделили среди них наиболее важные исследования и издали их в серии «Классики науки», снабдив их подробными комментариями, написанными с точки зрения современного состояния теории. Скру- пулезный анализ работ на эту тему позволил им «из многих сотен уче- ных и инженеров, работавших в XIX веке над вопросом теории регу- лирования машин...» выделить троих: Максвелла, Вышнеградского и Стодолу, заложивших фундамент науки, которая сейчас называется теорией автоматического регулирования. Чтобы завершить рассказ о начале теории автоматического регули- рования, пожалуй, следует еще сказать, что же такое изодром и каким образом с помощью этого устройства удалось преодолеть противоре- чие, которое так четко выражено в знаменитой диаграмме Вышнеград- ского (рис. 4.51), между стремлением уменьшить неравномерность регулирования и обеспечить его устойчивость. Появление изодрома — это не научное открытие, оно возникло не в результате теоретического исследования. Это было инженерное изо- бретение, подготовленное естественным ходом событий. Следующим шагом этого естественного хода событий был переход от систем прямого регулирования, в которых совмещены функции измерителя и исполнительного устройства, к системам непрямого ре- гулирования, в которых эти функции были разделены. Системы не- прямого регулирования возникли в связи с тем, что для перемещения дроссельной заслонки стало не хватать усилий, развиваемых центро- бежным регулятором угловой скорости вращения. Нужен был усили- тель мощности. Он появился в виде гидравлического сервомотора. Муфта центробежного измерителя скорости перемещала легкий поршень золотника сервомотора, а поршень сервомотора двигался под действием жидкости, поступающей в него под большим давлением через золотник (рис. 4.52). Такая система сама по себе неустойчива. Для придания ей устойчивости необходимо вовремя сдерживать дви- жение поршня, быстрее чем это происходит в результате изменения скорости вращения паровой машины. Этого достигли с помощью обрат-
176 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ной связи, возвращающей поршень золотника обратно, непосредствен- но вслед за перемещением дроссельной заслонки (рис. 4.53). При этом процесс регулирования выглядел следующим образом. Пусть возросла нагрузка Л4Н. Это вызвало падение скорости вращения <р. Уменьшение скорости вращения вызвало опускание т] муфты центробежного из- мерителя и перемещение поршня золотника, в результате которого поршень сервомотора начал увеличивать подачу пара и одновременно, перемещая точку А вверх, возвращать золотник в исходное положе- ние. Этот процесс заканчивался новым равновесным состоянием, в ко- тором скорость вращения уже была несколько иной. Причину того, что в новом равновесном положении скорость оказалась другой, мож- но было видеть в том, что точка А занимала другое положение и, следо- вательно, для отключения золотника, т. е. возврата его в исходное положение, необходимо и новое положение муфты регулятора. В со- ответствии с этим рассуждением, для того чтобы скорость вращения паровой машины вернулась к прежнему значению, нужно, чтобы
§4. МАКСВЕЛЛ И ВЫШНЕГРАДСКИЙ О РЕГУЛЯТОРАХ 177 в прежнее положение вернулась точка А, после того как ее поднял кверху поршень сервомотора. Этого можно достичь, если соединить поршень сервомотора с точкой О стержнем переменной длины, ме- няющейся так, чтобы вернуть точку А в исходное положение. Именно это и делала изодромпая обратная связь, которая представляла собой стержень, способный сравнительно медленно менять под влиянием растягивающего или сжимающего усилия свою длину, и пружину, которая возвращала на прежнее место точку А (рис. 4.54). Все это, конечно, наглядные и недостаточно обоснованные сообра- жения. Но они могут быть уточнены. Как и в случае рассмотренной системы прямого регулирования, можно построить математическую модель в виде динамической системы, описываемой дифференциаль- ными уравнениями, исследовать зависимость ее положения равновесия от нагрузки Л1И и указать условия устойчивости. При этом оказывает- ся, что равновесная угловая скорость вращения <р не зависит от нагруз- ки Мн и что параметры изодромного регулятора можно выбрать так, чтобы состояние равновесия было устойчивым. Диаграмма, аналогич- ная построенной Вышнеградским, для этой более сложной системы была найдена значительно позднее, уже в середине XX века. Изодром был инженерным изобретением. Естествен вопрос: а мог бы он быть открыт с помощью теоретического исследования? На этот во- прос, пожалуй, следует ответить так: тогда — нет, сейчас — да. Дело в том, что и Максвелл, и Вышнеградский (да и все исследователи того времени) исходили из определенной конструкции регулятора, и хотя они пришли к несколько разным математическим моделям (4.11) и (4.12) и связали с ними новые конструктивные элементы (измеритель с бесконечной чувствительностью у Максвелла и катаракт у Вышне- градского), идея об общем виде математической модели регулятора и о том, каким должен быть в ней оператор, осуществляющий обратную связь, еще не созрела. Это произошло значительно позднее.
Я 78 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ § 5. Системы гироскопической стабилизации Гироскоп (рис. 4.55) — это осесимметричное твердое тело, быстро вращающееся вокруг своей оси симметрии, называемой обычно осью собственного вращения. Быстрое вращение наделяет его удивительным свойством активно сопротивляться действию моментов внешних сил. Широко известна иллюстрация этого свойства гироскопа с помощью обыкновенного детского волчка. Нераскрученный и поставленный на ун конец оси, он падает под действием силы тяжести. Z Если же его быстро раскрутить, то он не падает, х. т а спокойно балансирует на конце оси. Объясняет- ся это свойство возникновением момента инерцион- ных сил> называемого гироскопическим, противо- действующего внешним моментам. Количественной \ \ / х, характеристикой сопротивляемости гироскопа внеш- ним моментам является кинетический момент //= = CQ, ГДе С— момент инерции гироскопа относи- /у тельно оси собственного вращения, Q — угловая /' скорость собственного вращения. Чем больше Н, тем Рис. 4.55 больший гироскопический момент он развивает. Поэтому в устройствах, использующих стабилизи- рующие свойства гироскопа, его обычно выполняют в виде массивного плоского диска, называемого ротором гироскопа. Угловая скорость Q собственного вращения ротора поддерживается постоянной специаль- ными моторами. Замечательные свойства гироскопа были известны давно. Однако использовать их на практике стали лишь в конце XIX века, после зна- менитых опытов Л. Фуко, результаты которых были изложены в док- ладах Парижской академии наук. Гироскопы стали основой ряда тех- нических устройств, в частности навигационных приборов — гиро- компасов, гировертикалей и тому подобных приборов для определения местонахождения на Земле движущихся объектов. Непосредственное использование стабилизирующих свойств гироскопа было впервые осуществлено лишь в начале XX века для успокоения качки морских судов. С этой целью применялись огромные гироскопы с диаметром ротора до нескольких метров, которые устанавливались в трюме суд- на. Чуть позже гироскопы предполагалось использовать для обеспе- чения устойчивости вагонов однорельсовой железной дороги, идея создания которой была в то время очень популярна.-Но для стабили- зации крупных объектов нужны были гироскопы, способные развивать большие гироскопические моменты. Поэтому нужны были массивные, хорошо сбалансированные, быстро вращающиеся роторы. В техни- ческом плане эта задача была очень сложной и, казалось бы, ограничи- вала возможности стабилизации с помощью гироскопов. Но в 1924 г. инженер С. А. Ноздровский предложил принцип силовой гироскопиче- ской стабилизации, где стабилизирующие свойства гироскопа сочета- лись с возможностями принципа обратной связи. Предложенная им
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 17» система стабилизации была, по существу, системой автоматического ре- гулирования. В ней гироскоп служил не только для непосредственной стабилизации объекта, но и был чувствительным элементом управляю- щей системы, позволяющей за счет внешних источников энергии раз- вивать моменты, достаточные для стабилизации крупных объектов. Такая идея композиции непосредственной гироскопической стабили- зации и автоматического регулирования оказалась столь плодотворной, что силовые гироскопические стабилизаторы позже нашли очень ши- рокое и разнообразное применение. Рассмотрим детальнее одноосный силовой гироскопический стаби- лизатор, предназначенный для стабилизации положения объекта от- носительно некоторой оси. Схематически он изображен на рис. 4.56. Его основу составляет гироскоп, закрепленный в так называемом кар- дановом подвесе. Карданов подвес состоит из двух рамок, внешней и внутренней. Внутренняя рамка может поворачиваться вокруг оси т), опоры которой закреплены во внешней рамке. Внешняя рамка может вращаться вокруг оси £ в опорах, закрепленных в некотором основа- нии, которым может быть судно, самолет, космический корабль и т. д. Оси | и т] подвеса взаимно перпендикулярны. Ось собственного вра- щения закреплена в опорах во внутренней рамке и перпендикулярна оси т]. Обычно внутренней рамкой является кожух, в котором нахо- дится ротор гироскопа. Объект, положение которого надлежит ста- билизировать, либо служит внешней рамкой подвеса гироскопа, либо жестко с ней соединен. Будем в дальнейшем называть внешнюю рамку подвеса гироскопа рамой гиростабилизатора. Объект вместе с рамой может поворачиваться вокруг оси |. Гиростабилизатору надлежит ста- билизировать положение объекта относительно этой оси. Поэтому ось £ называют осью стабилизации.
380 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ При действии на объект внешних моментов, направленных по оси •стабилизации, кожух с гироскопом начинает поворачиваться вокруг оси т]. Это движение называется прецессией, и поэтому ось т] называют осью прецессии. Прецессия происходит в направлении совмещения (по кратчайшему пути) вектора собственного кинетического момента гиро- скопа с направлением вектора внешнего мо- мента. При этом возникает гироскопический момент, приложенный к раме и направленный против внешнего момента. Так происходит непосредственная гироскопическая стабилиза- ция. Если обозначить угол поворота гироста- билизатора вокруг оси стабилизации через а, а угол поворота гироскопа с кожухом вокруг оси прецессии через 0, то динамические свя- зи при непосредственной гироскопической схематически изобразить, как показано на стабилизации можно рис. 4.57. Внешний момент Л4В вызывает поворот рамы с угловой скоростью а, что приводит к появлению угловой скорости р прецессии гироскопа с кожухом и гироскопического момента А4Г, стабилизирующего дви- жение рамы. Наличие цикла свидетельствует о том, что здесь реализо- ван принцип обратной связи. Он реализован самим гироскопом за счет свойств, которыми его наделила природа. Гироскоп в этом контуре обратной связи исполняет роль чувствительного элемента и исполни- тельного устройства. Контур обратной связи, предложенный С. А. Ноздровским (рис. 4.56), реализуется управляющей системой, состоящей из датчика угла поворота гироскопа вокруг оси прецессии, усилителя и испол- нительного устройства. В зависимости от угла (3 поворота гироскопа вокруг оси прецессии управляющее устройство вырабатывает команд- ный сигнал исполнительному устройству, развивающему момент от- носительно оси стабилизации, противодействующий моменту внешних сил. В этом контуре гироскоп выполняет роль только чувствительного элемента. Будем изучать собственные движения одноосного гиростабилиза- тора, установленного на неподвижном основании. Тогда объект с ра- мой, гироскоп и управляющую систему можно рассматривать как одну изолированную динамическую систему, ввести для нее состояние, за- писать оператор и изучать изменение состояния в фазовом простран- стве. В зависимости от предположений и уровня идеализаций можно построить различные математические модели одноосного гиростабили- затора. Сначала введем два предположения, влияющие на выбор фа- зовых переменных. Первое— будем считать, что ротор гироскопа вра- щается вокруг собственной оси вращения с постоянной угловой ско- ростью Q, поддерживаемой специальным мотором. Второе — будем
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 181 рассматривать гиростабилизатор, у которого постоянные времени управляющей системы малы по сравнению с характерными временами угловых колебаний объекта с рамой и гироскопа. При таком предполо- жении динамические процессы в управляющей системе происходят значительно быстрее угловых колебаний. Если в каждый момент вре- мени положение объекта с рамой и гироскопа описать углами a, р и <р, где <р — угол поворота ротора гироскопа относительно кожуха, то введенное предположение позволяет разделить движения гиростабили- затора на медленные изменения углов а, р, <р и быстрые изменения переменных управляющей системы. Это разделение фазовых переменных на быстро и медленно меняющиеся аналогично тому, что было в задаче об автоколебаниях генератора с неоновой лампочкой, рассмотренной в § 2 гл. 3. В случае гиростабили- затора с малыми постоянными вре- мени управляющей системы мед- ленные изменения углов а, Р и <р оказываются устойчивыми по от- ношению к быстрым процессам в управляющей системе. Поэтому мо- жно пренебречь быстрыми процес- сами и изучать только медленные движения объекта с рамой и гиро- скопа. Для составления уравнений дви- жения гиростабилизатора восполь- зуемся формализмом Лагранжа. Л(Р) — приведенный момент инерции объекта и всех подвижных ча- стей гиростабилизатора относительно оси стабилизации, В — момент инерции гироскопа с кожухом относительно оси прецессии, С — момент инерции ротора относительно оси его собственного вращения. Зависи- мость А от Р объясняется тем, что при повороте гироскопа с кожухом вокруг оси прецессии изменяется их положение относительно оси ста- билизации. Будем отсчитывать угол Р от положительного направления оси перпендикулярной плоскости рамы (рис. 4.58). Тогда Л(Р) является четной функцией от р. Угловая скорость поворота гиростабилизатора вокруг оси стаби- лизации— а. Угловая скорость поворота гироскопа с кожухом вокруг оси прецессии — р. Угловая скорость Q ротора относительно оси соб- ственного вращения складывается из угловой скорости <р ротора отно- сительно кожуха гироскопа и проекции угловой скорости а на ось собственного вращения (рис. 4.58) и равна Q=<p—asinp. Запишем выражение для кинетической энергии системы 7’=|л(р)а2 + |вр2 + |С((р-аз1пР)2 (5.1)
182 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ и в соответствии с ним уравнения Лагранжа второго рода -^-[Л(Р) а — С (<р —а sin0) sinP] = Ma, Bp—у Л' (P)a2-f-C(q>—asin0)cosP-a = M₽, (5.2> -^-С(ф—asinP) = M<p, где Ма, Л4р, 7ИФ — моменты внешних сил относительно оси стаби- лизации, оси прецессии и оси собственного вращения ротора соответ- ственно. В соответствии со сделанным предположением Мф=0 и С (ср—-a sin[J) = CQ = Я и const, (5.3} где Н — собственный кинетический момент гироскопа. Условие (5.3) устанавливает связь между переменными а, р и <р. Лишь две из них независимы. Пусть это будут а и р. Тогда при учете условия (5.3) уравнения (5.2) перепишутся в виде А (Р)a-f- А' (Р)ар—НcosP-P = 2Wa, Вр—1л'(Р)^-)-Ясозр.а = Л1р. (5‘4> Момент 7Иа обобщенных сил относительно оси стабилизации скла- дывается из момента Л1“р (а) сил трения в опорах оси и момента Л4у (Р), развиваемого исполнительным устройством управляющей системы. Будем считать, что стабилизируемому положению объекта отвечает значение р = 0. В этом положении отсутствует управляющий момент, т. е. А4у(0) = 0. Момент Л4р определяется только силами трения в опорах оси прецессии и Л4р = Л4?р(р). Трение в опорах осей ком- бинированное— как вязкое, так и сухое. Моменты сил вязкого тре- ния будем считать пропорциональными с коэффициентами ha и скоростям аир соответственно, а моменты сил сухого трения будем описывать кулоновской характеристикой FTp(v), где v—относи- тельная скорость трущихся поверхностей (рис. 4.59). Согласно такой модели при и 7^=0 величина момента сил сухого трения постоянна,
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 183 а его направление противоположно направлению относительной ско- рости. При и = 0 момент трения может принимать любые значения, от —F до F. Функция, описывающая кулоновскую характеристику трения, является бесконечнозначной и может быть представлена таким образом: J — F sign и при v#=0, —F<FTP<F прн ц = 0. Что касается управляющего момента, то он зависит от характеристик управляющей системы. Мы рассмотрим два типа управления: линей- ное, когда управляющий момент пропорционален углу поворота гироскопа вокруг оси прецессии, т. е. А4у(Р)=МР, причем Л4>0 определяет коэффициент усиления управляющей системы, и релейное, характеристика которого изображена на рис. 4.60; здесь М — мак- симальное значение управляющего момента, 2£о — величина зоны нечу вствительности. Задача исследования уравнений (5.4) необычайно сложна. Поэтому мы упростим их, поступая так же, как в задаче регулирования угловой скорости паровой машины в предыдущем параграфе. Будем рассмат- ривать малые отклонения гиростабилизатора от стабилизируемого по- ложения, т. е. будем предполагать, что Р и а малы. Тогда, линеари- зуя левую часть уравнений (5.4) в окрестности значений Р=0 и а=0, получим Xi-/7p + <p(a)H-My(P)=0, 55 Вр + Яа+М|р(0) =0, ' где А — момент инерции гиростабилизатора относительно оси стаби- лизации при Р=0. Таким образом, мы получили линеаризованные уравнения соб- ственных движений одноосного гиростабилизатора при учете сил сухо- го и вязкого трения в опорах осей. Не останавливаясь на деталях ис- следования уравнений (5.5), будем интересоваться общим видом фазо- вого портрета собственных движений гиростабилизатора, его структур- ными особенностями и физической интерпретацией. Прежде всего заметим, 'что а в уравнения (5.5) не входит, а следо- вательно, за состояние динамической системы можно взять а, Р и р. Кроме этого, можно уменьшить число параметров, выделив существен- ные. Для этого введем новое время и произведем замену переменных: T = -^L=t, u=V~a~, У=/вр. Введем обозначения для параметров: - _ Н _ h _ hfj K = V^' Па~~^А' П?==Тв’ La=-^~, 1^=-Ц=, т = Мг^, Д = /вро. А,2 А р в W^AB
184 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Производную по новому времени т будем, как и прежде, обозначать точкой. Тогда уравнения (5.5) в новых переменных запишутся так: й = w—паи + mg (v)—Laf (и), v — w, (5.6) w = — и—n^w—Ltf (w). Смысл переменных и и и очевиден: и ~ а и v Параметры па и характеризуют моменты сил вязкого трения в опорах осей, a La и Lp пропорциональны максимальным значениям моментов сил сухого- трения. Параметр т пропорционален коэффициенту усиления управ- ляющей системы. Функция f(x) определяется условиями: f(x) = signr при х#=0 и —1 «Сf (0)«С 1 при х = 0. Функция g(v) определяется так: g(v') = v при линейном управлении и g(v) = —1 при v <—А, 0 при —А < v < А, 1 при v > А при релейном управлении. Первой рассмотрим математическую модель гиростабилизатора с линейным управлением в двух частных случаях, когда сухое трение учитывается либо только в оси прецессии, либо только в оси стабили- зации. Кроме того, будем считать, что вязкое трение в опорах оси пре- цессии отсутствует, т. е. в уравнениях (5.6) положим пр равным нулю. Начнем с частного случая, когда сухое трение учитывается только в оси прецессии. Полагая в (5.6) La=0 и опуская индексы у парамет- ров, запишем уравнения рассматриваемой модели в виде u = w—nu-j-mv, v — w, w = — u—Lf(w), (5.7) где у Lp опущен индекс. Параметры п, т и L положительны. Лишь два из них существенны: п и т, так как L можно удалить из уравнений заменой переменных u = Lu, v = Lv, w — Lw. За фазовые переменные выберем и, v и w. Фазовое пространство, обозначим его буквой R, трехмерное. Его общий вид показан на рис. 4.61. Особенность уравнений (5.4) состоит в том, что при ау>0 и w<0 они являются линейными дифференциальными уравнениями с по- стоянными коэффициентами. В соответствии с этим пространство R разделяется плоскостью да=0 на два полупространства R+(w>0) и R_(w<.0), в каждом из которых движение фазовой точки легко опреде- ляется интегрированием уравнений (5.7). Кроме того, в силу ин- вариантности уравнений (5.7) относительно замены и, v, w на —и, —v и —w фазовые траектории симметричны относительно начала ко- ординат — точки и=0, и=0, ау=О. Этот факт упрощает исследование
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 185 фазового портрета, позволяя ограничиться рассмотрением фазовых траекторий в одном из полупространств, скажем, /?+. Полупространства R+ и R_ примыкают друг к другу по плоскости а»=0. Как ведут себя фазовые траектории на ней? Из уравнений (5.4) при и=0, п=0 и to=0 следует, что в плоскости ш=0 есть целый отрезок OiO2 (пи—mv=0, —L^us^L) состояний равновесия. Что будет в дру- гих точках плоскости ау=О, уравнения (5.7) не определяют из-за раз- рывности и неоднозначности функции f(w)' при ау=О. Однако можно разумно доопределить поведение фазовой точки на плоскости, если рассмотреть ход фазовых траекторий в ее окрестности и использовать свойство непрерывности изменения состояния. Как следует из (5.7) и показано на рис. 4.61, плоскость ау=О разбивается двумя прямыми Г+(и=—L) и T_(u=L), проходящими через концевые точки Oi и О2 отрезка состояний равновесия, на три области: две полуплоскости G+(u<—L) и G+(u>L), в окрестностях которых фазовые траектории подходят к плоскости о>=0 в одном полупространстве и уходят от нее в другом, и полосу G(—L<u<jL), где фазовые траектории подходят к плоскости ау=О из обоих полупространств. Такой ход фазовых тра- екторий в окрестности плоскости позволяет доопределить поведе- ние фазовой точки на ней следующим образом: в областях G+ и G_ фазовая точка переходит через плоскость о>=0 с траекторий одного полупространства на траектории другого, которые в точках плоскости сшиваются по непрерывности, в полосе G фазовая точка остается на плоскости либо в состоянии равновесия, либо совершает сколь- зящее движение по плоскости в соответствии с уравнениями (5.7), доопределенными условием ау=О, ау=О. Скользящие движения уже знакомы нам из задачи о релейном авторулевом. Но в этом случае они появляются не из-за идеализаций в математической модели, а возни-
186 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ кают в связи с разрывностью и многозначностью характеристики сухого трения и поэтому специфичны для систем с сухим трением. Уравнения скользящих движений в соответствии с*(5.7) и условия- ми и?=0, щ=0 имеют вид У = Ц)> т U =---V п 0 ГП \ -nt un-—v0}e (5-8) где u0 и и0 — начальные значения при /=0 координат фазовой точки на полосе G. Как следует из (5.8) и показано на рис. 4.61, фазовая точка, двигаясь по траектории скользящего движения, либо асимпто- тически при t-^-oo приближается к одному из состояний равновесия, а это означает, что отрезок 0i02 состоит из устойчивых состояний рав- новесия, либо за конечное время приходит на границу полосы G и затем покидает ее, входя в R+ с Г+ и в R_ с Г_. В соответствии с общим видом фазо- вого пространства фазовые траектории полупространств R+ и R_ порождают то- чечные отображения Т+ и Т_ плоскости ау = О в себя. Отображение Т+ определено для точек области G+ и преобразует их в точки области С_ и полосы скользящих движений G. В силу центральной симмет- рии фазовых траекторий отображение Т _ преобразует область G_ в С+ и G. Точки полосы скользящих движений переходят либо в точки отрезка состояний равновесия, либо в точки границ полосы, к которым применимы преобразования Т+ и Т_. Введенные преобразования плоскости ®=0 в себя позволяют в рассматриваемом случае полностью исследовать ход фазовых траекто- рий и выяснить все особенности фазового портрета. Перейдем к рассмотрению структуры фазового портрета и зависи- мости ее от существенных параметров п и т. На рис. 4.62 изображено разбиение пространства n>0, т>0 параметров на области й2, й3, которым отвечают качественно различные фазовые портреты. Прямая /1 с уравнением т—п и кривая /2, разделяющие эти области, являются бифуркационными. Для параметров из области (щ, включая прямую разбиение фа- зового пространства R на траектории полностью определяется отрез- ком 0i02 устойчивых состояний равновесия, который в этом случае является глобально устойчивым. Почти все фазовые траектории попа- дают на полосу G в область притяжения состояний равновесия. Исклю- чение составляют траектории, приходящие из R+ и R_ непосредствен- но в состояния равновесия. Когда параметры принадлежат области й2 или й3, а также кривой /2, отрезок OjO2 по-прежнему состоит из устойчивых состояний рав- новесия, но его область притяжения не совпадает со всем пространст-
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 187 вом R. Ограничение области притяжения связано с наличием в фазовом пространстве неустойчивого предельного цикла седлового типа (рис. 4.63). Характерной особенностью такого предельного цикла является то, что через него проходят две сепаратрисные поверхности S+ и S". Поверхность S+ состоит из фазовых траекторий, асимптотически при- ближающихся к предельному циклу при £->4-оо, a S-— из траекто- рий, асимптотически приближающихся к нему при/-*—оо,т. е. на по- верхности S~ фазовые траектории удаляются от предельного цикла с Рис. 4.63 возрастанием времени. Сепаратрисные поверхности отделяют (сепари- руют) области фазового пространства с различным поведением траек- торий. Так, поверхность S+ ограничивает область й притяжения сос- тояний равновесия. Траектории в ней приходят к состояниям равно- весия точно так же, как для параметров из области Вне области й фазовые траектории, вновь и вновь пересекая плоскость щ=0, уда- ляются от поверхности S+, уходя с возрастанием времени в бесконеч- ность; при этом они асимптотически приближаются к сепаратрисной поверхности S-, которая является глобально устойчивым интеграль- ным многообразием. Проследим, как изменяется фазовый портрет при переходе пара- метров из области ю2 в й3. Для этого фиксируем один из параметров, например п, а т будем увеличивать от значения т=п. При т=п отре- зок состояний равновесия глобально устойчив. При увеличении т появляется из бесконечности седловой предельный цикл, сшитый из участков траекторий полупространств /?+ и R_. Его сепаратрисная поверхность S+ ограничивает область й притяжения состояний рав- новесия. При дальнейшем увеличении т размеры предельного цикла
188 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ уменьшаются, уменьшается и область Q. Когда параметры отвечают точ- ке на кривой /2, предельный цикл проходит через края полосы G. Далее, когда параметры переходят в область со3, у предельного цикла появля- ются участки траекторий скользящих движений (рис. 4.64). Теперь он сшит из двух участков траекторий в R+ и и двух участков траек- торий скользящих движений. С увеличением т размеры предельного цикла продолжают уменьшаться, уменьшается и область Q притяже- ния отрезка состояний равновесия. Рис. 4.64 Посмотрим, как в соответствии с фазовым портретом меняются переменные состояния динамической системы и какие при этом движе- ния совершает гиростабилизатор. Начнем с состояний равновесия. В состояниях равновесия фазовые переменные не изменяются и опреде- ляются соотношениями щ = 0, —пи—mv — Q. В соответствии со смыслом фазовых переменных (и~а, ®~Р) состояниям равновесия отвечают равномерные вращения рамы гиростабилизатора при неподвижном относительно оси прецессии гиро- скопе. При этом ось гироскопа отклонена от перпендикуляра к плос- кости рамы на любой угол, при котором гироскопический момент не превосходит максимального значения момента сухого трения. Такое установившееся движение гироскопических устройств называется соб- ственной прецессией. В данном случае оно связано с наличием сухого трения в опорах оси прецессии. Теперь — скользящие движения. Для них характерна неизмен- ность v, а и изменяется в соответствии с (5.8). Гироскоп оказывается как бы «заклиненным» силами сухого трения, а рама поворачивается
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 189- в одну сторону до тех пор, пока гироскопический момент, действующий по оси прецессии, станет больше максимального значения момента сухо- го трения и освободит гироскоп. Если это происходит, то гиростабили- затор выходит из скользящего режима; если нет, то приходит к одному из установившихся движений. Фазовым траекториям, сшитым по плоскости щ=0 и переходящим из R + в R_ и обратно, отвечают колебательные движения рамы и гиро- скопа. Когда параметры п и т принадлежат области colt колебания, затухают при любых начальных состояниях. Если параметры из й2. или <»!, то затухание будет лишь при начальных состояниях из области-. Q. При других начальных состояниях колебания нарастают. Теперь рассмотрим случай, когда сухое трение учитывается только> в оси стабилизации. Согласно (5.6) и сделанным ранее предположениям уравнения собственных движений гиростабилизатора в этом случае имеют вид u = w—nu-{-tnv—Lf(u), v = w, w= — и. (5.9) Фазовые переменные — и, v и w, фазовое пространство — трехмерное. Опуская анализ, который можно провести аналогично случаю, рас- смотренному первым, дадим описание общего вида фазового простран- ства R в соответствии с его изображением на рис. 4.65. Плоскость и— =0 разбивает пространство R на два полупространства R+ и /?_, где изменение состояния описывается линейными дифференциальными уравнениями. Прямые Г+(щ + /ии—L = 0) и Г_ (tt>-f-mu-f-L = 0) разделяют плоскость и=0 на три части: области G+, G_, где фазовые- траектории переходят из одного полупространства в другое, как пока- зано на рисунке, и полосу G скользящих движений. Уравнение сколь- зящих движений йу = щ0, v — v^ + wj, (5.10)
190 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ где да» и и0 — начальные значения w и v прн Z=0. На полосе G имеется •отрезок 0х02 (гзу=О, —Lim<Zv^Lltn) состояний равновесия. Поведение фазовых траекторий зависит от двух существенных пара- метров п и т. В плоскости (п, т) им отвечает первый квадрант, где п>0 и т>0. Прямая /1(хи=п) и кривая /2 разбивают его на три области g»i, <в2 и <в3 (рис. 4.66), отвечающие качественно различным фазовым портретам. Если т^п, то отрезок состояний равновесия глобально асимптоти- чески устойчив, как и в ранее рассмотренном случае математической модели гиростабилизатора при учете сухого трения только в оси пре- цессии. Однако в характере приближения фазовых траекторий к отрез- ку состояний равновесия есть существенное отличие, связанное с тем, что в рассматриваемом случае отрезок 0i02 состоит из неустойчивых состояний равновесия, но тем не менее представляет собой притяги- вающее множество траекторий системы. В зависимости от параметров могут быть различные способы приближения фазовых траекторий к от- резку состояний равновесия, один из которых показан на рис. 4.67. Фазовые траектории, как бы наматываясь на отрезок 0i02, асимпто- тически приближаются ко всему отрезку состояний равновесия, а не к отдельным его точкам. Когда параметры переходят через прямую в область со2, в фазовом пространстве из бесконечности появляется седловой предельный цикл, •сшитый из участков траекторий в R + и R_, сепаратрисная поверх- ность S+ которого ограничивает область притяжения отрезка состоя- ний равновесия. При приближении пара- метров к кривой /2 уменьшается размер пре- дельного цикла и уменьшается область притяжения состояния равновесия. Когда параметры отвечают кривой /2, предельный цикл проходит через границу полосы G. Кроме него существует континуум замкну- тых траекторий, сшитых из траекторий в R+, R-, и траекторий скользящих движе- ний (рис. 4.68). Это фазовый портрет в би- фуркационном случае. Когда параметры переходят в область й3, все замкнутые траектории исчезают, а отрезок состоя- ний равновесия становится неустойчивым. Рассмотрим интерпретацию фазового портрета с точки зрения из- менений фазовых переменных и движений гиростабилизатора. Состоя- ниям равновесия отвечают состояния покоя гиростабилизатора, но они физически неосуществимы из-за неустойчивости. Траекториям в полосе G отвечает скользящий режим работы гиростабилизатора, при котором, в силу (5.10) и смысла фазовых переменных, рама неподвиж- на и как бы зажата силами сухого трения, а гироскоп поворачивается с постоянной скоростью вокруг оси прецессии в одну сторону. В ка- кую сторону поворачивается гироскоп — определяется знаком ау0.
§ 5. гироскопическая стабилизация 19» Скользящее движение заканчивается, когда сумма гироскопического момента, действующего по оси стабилизации, и управляющего момента становится равной максимальному значению момента сухого трения. Рама освобождается, и дальнейшее движение происходит в соответст- вии с изменениями фазовых переменных на траекториях полупрост- ранств 7?+ или R_. Траекториям, переходящим из R+ в R_ и обратно» Рис. 4.67 отвечают колебательные движения рамы и гироскопа. При т^п коле- бательные движения затухают при любых начальных состояниях. Ес- ли параметры принадлежат области й2, то колебательные движения затухают только для начальных состояний из области притяжения от- резка состояний равновесия. При этом они переходят в движения, фа- зовый портрет которых в частном случае изображен на рис. 4.67. За- тухающие колебания рамы в этом случае чередуются с зонами застоя» а гироскоп колеблется около перпендикуляра к плоскости рамы, при- чем размах колебаний стремится к удвоенному значению отклонения»
192 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ при котором управляющий момент равен максимальному значению момента сухого трения. Если начальное состояние находится вне об- ласти притяжения отрезка состояний равновесия, то колебания рамы и гироскопа неограниченно нарастают. Для параметров из области со3 колебанияАнеограниченно нарастают при любых начальных состоя- ниях. Рассмотренный фазовый портрет собственных движений одноос- ного гиростабилизатора с учетом вязкого и сухого трения в оси стаби- лизации имеет отношение к задаче Вышнеградского о сходимости про- цесса прямого регулирования. Впервые эта задача при учете вязкого и сухого трения в регуляторе была поставлена И. А. Вышнеградским и им же решена в линейном случае отсутствия сухого трения. Он увидел связь сходимости процесса регулирования с устойчивостью состояния равновесия системы «машина — регулятор» и построил знаменитую диаграмму (рис. 4.51), выделяющую в плоскости существенных пара- метров А и В (впоследствии их стали называть параметрами Вышне- градского) области сходимости и расходимости процесса регулирова- ния. Параметр А пропорционален дифференциальной неравномерности системы «машина—регулятор», а В — коэффициенту вязкого трения. Кроме того, Вышнеградский дал практические рекомендации кон- струирования регуляторов в виде знаменитых тезисов, один из кото- рых о том, что без катаракта (специального устройства, создающего вязкое трение) невозможно регулирование, вызвал ожесточенные споры и впоследствии даже дал повод говорить об «ошибке Вышнеградского», якобы отрицавшего роль сухого трения в обеспечении сходимости про- цесса регулирования. На самом деле у Вышнеградского ошибки не было. Это выяснили А. А. Андронов и Й. Н. Вознесенский. В истори- ко-научном исследовании возникновения теории автоматического ре- гулирования они показали, что И. А. Вышнеградский отчетливо по- нимал роль сухого трения в обеспечении сходимости процесса регули- рования, но считал его вредным фактором, с которым надо неукосни- тельно бороться, так как сухое трение приводит к появлению у регуля- тора зон застоя и снижению из-за этого его чувствительности. Именно поэтому и возник тезис о катаракте. Тем не менее в конце прошлого века и начале нынешнего появилось множество работ с исследованиями влияния сухого трения в регуляторе на сходимость процесса регули- рования. Рассматривался как частный случай учета только сухого трения, так и общий в постановке И. А. Вышнеградского. Ученые раз- ных стран занимались этой важной для теории регулирования зада- чей. Было получено много частных результатов. Но в общей постановке она оставалась нерешенной более 50 лет. И лишь в 1945 г. впервые были опубликованы результаты полного исследования задачи Вышне- градского, выполненного А. А. Андроновым и А. Г. Майером. Вернемся к выяснению того, как связан фазовый портрет гироста- билизатора со знаменитой задачей Выщнеградского. Если учесть су- хое трение в регуляторе, то уравнения динамики системы прямого ре- гулирования угловой скорости машины в постановке Вышнеградского
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 193 в соответствии с (4.12) примут вид /< = Л4е-П, Cn-m + (V'—(5.11) где и т] — отклонения угловой скорости машины и угла отклонения шаров центробежного регулятора от их равновесного значения Q и 0, L/(t]) — момент сухого кулоновского трения, функция f (ц)=sign ц при т]#=0 и —1 <С/(О)<С1 при т]=0, L — максимальное значение момен- та сухого трения. 1/ 1'Q I Ml I Введем новое время т=Х/, где X — у ---, новые пере- менные О.2 1'0 t *=—п, у=—1 и обозначим производную по новому времени точкой, тогда уравнения (5.11) перепишутся в виде x = z, у =— х, г — — Ах-\-у—Вг—f(2). (5.12) Знак минус во втором уравнении получается потому, что Al^CO при правильно включенном регуляторе. Постоянные д = (V—1/"Q2) /сх2, B=hic\ являются параметрами Вышнеградского. По физическому смыслу па- раметр В — неотрицательный, В2>0. Параметр А связан с дифферен- циальной неравномерностью системы «машина — регулятор». Чтобы увидеть эту связь, преобразуем А с помощью (4.5) к виду Л = —-^-П. Таким образом, мы привели уравнения (5.11) к виду (5.12). Именно в таком виде рассматривали задачу Вышнеградского А. А. Андронов и А. Г. Майер. Перейдем к описанию фазового портрета системы (5.12) и зависи- мости его от параметров. Поэтому вместе с фазовым пространством пе- ременных х, у, г будем рассматривать полуплоскость парамет- ров А и В. Фазовое пространство — трехмерное. Плоскость г=0 раз- деляет его на два полупространства г>0 и z<0, в каждом из которых движение фазовой точки описывается линейными дифференциальными уравнениями с постоянными коэффициентами. В плоскости z=0 сты- ковки полупространства z>0 и г<0 имеется полоса G скользящих движений —1 г;' у—1, в которой движение фазовой точки описывается уравнениями х = 0, у——х.
194 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ В полосе скользящих движений расположен отрезок 0г02 состояний равновесия, уравнение которого х = 0, —1 1. В соответствии со смыслом фазовых переменных точкам отрезка состояний равновесия отвечают различные неизменные значения ско- рости машины при одном и том же положении регулирующего органа (муфты в случае центробежного регулятора Уатта). Движению фазовой точки в полосе скользящих движений соответствует равномерное уве- личение скорости машины при неизменном положении муфты регуля- тора. Регулятор не реагирует на изменения скорости машины. Это происходит из-за сухого трения, которое как бы заклинивает муфту, вызывая застои регулятора. Выход регулятора из зоны застоя проис- д ходит, когда фазовая точка, достигнув 1 границы полосы скользящих движений, Ц покидает ее, уходя в полупространства \\ г>0 или z<0. \\ Поведение фазовой точки на плоское- 2 ’ \\ ти г=0, вне полосы скользящих движе- \ у ний, доопределяется по непрерывности. 1 \ Здесь фазовые траектории, сшиваясь по \ непрерывности, пересекают плоскость э5 2=6, переходя из одного полупростран- •—-----р4----£---------ства в другое. На рис. 4.69 изображен рис 4 70 общий вид фазового пространства. Перейдем к описанию фазового портрета и его зависимости от пара- метров. В полуплоскости В О параметров А и В кривые .2\ и выделяют области <&2 и (рис. 4.70), соответствующие качественно различным разбиениям фазового пространства на траек- тории. Параметрам из области &)х отвечают глобально устойчивые
§ 5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 195 системы прямого регулирования. В этом случае отрезок состояний равновесия глобально асимптотически устойчив, т. е. его областью притяжения является все фазовое пространство. Процесс регулиро- вания сходится при любых начальных состояниях. Кривая огра- ничивающая область ^)х, имеет уравнение ДВ = 1. Это знаменитая гипербола в диаграмме Вышнеградского (рис. 4.51). Области @)3, ограниченной кривой =2% и частью оси В = 0, отвечают неустойчи- вые системы. В этом случае поведение фазовых траекторий опреде- ляется неустойчивым отрезком состояний равновесия. Процесс регу- лирования расходится для любых начальных состояний. Область ,®2 соответствует условно устойчивым системам. Отрезок состояний рав- новесия в этом случае устойчив, но его областью притяжения яв- ляется только часть фазового пространства, ограниченная S+—сепа- ратрисными поверхностями седлового предельного цикла. При всяких начальных состояниях из области притяжения отрезка состояний равновесия процесс регулирования сходится; при других—расхо- дится. Область З)3 условно устойчивых систем является тем новым, что привнес в диаграмму Вышнеградского учет сухого трения в регулято- ре. Сухое трение увеличивает область сходимости процесса регулиро- вания и даже обеспечивает сходимость при отсутствии вязкого трения катаракта. На рис. 4.70 области сходимости процесса регулирования при отсутствии катаракта отвечает часть оси А правее точки пересе- чения ее с кривой Теперь сравним общий вид фазового пространства на рис. 4.69 и описание фазового портрета задачи Вышнеградского с общим видом фазового пространства на рис. 4.65 и описанием фазового портрета собственных движений гиростабилизатора. С удивлением замечаем, что они качественно одинаковы. Это говорит о том, что динамические процессы в них протекают одинаково, подчиняясь одним и тем же за- кономерностям, а также о том, что фазовый портрет является адекват- ным их описанием. Это наталкивает на мысль о том, что должны су- ществовать преобразования, переводящие одну задачу в другую. И дей- ствительно, такое преобразование есть. Если сделать замену перемен- ных x=—y/mw, У = у tn2v, z = u и параметров Д = (т)-2'/з, В = п то уравнения (5.9) перейдут в уравнения (5.12), а диаграмма, изобра- женная на рис. 4.66, в диаграмму задачи Вышнеградского. Этот пример поучителен тем, что наглядно показывает, что разные системы с разными физическими смыслами фазовых переменных и параметров могут иметь одинаковые фазовые портреты и, следователь- но, обладать в этом смысле одинаковыми свойствами и динамическим поведением.
196 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Следующей рассмотрим математическую модель собственных коле- баний одноосного гиростабилизатора с релейным управлением. Такой закон управления довольно распространен в различных системах и, в частности, в гироскопии. Дело в том, что он позволяет даже при малых командных сигналах получать максимальные управляющие воздей- ствия. Модель, которую мы рассмотрим, описывается уравнением (5.6). Мы рассмотрим ее вариант, когда из сил трения учитывается лишь сухое трение в оси прецессии, т. е. на=пр = 0 и La—Q, и от- сутствует зона нечувствительности в управляющем устройстве, т. е. Д = 0. Тогда после замены переменных u — L^u', v = L$v', w = L$wr и параметра m = L$m' с последующим опусканием штрихов урав- нения (5.6) перепишутся следующим образом: u = w4-mg (v), v = w, Wes— u—fjw), (5.13) где g(v)=sign v и f(w)=sign w при w^=0, — 1^/(0)^1, а параметр m пропорционален отношению максимального значения управляющего момента к максимальному значению момента сил сухого трения. За фазовые выбираем переменные u, v, w. Фазовое пространство R — трехмерное. Разбиение его на траектории для различных значе- ний параметра т приведено на рис. 4.71, 4.72. На плоскости w=0 расположена полоса скользящих движений. Уравнения скользящих движений получаются из (5.8) при доопределении их условиями w=0, ау=0 и имеют вид и=и0 и п=п0+т/, где и0, и0—начальные значения и, v на полосе скользящих движений. Знак плюс берется при v0>Q, знак минус — при о»<0. Скользящим движениям отвечает режим работы гиростабилизатора, когда гироскоп неподвижен, а рама поворачивает-
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 197 ся вокруг оси стабилизации с постоянным ускорением т в одну сто- рону при v0>0 или в другую при vo<0. На полосе скользящих движений расположен отрезок 0±02 состояний равновесия. Состояниям равнове- сия соответствуют равномерные вращения рамы стабилизатора^при неподвижном относительно оси прецессии гироскопе. При т=0,78 в фазовом пространстве существует единственный гло- бально устойчивый симметричный относительно начала координат пре- дельный цикл Г (рис. 4.71). Предельный цикл состоит из двух участков траекторий полупространств ш>0 и w<0 и двух участков скользящего движения. Областью притяжения предельного цикла является все фа- зовое пространство; при этом отрезок состояний равновесия неустой- чив. Фазовые траектории, начинающиеся в любой конечной части фа- зового пространства, например, при и>0, образуют как бы обмотку скручивающихся цилиндрических поверхностей и идут к плоскости п=0. После первого пересечения плоскости и=0 они вновь и вновь ее пересекают, асимптотически приближаясь к предельному циклу. При увеличении т уменьшаются участки скользящих движений предельного цикла, а его размеры увеличиваются. Когда т=т*, участки скользящих движений исчезают, и предельный цикл проходит через границы полосы скользящих движений. При дальнейшем уве- личении т вплоть до единицы размеры предельного цикла увеличи- ваются, и при т=1 он уходит в бесконечность. При т>1 все фазовые траектории, вновь и вновь пересекая плоскость и=0, уходят в беско- нечность (рис. 4.72). Какие же движения гиростабилизатора отвечают рассмотренным фазовым портретам? При т<1 у системы есть единственное установив- шееся движение. Им является автоколебание, отвечающее устойчиво- му предельному циклу. Автоколебание устанавливается при любых начальных состояниях. Характер изменения состояния при автоколе- бании зависит от параметра т. Если т</п*, то автоколебание содер- жит участки скользящих движений. Зависимости и и v от времени для
198 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ этого случая изображены на рис. 4.73, а. Прямолинейные участки на графике u(t) и v(t) соответствуют скользящим движениям, период ав- токолебаний больше периода нутационных колебаний свободной гиро- скопической системы и при т^-1 стремится к нему. Когда Рис. 4.73 то скользящих движений нет; изменение и и и от времени показано на рис. 4.73, б. Если m^l, то движения гиростабилизатора представляют собой колебания рамы и гироскопа со все увеличивающимися раз- махами. Последней рассмотрим математическую модель одноосного гиро- стабилизатора с релейным управлением, но при учете только сил сухого трения в опорах оси стабилизации, т. е. па —п.^ =0, Ер =0. В этом случае система (5.6) после замены переменных u = Lau', v = Lav', w = Law' и параметра tn = Latn' и опускания штрихов запишется так: й = w + mg (v)~ f(u), v = w, w = — u, (5.14) где /(u)=signu при u=^0 и —1</(0)<1, функция g(v) определяет- ся выражением ( —1 при v < —А, g (у) = 0 при — А < v < А, + 1 при v > А. Параметр т равен отношению максимального значения управляющего момента к максимальному значению момента сил сухого трения, а па- раметр А характеризует зону нечувствительности управляющей сис- темы. Сначала будем считать А=0. Фазовый портрет системы зависит от одного параметра т. Когда т<1, система имеет целую прямую состоя- ний равновесия (рис. 4.74). На плоскости имеются две полуполосы скользящих движений (т—1) ^u)^(/n+l), v<0 и (—т—(—т+ 1), v>0. Траектории на них определяются из (5.14) при условии ы=0, и=0 и имеют вид w=w0, v=vB+wBt, где vB, wB — начальные значения v и w в области скользящих движений при t=Q. При m<gl фазовая точ- ка за конечное время попадает в область скользящих движений на по- лосу т— 1^Си> —т+1 и далее движется по траекториям скользя- щих движений, уходя в бесконечность либо при у<0, либо при и>0, как показано на рис. 4.74.
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 199 При т=\ прямая состояний равновесия является частью границы области скользящих движений. Плоскость и—и=0 является интеграль- ной, заполненной замкнутыми траекториями — окружностями с цент- ром в начале координат. Замкнутые траектории, проходящие через точки — 2^ю^2 оси w, образуют притягивающее множество S. Фа- зовая точка из любой конечной части фазового пространства приходит Рис. 4.74 в область скользящих движений и дальше по траектории скользящих движений на замкнутую кривую множества S. Исключение составляют лишь состояния равновесия и замкнутые траектории, не принадлежа- щие S. Но они все неустойчивые. Фазовая точка, выведенная сколь угодно малым возмущением из любого такого состояния, попадает в область притяжения множества S (рис. 4.75). Таким образом, при и<1 прямая состояний равновесия притяги- вает к себе все фазовые траектории, но каждое состояние равновесия оказывается неустойчивым. Фазовая точка уходит из окрестности любого состояния равновесия. Случай т=1 является граничным би-
200 ГЛ. 4. управляемые динамические системы фуркационным, разделяющим фазовые портреты системы для и /п>1. Когда /и>1, у системы имеется лишь одно состояние равновесия в начале координат (рис. 4.76). Это состояние неустойчивое, фазовые траектории из любой конечной части фазового пространства приходят к плоскости и=0, пересекают ее и затем, пересекая ее вновь и вновь, уходят в бесконечность. А теперь дадим интерпретацию фазового портрета системы с точки зрения ее движений. Состояниям равновесия отвечают состояния по- коя гиростабилизатора, когда рама и гироскоп неподвижны. При т^1 таких состояний бесконечно много. Это связано с тем, что рама оказы- вается как бы «заклиненной» силами сухого трения, а управляющий момент мал, он меньше момента сил сухого трения, и поэтому при от- сутствии гироскопического момента не может вывести раму из состоя- ния покоя, каким бы ни было положение гироскопа. Если т>1, то состояние покоя одно — когда рама неподвижна, а' гироскоп занимает такое положение, при котором нет управляющего момента. Траекториям области скользящих движений соответствуют движе- ния гиростабилизатора, при которых рама неподвижна, а гироскоп поворачивается вокруг оси прецессии с постоянной угловой скоростью в направлении уменьшения угла прецессии. Когда угол прецессии ста- новится равным нулю, переключается реле управляющей системы, и гиростабилизатор выходит из скользящего режима. При m<Zl траек- ториям в полосе —т+1 (рис. 4.74) соответствуют движения, при которых сумма гироскопического момента и управляющего момен- та не превышает максимального значения момента сил сухого трения в опорах оси стабилизации. В этом случае рама «заклинивается» си- лами сухого трения, а гироскоп прецессирует с постоянной скоростью. Из любого начального состояния гиростабилизатор приходит к движе- ниям с «заклиненной» рамой. Если т>1, то рама и гироскоп соверша- ют колебания около среднего положения со все увеличивающимися размахами.
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 201 Таким образом, при релейном управлении гиростабилизатором су- хое трение в оси стабилизации не обеспечивает устойчивых установив- шихся режимов работы. т*1 а) т<1 А теперь посмотрим, как изменяется фазовый портрет системы, ес- ли мы учтем нечувствительность управляющей системы, Д=^0. Прежде всего отметим, что в фазовом пространстве появляется область — слой — Д^и^Д, который отвечает зоне нечувствительности управ- ляющей системы. К скользящим движениям добавляется еще одна об- ласть G: и=0, —Д^и^Д, —1<и<1, траектории в которой соответст- вуют движения с «заклиненной» рамой, но уже при отсутствии управ- ляющего момента. Вид областей скользящих движений при различных значениях параметра т приведен на рис. 4.77. Мы видим, что при структура областей скользящих дижений существенно не изменилась,
202 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ лишь появились участки движений по траекториям области G. Как и в случае Д=0, в области скользящих движений расположена пря- мая — ось v состояний равновесия. При т>\ есть существенные изменения. Здесь уже не одно состоя- ние равновесия, а целый отрезок. И это понятно, так как состояние покоя гиростабилизатора при «заклиненной» силами сухого трения раме возможно при тех положениях гироскопа, когда отсутствует управляющий момент, а он как раз и отсутствует при —Д^и^Д. Разбиение фазового пространства на траектории при т<1 по су- ществу ничем не отличается от фазового портрета системы при т<1, Д=0. Из любого начального положения фазовая точка за конечное время приходит на полосу т— /и+1 в области скользящих движений и дальше движется по траектории скользящего движения вдоль прямой состояний равновесия вправо, если w>0, или влево, если w<Q, т. е. точно так же, как при Д=0. При т=1 уже есть некоторые отличия в фазовом портрете. В фазо- вом пространстве нет интегральной поверхности, заполненной замкну- тыми траекториями. Существует лишь континуум S замкнутых траек- торий, состоящих из полуокружностей в полуплоскостях и — v=—Д при и^гД и и—о=Д при —Л. проходящих через точки и=0, и=Д, — и п=0, о=—Д, —1 1, и участков траекторий скользя- щих движений в области G (рис. 4.78). Это множество замкнутых траек- торий устойчиво. Фазовая точка, двигаясь по любой траектории, попа- дает на полосу —области скользящих движений и затем по траектории скользящего движения проходит на замкнутую траекто- рию. Исключение составляют лишь траектории, попадающие непо- средственно в состояние равновесия. Состояния равновесия неустой- чивы, так же как и в случае Д=0. Если с помощью сколь угодно мало- го возмущения вывести фазовую точку из состояния равновесия, то
§5. ГИРОСКОПИЧЕСКАЯ СТАБИЛИЗАЦИЯ 203 она по траектории скользящего движения придет на множество замкну- тых траекторий. Наиболее существенные изменения в фазовом портрете происходят при /т£>1. В этом случае отрезок состояний равновесия по-прежнему неустойчив. Но в плоскости параметров т и А появляется область, назовем ее областью С, при значениях параметров из которой в фазо- вом пространстве существует конечная замкнутая область 2 притяже- ния фазовых траекторий (рис. 4.79). Сама область 2 заполнена траек- ториями, которые ее не покидают, в частности, в области 2 находится отрезок состояний равновесия и область скользящих движений G. Рис. 4.79 Поэтому, если фазовая точка попала в область 2, то по траекториям системы покинуть ее она не может. Характерной особенностью области 2 является то, что в ней нет элементов притяжения фазовых траекто- рий. Все траектории в ней неустойчивы, и фазовая точка, двигаясь по фазовым траекториям, как бы блуждает по области 2, никогда не пов- торяя своего движения, за исключением, может быть, замкнутых тра- екторий, которые могут быть сколь угодно сложными, но обязатель- но неустойчивыми. Такие установившиеся движения называют сто- хастическими автоколебаниями. Если смотреть изменение фазового портрета при непрерывном изме- нении параметра т, то легко заметить, что область 2 образуется из множества S замкнутых траекторий при т=1. Все траектории в облас- ти 2 обязательно проходят через отрезок /: 0 оси w,n поэтому их изучение может быть сведено к исследованию точечного отображения отрезка I в себя. Если обозначить через w исходную точку, а через w точку, получающуюся после применения отображения, то функция последования w=f(w) выглядит, как показано на рис. 4.80, а. Из гра- фика функции последования видно, что последовательные итерации отображения I в себя блуждают по отрезку, не покидая его. Как интерпретируются стохастические автоколебания с точки зре- ния движения системы? Им отвечают нерегулярные колебания рамы и
204 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ гироскопа, в которых нет никакой детерминированной закономернос- ти. Они не повторяются, но все же размахи колебаний и скорости ос- таются ограниченными. Вся остальная часть фазового пространства делится на область притяжения стохастических автоколебаний и область, где движения гиростабилизатора неустойчивы, к е. где фазовые траектории уходят в бесконечность. При тех значениях параметров А, т, когда функция последования w=f(w) отображения отрезка I в себя имеет вид, показанный на рис. 4.80, б, в фазовом пространстве нет элементов притяжения фазовых траекторий, Все они, за исключением отрезка состояний равновесия, уходят в бесконечность (рис. 4.81). Фазовым траекториям в этом слу-
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 205 чае соответствуют колебания рамы и гироскопа с увеличивающимися разМахами. Итак, сухое трение в оси стабилизации может обеспечить устано- вившиеся движения в виде стохастических автоколебаний. § 6. Управляемая автоколебательная двуногая ходьба Ходьбу человека рассматривал уже Леонардо да Винчи (1452— 1519). Его интересовали условия равновесия, и он понял^ что ходьба возникает тогда, когда они нарушаются, и человек начинает падать и, чтобы не упасть, подставляет ноги и движется вперед. Такой же схе- мы ходьбы придерживался физиолог П. Бер (1833—1886) в своих из- вестных и неоднократно переиздаваемых (1882, 1891, 1897, 1904) в России лекциях по физиологии. В прошлом веке для изучения ходьбы В. Брауном и О. Фишером создавались специальные измерительные приборы. Особый интерес ходьба приобрела в последнее время в связи с проб- лемами создания шагающих автоматов. Определенный интерес к ней вызван проблемами протезирования нижних конечностей и спорта. Очень детальное изучение ходьбы человека проводил Н. А. Бернштейн. В изданной под его редакцией книге подчеркивается необычайная сложность ходьбы и высокая координированность ее движений. Действительно, ходьба очень сложна, в ее организации участвуют ноги, корпус, руки, десятки мышц. Как все это описать, как все это повторить в автомате? Нужно множество сенсорных (измерительных) систем, их данные необходимо обрабатывать и по ним принимать реше- ния о движениях. Эти движения все время должны корректироваться. Все это едва ли под силу современной ЭВМ, во всяком случае она не сможет все это сделать с требуемой быстротой или, как говорят, в ре- альном масштабе времени. Но ведь мы ходим, ходим, не задумываясь. Так что как-то мы это делаем. Можно предположить, что все происходит по отработанной за- ранее программе. В какой-то мере это, конечно, так. При ходьбе по пересеченной местности мы уже не столь свободны, наш мозг занят, и мы не очень можем отвлекаться посторонними делами. И все же прос- тота и легкость, с которой мы ходим, не может не натолкнуть на мысль, что природа нашла какие-то другие способы организации сложных движений, отличные от управления ими во всех деталях и взаимосвя- зях, от непосредственной и прямой организации всего этого гармонич- ного оркестра движений. Воспользуемся и продолжим аналогию с ор- кестром. Представьте себе, что дирижер вздумал бы в буквальном смыс- ле управлять каждым оркестрантом. Ясно, что эта безумная затея не имела бы успеха. Каждый из оркестрантов сам управляет своими дви- жениями, а дирижер лишь координирует и задает эти управления: он определяет темп игры, громкость звучания, акценты, окраску звуча- ния, иногда моменты вступления тех или иных групп инструментов, длительности пауз. Он лишь дирижер оркестра, где каждый оркест-
206 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ рант играет сам. Может быть, и отдельные элементы ходьбы так же организованы, так же локализованы отдельные функции, которые в свою очередь координируются «дирижером»? Попробуем эту общую и несколько расплывчатую идею реализовать и то, что у нас получится, назовем шагалкой. Шагалка должна передвигать ноги, они вовремя должны быть в нужных положениях. Это поручим одному из оркестрантов. Пусть это он делает сам, подчиняясь требованиям дирижера. Далее мы отталкиваемся ногами от земли, работаем стопами ног — это еще один оркестрант. Мы поддержи- ваем при ходьбе определенное по- ложение корпуса — еще оркест- рант. Пока хватит. Уточним их функции и механическую модель шагалки, поймем место и роль ди- рижера. Механическую часть шагалки представим в видедвух ног, которые могут переставляться и немного ме- нять свою длину, и корпуса. Корпус и ноги соединены в некотором месте и могут двигаться мышцами от- носительно друг друга. Уточним и идеализируем наши представления. Ноги — это невесомые стержни, корпус — тоже стержень, его массу т сосредоточим на его конце. Стержни ног и корпуса шарнирно соеди- нены в одной точке. Все это изображено на рис. 4.82. Буквы Hi и Н2 обозначают ноги, буква К — корпус. Буква О означает шарнир, сое- диняющий корпус К и ноги Нх и Н2. Напомним, что ноги Н2 и Н2 — невесомые, а масса корпуса ради простоты сосредоточена в одной точ- ке. Шагалка имеет исполнительные устройства (мышцы), которые мо- гут создавать моменты Mi и М2 между корпусом и ногами Hi и Н2 со- ответственно. Специальной мышцы, создающей момент между ногами Нх и Н2, нет. Ноги могут удлиняться, реализующую это удлинение силу обозначим R. Отметим, что ноги человека не могут удлиняться, но зато они имеют коленные суставы и стопы. Функции коленного сустава и стопы мы схематизируем и представим в виде невесомого стержня, могущего поворачиваться вокруг точки О и менять свою дли- ну. (Это делается ради упрощения, можно было бы взять и более близ- кую к ноге схему. Это мы сделаем несколько позднее, когда заинтере- суемся работой оркестранта ног.) Итак, механическая часть шагалки описана, реализующие ее дви- жение моменты и силы указаны. Надо дать задания оркестрантам. Но прежде чем их сформулировать, представим себе ту симфонию, ко- торую они должны исполнять. Движение шагалки — это периоди- ческий процесс. Каждый период этого процесса распадается на фазы. Эти фазы для ходьбы и бега — разные. Ограничимся ходьбой. В ней
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 207 Рис. 4.83 можно выделить две фазы: фазу перекатывания на опорной ноге и фазу смены опорной ноги. Фаза смены опорной ноги предполагает не- которую подготовку к ней и, наконец, смену опорной ноги. Наблю- дение за ходьбой человека показывает, что фаза переката на опорной ноге, когда человек опирается только на одну ногу и, вращаясь вокруг точки опоры, переносит свое тело вперед, занимает основное время движения, примерно 4/5 его части. Напротив, фаза смены опорной ноги, при которой он опирается на землю обеими ногами, сравнитель- но короткая, порядка 1/5 общего времени. На рис. 4.83 схематически изображены эти фазы движения. Во второй фазе в течение не очень длительного времени происходит пе- ренос тяжести тела с ноги Hj на ногу Н2 (смена опорной ноги), после этого происходит перекат на ноге Н2, затем снова смена опорной ноги, пе- рекат и так далее. По возможности упростим эту схему движения. Примем, что пере- кат на опорной ноге происходит при ее неизменной длине. Смена опор- ной ноги пусть происходит мгновенно. Она сопровождается толчко- вым импульсом задней ноги и мгновенным перемещением вследствие этого веса тела на другую, своевременно выставленную вперед ногу. Итак, симфония описана. Скорее это уже не симфония, а адапти- рованная простенькая пьеса для начинающих. В оркестре три музы- канта. Один должен переставлять свободную ногу так, чтобы она была впереди опорной и составляла с ней угол 2а. Второй должен поддер- живать положение корпуса так, чтобы он все время составлял некото- рый угол Р с вертикалью. Наконец, третий оркестрант должен перед моментом смены опорной ноги совершить толчок опорной ногой. Без третьего оркестранта можно обойтись: и без него будет происхо- дить смена ног и ходьба. Мелодию играет не он, он лишь аккомпани- рует, но и аккомпанемент важен. Сначала разыграем мелодию с дву- мя оркестрантами, двухголосную фугу, в которой один голос перепле- тается с другим, и все повторяется и повторяется. 1. Исследование движений [шагалки без толчкового импульса. Шагалка, как уже говорилось, состоит из трех стержней, два из которых длины I имитируют ноги, а третий длины К — корпус. В точке О они соединены шарниром, поз- воляющим им вращаться вокруг нее. Вся масса шагалки сосредоточе- на на конце стержня, изображающего корпус. Перемещение шагалки плоское, такое, что во время него она опи- рается концами стержней, изображающих ноги, о некоторую прямую L. Эта прямая L наклонена к горизонту под углом 6. Положительному 6 соответствует подъем, отрицательному — спуск (рис. 4.82). Во время перемещения по прямой L шагалка опирается о нее попе- ременно то одной, то другой ногой. Ногу, на которую она в данный мо-
208 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ мент опирается, назовем опорной. Угол опорной ноги с вертикалью обозначим через ср. Пусть if — угол корпуса с вертикалью. Углы ср и if задают положение шагалки с точностью до параллельного переноса вдоль прямой L. Шарнир 0 снабжен устройством, способным создавать моменты между корпусом и каждой из ног. Шагалка имеет управляющее устройство. Осуществляемое им управ- ление предполагается таким, чтобы свободная нога находилась перед опорной и образовывала с ней угол 2а и чтобы угол наклона корпуса if все время равнялся некоторому заданному углу (3. Таким образом, первый уровень управления шагалки должен стабилизировать наклон корпуса и выводить свободную ногу перед опорной, образуя с ней определенный угол. Величины угла р наклона корпуса и угла 2а шага определяются следующим, вторым уровнем управления. Рассмотрим движение шагалки, предполагая, что первый уровень управления справляется со своей задачей и поддерживает заданные вторЫМ'уровнем величины управляющих параметров аир. Для составления уравнений движений используем формализм Лаг- ранжа. Возьмем систему координат Оху. Ось х горизонтальна, у вер- тикальна. Координаты х и у массы т равны х = -f-1 cos ф + К cos if, у = у0 +1 sin ф + К sin if, где х0, ул — координаты точки опоры шагалки. Теперь непосредственно находим кинетическую Т и потенциальную V энергии массы т шагалки: Т = -^ {/2Ф2 + К2ф2 + 2К7фф cos (ф—if)}, V = mg (/ cos ф + К cos if). Виртуальная работа момента М между корпусом и опорной ногой равна 6 Л = Л16 (ф—if) = А4бф — А46ф. В соответствии с этим уравнения Лагранжа записываются в виде d dT dT dr м d дТ дг I ду . , М dt dq ‘dip ' dt dxjj dif ' dif Подставляя в них выписанные выше выражения для функций Т и V, придем к уравнениям вида т/2ф-f-mK/if cos (ф—if) + mK.1 sin (ф—if) — mgl sin ф = М, (6.1) тК2ф-|-/пК/фсоз (ф—if)—tnlK sin (ф—if) — mgK sin if = —M. Момент M системой управления шагалки выбирается так, чтобы if Учитывая это, т. е. то, что угол if в уравнениях (6.1) постоянен и равен
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 209 Р, запишем их в виде m/2<p—mg/sin(p = 44, mKJq — m/CZcp2sin(<p—[}) — mg/(sinP = — М. Эти уравнения позволяют найти закон изменения угла ср и найти управ- ляющий момент М. Уравнение для <р имеет вид [1 + х cos (ср—Р)] ср—хер2 sin (ср—р)—св2 sin ср—хсо2 sin 0 = О, (6.3) где х=О и <o2=g7Z. Это уравнение (6.3) имеет первый интеграл, который записывается в виде f(cp)cp2—F (ср) = const, (6.4) где f (ф) = [1 4-х cos (ср—Р)]2, F (ср) = 2 (со2 sin ср-}-хсо2 sin(3) (ср) dcp. При не очень больших ср и Р, когда х(1— cos (ср—Р))<^1, он приобре- тает вид 1+^ ср2+®2 COS ср—хсо2 sin Р = const. (6.6) Заметим, что (6.6) можно непосредственно получить из уравнения (6.3), если принять cos (ср—Р) = 1 и отбросить член с ср2. В дальнейшем ин- теграл (6.6) будет использоваться для получения приближенных оце- нок и упрощения вида формул. Фазовый портрет, отвечающий уравнению (6.4), изображен на рис. 4.84. Точка О(ср=сро, ср=О) отвечает седловому равновесию. Через нее проходят сепаратрисы, разделяющие различные типы движений. Пе- рекатыванию через опорную ногу соответствуют фазовые траектории, находящиеся в верхнем угле между сепаратрисами S+ и S-. Пусть cpt, cpi и сра, ср2 — начальные и конечные состояния шагалки в фазе перекатывания на опорной ноге. Из геометрических соображе- ний видно, что ср!=—а—6, а ср2=а—6. Соответствующий чертеж фазы смены ног представлен на рис. 4.85. Для осуществимости фазы пере- катывания точка срг=—а—6, срг должна лежать выше сепаратрисы S+ (рис. 4.84), и реакция опоры должна соответствовать неудерживаю- щему характеру связи. Из (6.4) находим, что -2 , Г (-a-6)-F(a-6) ^2 /(а—6) Ч’! + /(а — 6) (6.7) В момент смены ног новая опорная нога получает импульсный толчок, после чего повторяется фаза перекатывания, для которой начальными условиями будут ф!=—а—6 и фх. Начальная скорость <pi может быть найдена общим образом из уравнений импульсных движений, но в
210 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ данном случае ее можно получить, проектируя вдоль направления от массы т к точке опоры старую скорость на новое ее направление, что приводит к соотношению <рх = <7<р2, <7 = cos2aH-tgxsin2a, (6.8) где х — угол между опорной ногой и направлением от точки опоры к массе т. Из соотношений (6.7) и (6.8) следует, что рассмотрение движений шагалки приводится к точечному отображению прямой в прямую вида ы = д2и-|-д2/'_1(а—6) [F (— а—6)—F (а—6)]~ » cos2 2а (ха sin₽—sinasin6)J , (6.9) 92 = ?7(—a—6)f-1(a—6), где а=ф2 и а=ф2. К этому следует добавить, что (6.8) имеет место толь- ко при uk<Z.u<Zuk, где uk и uk находятся из условия осуществимости переката, т. е. скорость и должна быть не менее некоторой, иначе не произойдет перекат, и, с другой стороны, она должна быть не настоль- ко большой, чтобы произошел отрыв от опоры. Из уравнения (6.4) uk равно —a—6) Г шах F ((f)—F(—a — 6)"| , (6.10) — 1_ф1<Ч><ф2 J и из условия неосвобождаемости ukvgU. График точечного отображения (6.9) изображен на рис. 4.86. Из него следует, что) шагалка имеет при <у2<С 1 устойчивый периодичес- кий режим — автоколебание, отвечающее и=иг, и что такое автоколе- бание возникает при любом начальном uk<g.u<guk. При автоколе- бание возникает и с нулевой начальной скоростью.
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 21Г Значение и* (квадрат угловой скорости непосредственно после- смены опорной ноги), отвечающее автоколебаниям, согласно (6.9), равно и* = f.~Г?/7 —тт— ~ 4<о2 (ха sin Р—sin а sin 6) ctg22a. (6.11 > f (а—б)— q2f (—а — о) х 1 ' ® х ’ На первый взгляд этот результат неожиданный. Из него следует, что скорость шагалки растет с уменьшением угла шага 2a. Можно убе- диться, что это так и есть, поскольку при наклоненном вперед корпусе уменьшение угла шага 2a приводит к стремительному движению, при котором мы едва успеваем переставлять ноги. Из формулы (6.11) следует еще, что ско- рость движения шагалки растет с уве- личением наклона корпуса Р, что она уменьшается с ростом угла подъема до- роги 6. Рассмотрим еще ходьбу по наклону вниз. Такая ходьба возможна и при Р=0 и даже отрицательном 0. Управ- лять скоростью спуска с горы при фик- сированном Р можно, меняя 2a. Увеличивая угол 2a шага, можно замедлить движение и даже прекратить его. Остановка происходит при где uk определяется формулой (6.9). Спуска- ясь с не очень крутой горы, мы поступаем именно так. Конечно, при этом у нас в резерве есть еще и управление углом р. Уменьшение угла Р и. переход на отрицательные углы также замедляет спуск и может при- вести к остановке. 2. Ш а г а л к а с толчко вым импульсом. Снабдим теперь шагалку толчком задней опорной ноги в момент непосредст- венного перехода опоры на выставленную вперед ногу. Этот толчок может изменить характер походки и ее убыстрить, однако он не дол- жен переводить ее в бег. Толчок будем считать происходящим от очень быстрого, но незначительного удлинения опорной ноги. В связи с этим теперь конфигурация шагалки описывается тремя переменными ф, фи г, где г — длина опорной ноги, а ф и ф, как и прежде, углы с верти- калью опорной ноги и корпуса соответственно. Фазовыми переменными теперь будут ф, ф, ф, ф, г и г. Управление, как и прежде, будет состоять в стабилизации корпуса, т. е. в поддержании равенства ф=р, и в вы- ставлении свободной ноги вперед на угол 2a к опорной. В соответствии с этим теперь кинетическая энергия Т, потенциальная энергия V и обобщенные силы Q<p, Qt и Qr примут вид Т [г2ф24-К2ф24-2Кгфф соз (ф —ф) + 2Кгф sin (ср —ф)], V = mg(r cos ф-f- К cos ф), <2ф = Л4—-gK, _ м—, Qr = R.
212 ГЛ. 4. УПРАВЛЯЕМЫЕ динамические системы Перемещение шагалки будем представлять в виде трех фаз: такой же, как и раньше, фазы переката на опорной ноге от угла <р=—а—б до угла <р=а—б; фазу же смены опорной ноги ради удобства разобьем на две следующие друг за другом мгновенные фазы: фазу толчка опор- ной ноги и фазу перехода на новую опорную ногу. В первой фазе г= I, а изменение ф и момент М, как и ранее, определяются уравнения- ми (6.2). В частности, изменение <р приближенно описывается диффе- ренциальным уравнением (6.6). Во второй фазе, одновременно с им- пульсным толчком R, для соблюдения условия Дф=0 необходим им- пульсный момент М. При этом имеют место уравнения Д-^- = тДг = 7?, А-^- — тг2 Дф = Л4, ат дг . (6.12) Д-^=ш ГАДг sin (ф—Р) +Аг Дф cos (ф —ф)] = —М. дф Уравнения (6.12) могут быть получены из соответствующих урав- нений Лагранжа интегрированием их по исчезающе малому времени толчка опорной ноги. Так, например, из уравнения d дТ дТ „ дУ dt дг дг — дг ’ интегрируя его по времени толчка от t до t+r и устремляя т к нулю, непосредственно приходим к первому из уравнений (6.12). При этом /+т R = lira Rdf. (6.13) т -> 0 t Аналогичный смысл имеет и импульсный момент t+x М = lira ( М dt'. t-*-o / Из уравнений (6.12) с учетом того, что ф=а—б, находим Дг = 1 Дф =__________sin (a~P-6)_____ м =______________. m ’ ™ ml [1 -у-х cos (а—₽ —6)] ’ l-|-xcos(a—0 — 6) (6.14) Скорость массы m после толчка будет иметь следующие компоненты: и5 = /(ф4-Дф) sin 2a — Дгсоэ2а, (6 15) = I (ф -|- Дф) cos 2а + Дг sin 2а вдоль осей 0g и Огр показанных на рис. 4.87 (начало координат взято в точке О шарнирного соединения, ось 0| направлена по новой опорной ноге, а ось От] ей ортогональна). Описанный толчок не будет приводить
§6. автоколебательная двуногая ходьба 213 к отрыву от опоры новой опорной ноги, если Ugcosx+Ц) sinx>0. При выполнении этого условия новая угловая скорость cpi вращения возле точки опоры новой ноги будет равна <Pi=7(^+^tgX) = cos (2а—х) Д , д [ . xsinfa—В —S’) cos 12а—7)1 —7^7?— ----S sin (2a — x)-A— , a . cos X m/cos% ( ' N1 l-|-xcos(a—0 — 6) J 9 (6.16) где <p2 — угловая скорость непосредственно до толчкового импульса и смены опорной ноги. Мгновенность фазы толчка— лишь идеализация процесса, занима- ющего некоторое время. Приземление на опорную ногу — значитель- но более быстрый процесс, который в соответствии со сказанным со- провождается импульсом П, равным тт /’ • /л . \ пГ /о , \ । xsin (а—р —6) sin (2a + x) I П = т/ф2 sin (2а + х) -R [cos (2а + х) +-Г+~х соГ(^-Р-6) J • (6.17) Этот толчок II при приземлении новой ноги зависит от толчка R задней опорной ноги. Походку шагалки с П = 0 можно назвать мягкой. Она имеет место при R = ^cp2, (6.18) где значение непосредственно следует из (6.17). Соотношение (6.16) между скоростями Ф2 и до и после смены опорной ноги при наличии толчка R заменяет имевшее ранее место соотношение (6.8). Как след- ствие этого, точечное отображение’ (6.9) теперь запишется в виде <р = A+q Кф2-|-В , (6.19) где <р и <р—угловые скорости после следующих друг за другом смен опорных ног, А - —5— Fsin (2a —х sin (a —р —6) cos (2a —х) ] m/cosxL 1 " 1 + x cos (a-p-6) J’ В = f-1 (—a —6) (F (— a — 6) —F (a — 6)), (6.20) ^527os7'Z) ЛМ-а-б)Г1/г(^-6).
214 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Точечное отображение (6.19) имеет неподвижные точки Ф*=(1-92)-1[Д+(Л« + (1-?2)В)’М- (6-21) Неподвижная точка ф* устойчива, если для нее |Ф*((ф*)2_|_ В) 1/2^/< 1. (6.22) Нас интересуют устойчивые неподвижные точки, для которых ф*>0. Именно таким неподвижным точкам может соответствовать автоколе- бательная ходьба. Можно заметить, что при положительных А, В и <7<1 такая неподвижная точка имеется и она единственная. Соответст- вующее этому случаю точечное отображение (6.19) представлено гра- фиком (рис. 4.88). Для мягкой походки значение толчкового импульса К должно быть согласовано со значениями параметров а и р. Из П = 0 сле- дует согласно (6.18), что R = З^ф, и согласно (6.20), что Д = аф. Теперь из (6.19) непосредственно находим, что -2- (6-23) ' (1 — a)2—q Пусть и <?<1. Тогда при д2<(1—а)2 мягкая походка воз- можна и устойчива. Особый интерес представляет случай, когда В и (1—а)2—</2 одновременно близки к нулю. В этом случае ходьба очень чувствительна к изменению параметров при сохранении устой- чивости. Небольшие их изменения могут вести как к остановкам, так и к переходу в бег. Это соответству- ет комфортабельной и хорошо управ- ляемой ходьбе. 3. Локализованные уп- равления корпусом и ногами. Управление шагалкой состоит в реализации локализован- ных целей поддержания угла Р на- клона корпуса и выставления впе- ред свободной ноги на требуемый угол 2а с опорной. При походке с толчком предполагается управление и этим параметром. Оно может, например, исходить из цели минимизации толчка при смене опорной ноги. Реализация требуемого угла шага 2а в принятой идеализации носит бессиловой характер. Напротив, поддержание угла наклона р корпуса и осуществление толчка R требуют силовых воздействий. Величина момента М определяется уравнениями (6.2) и_ (6.14), из
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 215 которых следует, что в фазе перекатывания на опорной ноге М = l+xTos(y-pj EsinP—cos (ср—Р) sin ф + <о~2 sin (ср—Р) ф2] « ~S(sin₽~ sin<P) (6-24) 1 л и в фазе перехода с одной ноги на другую М. = — рт--------з—г- л? j—— . (6.25) l-|-xcos(a—р — 6) 14-х v ' Однако организация управления наклоном корпуса может отличаться от той, при которой требуемый момент определяется в соответствии с (6.24) и (6.25). Эта организация может основываться на обычном управ- лении по рассогласованию ф и р. В качестве одного из таких управле- ний укажем следующее: М = i+xc^s(<p—ф) [Хф2sin (ф —Ф)—®2cos(ф—ф) sinф + (02хsin ф] + + mPbty + ml2a (ф—Р), (6.26) где а и b — параметры управления наклоном корпуса. При таком управлении из уравнений движения шагалки (6.1) находим, что угол ф меняется в соответствии с уравнением _х251п2(ф—ф)_ - /b_2^sin_2,(<p-ip)_ \ • g 14-xcos (<р —ф) 2 + 2xcos(<p—ф)/ф^ При подходящих достаточно больших положительных а и b и при х<1 из (6.27) следует, чтоф асимптотически стремится к Р, причем область притяжения возрастает с ростом а и Ь. Действительно, приняв £=ф—р, запишем уравнение (6.27) в виде е(0!+Й0В + ^ = 0, (6.28) где 2 2 Нужно установить, при каких условиях и какие решения диффе- ренциального уравнения (6.28) стремятся к нулю при возрастании вре- мени t. Особенность этой задачи состоит в возможности обращения в нуль коэффициента е(/) при старшей второй производной. Это соот- ветствует возможности бесконечно больших ускорений |. Для решения поставленного вопроса об устойчивости прибегнем к прямому методу Ляпунова, взяв в качестве функции Ляпунова положительно определенную функцию вида V=max{a2g2,P2^2, (^4-vg)2}, (6.29)
216 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ где — а а = V---------, ц max b S - mmb р = а--- 1 ац а Т • Н> 1, v = Линии уровня У=С функции V образуют семейство вложенных друг в друга замкнутых кривых, составленных из отрезков прямых. При стремлении постоянной С к нулю эти замкнутые ломаные стягиваются к точке £=|=0. Согласно прямому методу Ляпунова нам надлежит найти производ- ную по времени от функции V и установить условия, при которых эта производная отрицательна, т. е. условия, при которых фазовые траек- тории, отвечающие решениям уравнения (6.28), пересекают линии уровня функции V снаружи внутрь и тем самым стремятся к точке £= = |=0. Простые, но несколько длинные вычисления дают, что 2а .у . ( 2а 2 /,- minb\ У min •'----------- ,------о----------, I 8 \ У / 1 \ v 1 v / ца max b J ')+4=lk. _1_ ( и2 у у 8 \2(1—х) цар max b q Г 1 ( х2 К7 2а I 8 к 2(1—х) ар2 ’ (6.30) Из этого видно, что в области V^y2 при достаточно больших под- ходящих значениях параметров управления а и b и некотором о>0 имеет место оценка V < — <зУ, означающая, что все решения уравнения (6.28) с начальными условия- ми £о и |0, для которых шах(а2^, Ж (Ы,)’} при t-^-oo стремятся к нулю. Рассмотрим теперь задачу локализованного управления движением ног. Ранее ноги имитировались безмассовыми стержнями длины /, скрепленными шарнирами с корпусом в точке О. При этих предполо- жениях реализация требуемого движения ног не требует никаких си- ловых воздействий и не учитывает динамики их движения. Поэтому сейчас примем, что они имеют малую массу, настолько малую, что обратным влиянием движения ног на движение корпуса можно прене- бречь. Теперь нога — это по-прежнему стержень длины I, но с момен- том инерции I относительно точки О, массой п и расстоянием V от точ- ки О до центра масс. В точке О этот стержень прикреплен к корпусу, и между ним и свободной ногой приложен управляющий момент Jf, призванный реализовать требуемое перемещение на угол 2а за время т между двумя последовательными сменами опорных ног. За это вре-
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 217 О Рис. 4.89 мя т неопорная (свободная) нога должна повернуться вокруг точки О из начального положения, при котором ее угол 6 с вертикалью равен —а, к конечному положению, при котором угол 6=а. Прежде всего выясним, возможно ли, чтобы свободная нога без вся- кого управления (Jf=O) совершила такое перемещение. На первый взгляд это кажется невозможным уже потому, что в силу затухания стержень, отклоненный на угол —а, не может затем кач- нуться на угол а. Однако на самом деле все несколь- ко сложнее, так как точка О движется, способствуя увеличению отклонения ноги вперед. Пусть vx(t) и vy(f) — компоненты на оси ОХ и 0Y скорости движения точки О, причем момент времени t=Q соответствует смене опорной ноги. Оси ОХ и OY выбраны, как показано на рис. 4.89: ось ОХ — гори- зонтально вперед по движению, ось 0Y — вертикаль- но вверх. Следующий за t=0 момент смены опорной ноги будет при t=x. В системе 0XY, движущейся поступательно, уравнения движения свободной ноги на промежутке времени от момента /=0 до /=т с уче- том затухания имеют вид Z6 + hb + (ngl' + nl'Vy (t)) sin 6 + nl'vx (/) cos 6 = 0. (6.31) В начальный момент t = 0 Г1 n vx (0) 6 = — a, 6 =-------cos a. (6.32) Дифференциальное уравнение (6.31) не допускает непосредствен- ного интегрирования. Поэтому ограничимся приближенным его рас- смотрением, которое все же позволит достаточно хорошо понять качественную сторону рассматриваемой задачи локализованного управления движением свободной ноги. Примем следующие упрощающие предположения: угол 6 не очень велик и sin6~6, cos6«l; членом nl'vy sin 6 пренебрежем, скорость vx(t) будем считать постоянной. При этих упрощениях придем к при- ближенному описанию движения свободной ноги линейным дифферен- циальным уравнением с постоянными коэффициентами вида l'b+hb + ngl'b = O. (6.33) Начальные условия (6.32) при i—Q в соответствии со сделанными упрощениями будут 6 = — а, 6 =—vx/l'. (6.34) Фазовый портрет дифференциального уравнения (6.33) изображен на рис. 4.90. На нем все фазовые точки при Z-^+oo по спиралям стре- мятся к состоянию равновесия, изображаемому точкой 6=0, 6=0.
218 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Начальное положение фазовой точки изображается точкой М с коор- динатами, определяемыми формулами (6.34). Нас интересует приход фазовой точки на прямую 0=а. Как видно из рис. 4.90, это возможно, несмотря на наличие затухания, ведущего к скручиванию фазовых траекторий к со- стоянию равновесия. Перепишем дифференциальное уравне- ние (6.33) в виде $+2е&Н-П2а = 0, (6.35) где &=hl2I, &=пё1'Ц. Его решением, удовлетворяющим на- чальным условиям (6.34), является 9=(^— acosQ'Z — sinQ't'j e~st, (6.36) где й'=(й2—e2)1/* и при небольшом затухании близко к й. В зависимости от значений параметров а, й', vx, Г фазовая траекто- рия, выходящая из точки А4, либо пересекает прямую 6=а, либо ее не пересекает (рис. 4.90). Пожалуй, наиболее интересен граничный случай, когда фазовая траектория касается прямой 9=а; при этом 9(т) = (—асоэй'т—^у7 3шй'т)(? ЕТ = а, \ v > (6.37) 9 (т) = а (й' -)-е) sin й'т 4--ут- (1 4-s) cos й'т = 0. При выполнении этих условий требуемое перемещение свободной ноги осуществляется само собой, и, кроме того, в момент приземления свободной ноги ее скорость 9 (т) равна нулю. При выполнении только первого из условий (6.37) происходит требуемое перемещение ноги, но ее скорость в момент приземления отлична от нуля. Безусловно, малость скорости ноги в момент приземления облегчает управление длиной шага и правильность смены опорной ноги. Из второго условия (6.37) следует соотношение = <6.38) указывающее на то, что частота колебаний свободной ноги как маятни- ка, подвешенного в точке О, близка к частоте шагов и несколько пре- восходит ее. Таким образом, при выполнении некоторых условий возможна ходьба, при которой ноги сами переставляются нужным образом. В воз- можности такой ходьбы можно убедиться на собственном опыте, вы- брав походку, при которой для перестановки ног не прикладываются усилия; ноги при этом переставляются как бы сами собой. При несоблюдении условий (6.37) требуемое перемещение ног мо- жет быть достигнуто с помощью надлежащего управляющего момента
§6. АВТОКОЛЕБАТЕЛЬНАЯ ДВУНОГАЯ ХОДЬБА 219 с/f. При этом к правой части уравнения (6.31) добавляется член <№(/). Это же уравнение (6.31) с добавленным членом может служить для определения требуемого управляющего момента. Из него управляю- щий момент (t) находится неоднозначно, так как можно взять лю- бую функцию 6(0, удовлетворяющую краевым условиям 6(0) = — а, 6(0) = —-у-, 6(т) = а, 6(т) = 0, и из (6.31) с прибавленным к его правой части членом найти о№(0. Остающаяся свобода выбора может быть использована для уменьшения энергозатрат или удовлетворения каких-нибудь других условий. При выполнении условий (6.37) среди возможных управлений есть и управ- ление с off (0=0. При небольшом нарушении этих условий требуемый управляющий момент может мало отличаться от нулевого. Однако наряду с таким силовым управлением возможно и совсем другое управление за счет движений таза. Сказанное ранее естествен- но наталкивает на такую мысль. Именно движение таза сделало воз- можным движение ног без дополнительных силовых воздействий. В эффективности такого управления перестановкой ног легко убедить- ся на себе и заметить, что в той или иной мере мы к нему прибегаем. 4. Бенефис шагалки. Теоретическое рассмотрение шагал- ки закончено: указаны локализованные управления положением кор- пуса и движениями ног. Установлено, что при этих локализованных управлениях в двуногом шагающем аппарате возникают периодичес- кие автоколебания, соответствующие ходьбе. Осталось посмотреть, как шагалка ходит, если не в натуре, то хотя бы в рисунках на бумаге. Для этого была написана программа для ЭВМ, моделирующая путем решения соответствующих дифференциальных уравнений движение шагалки. Результаты счета выводились на бумагу графором в виде по- следовательных положений ног и корпуса. На рис. 4.91 представлены кинограммы, соответствующие движению шагалки по профилю доро- ги, изображенному на рис. 4.92: сначала шагалка шла по ровной до- роге, потом стала подниматься в гору и затем спустилась с нее. Нача- ла движение шагалка из неподвижного положения и в дальнейшем меняла значения управляющих переменных в соответствии с графи- ками рис. 4.93. В начале движения она несколько наклонялась вперед. Затем сначала частично, а потом и полностью выпрямилась, но при этом начала отталкиваться задней ногой при сменах опорной ноги. Для того чтобы подняться в гору, она опять наклонилась вперед, а спускаясь, отклонилась назад и прекратила толчки. Меняла она и дли- ну шага: поднимаясь в гору,-несколько уменьшала ее, а спускаясь, увеличивала. Начала движение она с небольших шагов. Последовательные положения шагалки показаны на рис. 4.91 че- рез времена Д/=0,1 с. Конструктивные параметры шагалки (длина ног, корпуса, масса) выбраны близкими к их значениям у среднего человека. Средняя скорость движения шагалки указана на рис. 4.91. Она близка к обычным скоростям ходьбы. На рис. 4.93 приведен так-
220 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ Е Рис. 4.92
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 221 же график изменения угла наклона корпуса ф. Как видите, шагалка ходит и может изменять походку по своему желанию и в соответствии с дорогой. Демонстрация этих возможностей получена И. А. Григорьевой, которая составила программу движения шагалки, подобрала пара- метры а и b управления положением корпуса, обеспечивающие устой- •’ивое его положение, и провела расчеты на ЭВМ. § 7. Управление и информация Конкретная задача, которая будет рассматриваться,— это задача управления движением транспорта на перекрестке. Основная труд- ность, которую нужно преодолеть при таком управлении, состоит в том, что, пропуская автотранспорт в одних направлениях, мы вынуж- дены задерживать его проезд в других. Поэтому цель управления долж- на состоять в том, чтобы разрешать проезд одним потокам и запрещать другим так, чтобы общие задержки и наносимые ими потери были воз- можно меньшими. Таким образом, задача управления движением тран- спорта на перекрестке или любом другом скрещении дорог состоит в наилучшем разрешении конфликтных условий переезда перекрестка автомашинами различных потоков. Непосредственно ясно, что именно такая проблема стоит перед управлением и при организации работы вычислительных комплексов, массового производства, ремонтных ра- бот, медицинского обслуживания, посадки и взлета самолетов на аэро- дроме и многого другого. Так что задача об управлении движением транспорта на перекрестке — это типичный представитель таких конф- ликтных задач массового обслуживания, задач обслуживания при ог- раниченном ресурсе его возможностей.
222 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ системы Как подступиться к решению этой задачи? Естественно, следует на- чать с математической формализации ее постановки. Что, собственно, нужно формализовать? Характеристики потоков автомашин, пропуск- ные способности перекрестка в разных направлениях, наши сведения о приезжающих автомашинах, общий вид допустимого управления, критерий качества управления. Именно все это требует описания и формализации. Однако основное внимание ниже будет уделено пробле- ме информации, по которой возможно и следует управлять, тому, как зависит качество управления от информации, по которой оно осуще- ствляется. В некотором смысле это центральный вопрос организации любого управления. Его решение определяет принципиальные возмож- ности управления, пределы его возможностей. Ясно, что, располагая недостаточной информацией об управляемом объекте и его текущем состоянии, нельзя им хорошо управлять. Сколько же нужно этой ин- формации, насколько полной и точной она должна быть для возмож- ности организации хорошего управления? Это очень важный и очень непростой вопрос. Особенно он не прост для сложных объектов. Он уже непрост и в задаче об управлении движением транспорта на пере- крестке. Последующее имеет целью рассмотрение вопроса об «информа- ции и управлении» в некоторой связи с этой конкретной задачей управ- ления. Вернемся к ее рассмотрению. Начнем с формализации цели управле- ния, т. е. критерия его качества. В качестве такого критерия можно принять среднее время задержек автомашин на перекрестке, но, воз- можно, важно не только это среднее время, но и число вынужденных остановок (торможений) перед перекрестком. Во всяком случае, по- видимому, десять ожиданий по секунде хуже, чем два ожидания по пять секунд. Учесть это можно, приняв в качестве критерия некото- рую свертку O+kT из среднего времени ожидания О и среднего числа торможений Т. Смысл такой свертки состоит в том, что остановка ма- шины по нежелательности приравнивается дополнительному простою какой-нибудь машины в течение времени k. Перекресток может пропускать одни потоки автомашин и задержи- вать другие в нескольких различных сочетаниях. Каждый из этих вариантов характеризуется тем, какие потоки пропускаются и какие задерживаются. Будем рассматривать их как состояния управляющей системы Аи А2, . . ., Ат. Кроме этих состояний, у управляющей сис- темы по соображениям безопасности движения должны быть переход- ные состояния А и, подготавливающие переходы из одного состояния At в другое состояние А}-. В простейшем случае перекрестка с двумя пересекающимися потоками имеются два основных состояния А2 и два переходных Д12 и Л21. В состоянии Л1 пропускается, допустим, первый поток и задерживается второй, второе состояние А2 соответст- вует задержке первого потока и пропуску второго. В переходном сос- тоянии А12 разрешается только закончить переезд машинам первого потока, а в состоянии А21 — только второго потока. Все остальные автомашины в это время через перекресток переезжать не могут. Вре-
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 223 мена соответствующих состояний и т2 могут назначаться любыми. Напротив, времена т12 и т21 должны быть такими, чтобы автомашины успели освободить перекресток. Теперь можно определить, в чем состоит управление. Оно состоит в задании последовательности смен состояний системы управления и указании времен, в течение которых они имеют место. Или, короче, Рис. 4.94 в задании состояния в каждый момент времени t. При этом должны соблюдаться некоторые правила перехода из одних состояний в дру- гие. Эти правила можно задать с помощью графа смен состояний. При этом каждое из состояний изображается вершиной графа, а смены сос- тояний — направленными ребрами, соединяющими соответствующие вершины. На рис. 4.94, а и б изображены графы смен состояний для описанного выше перекрестка. Они отличаются тем, что в первом слу- чае (рис. 4.94, а), перейдя из состояния /П (Д2) в А12 (Л21), дальше уп- равляющий светофор должен перейти только в состояние в то время как при втором графе разрешен возврат в исходное состояние ^1(Я г)- Охарактеризуем теперь возможности переезда перекрестка автома- шинами в каждом из состояний управляющей системы. Эти возмож- ности могут быть описаны предельными пропускными способностями перекрестка в каждом из разрешенных направлений переезда. Пре- дельная пропускная способность — это число машин, которое может переехать через перекресток при наличии в этом направлении ожидаю- щих переезда автомашин. Вместе с тем в быстроте переезда^перекрес- тка имеется и элемент случайности. Кроме того, время переезда зави- сит от того, переезжает ли его остановившаяся перед перекрестком автомашина или она переезжает его без остановки. Потоки прибывающих автомашин, как правило, случайные,-хотя возможна и регламентация потока прибывающих машин, например, за счет периодической работы светофора на предшествующем сосед- нем близко расположенном перекрестке. Мы можем располагать сведе- ниями о статистических характеристиках потоков автомашин, но воз- можно, что такие сведения отсутствуют. Очень часто потоки автома- шин считают пуассоновыми. В некоторых случаях поток автомашин близок к пуассоновому, но это далеко не всегда так. Напомним, что поток автомашин называется пуассоновым, если временные интервалы между прибытиями автомашин к перекрестку распределены по показа- тельному закону, т. е. плотность вероятности длительности v времен-
224 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ного интервала между двумя последовательными прибытиями к пере- крестку автомашин равна е~>л’. Наконец, перейдем к центральному вопросу, рассматриваемому в этом параграфе, к вопросу о том, по каким сведениям и данным нужно определять управление, как от этих сведе- ний и данных зависит его качество. Каково предельно возможное ка- чество управления, т. е. какова наименьшая величина потерь управле- ния, которой можно достигнуть, строя управление по разным данным и сведениям? И вообще, как зависят возможности управления от наших сведений о состоянии объекта управления? В какой мере эти возмож- ности возрастают с появлением данных не только о текущем состоянии, но и тех, которые наступят? Коротко все эти вопросы можно сформули- ровать как вопрос о том, как зависит управление от информации об объекте управления. Заметим, что управление можно трактовать как последовательное принятие решений для наилучшего достижения его цели. Так что во- прос сводится к тому, как зависит эффективность принятия решения -от используемой для этого информации. Начнем с простого примера. Пусть нам нужно указать, в каком из закрытых ящиков спрятана кошка. В случае правильного указания места расположения кошки наши потери равны нулю, а при непра- вильном указании они +1. Пусть этих ящиков пять, и мы не распо- лагаем никакими сведениями ни об этих ящиках, ни о том, в каком из них находится кошка. Ясно, что в этом случае нам не остается ничего другого, как наугад назвать один из ящиков, и математическое ожида- ние потерь при этом равно 4/5. Возможен другой крайний случай, когда кошка мяукнула и мы услышали, в каком она ящике. В этом слу- чае ожидаемые потери равны нулю, поскольку мы после этого пра- вильно указываем, где находится кошка. Между этими двумя крайними случаями могут быть всевозможные промежуточные случаи, когда на основе тех или иных сведений мы, полностью используя их, достигаем той или иной промежуточной меж- ду нулем и 4/5 величины ожидаемой потери. Сведения, которые мы по- лучаем в этом случае, служат оценками для выбора ящика, вероятность нахождения кошки в котором наибольшая. В первом случае эти ве- роятности были равны для каждого из ящиков 1/5. Во втором она для одного из ящиков равнялась единице, а для всех остальных — нулю. В промежуточных случаях эти вероятности pi, р2, р3, pt и р5. Теперь мы можем оценить полезность сведений, на основе которых получены эти вероятности. Пусть среди величин pi, р2, р3, pt и р3 psбольше или равна любой из остальных. Указывая s-й ящик, мы угадываем с ве- роятностью ps и не угадываем с вероятностью 1 — ps. Ожидаемые по- тери при этом равны 0-ps+l-(l— ps). Разность 4 ,, х 1 -g — (Ч — max рЛ = max — у можно назвать полезностью сведений (информации).
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 225 Усложним немного нашу задачу. Пусть за неугадывание при ука- зании разных ящиков назначаются разные штрафы. Пусть при указы- вании i-ro ящика и отсутствии там кошки штраф равен wt (ранее все эти штрафы равнялись единице). Какой должен быть указан ящик, чтобы в этих измененных условиях ожидаемые потери были наимень- шими? Ожидаемые потери при указании i-ro ящика равны ^•(1— Pi)- Поэтому наименьшими ожидаемые потери будут, когда указывается ящик, для которого эта величина минимальна. Если одна из вероят- ностей pt равна единице, то минимальные потери уже не могут быть уменьшены никакими дополнительными данными. Такие сведения или такую информацию назовем полной. Таким образом, информация о системе является полной, если на ее основе может быть принято решение, которое не может быть улучше- но никакими дополнительными сведениями. Если рг=1, то следует указывать i-й ящик. Потери при таком решении равны нулю, и они не могут быть меньшими. Может показаться, что полной является только та информация, которая полностью определяет объект, т. е. в рассматриваемом слу- чае, только если одно из рг равно единице. Но это не так. В рассматри- ваемом смысле полной информацией будет и та, при которой некоторое где Pi = —i—— С 1, Шtrunks s Ф i т. е. полной в сформулированном смысле может быть и информация, которая оставляет неопределенность в состоянии системы, но устране- ние этой неопределенности уже не может ничего добавить к возмож- ности улучшения принимаемого решения. В рассматриваемом случае это вызвано тем, что КУ/ (1 — Pi) < гшпш5(1 — ps) s i при любых pi, рг, рз, pt и р5, если только pi^pi. Рассмотрим еще вопрос о полезности сведений, согласно которым вероятности нахождения кошки в ящиках 1, 2, 3, 4 и 5 равны соответст- венно ри р2, рз, pt и рз. При различных wt ответ на этот вопрос не так прост и однозначен, как в случае и»1=и»2=а)3=и;4=и>8=1. Это услож- нение вызвано тем, что при неизвестных pt и равных между собой wt нам представляется очевидным, что нет лучшего решения, чем указа- ние наугад любого из ящиков. В случае же разных wt наилучшая стра- тегия неочевидна. Прежде всего уточним, что значит указать любой из ящиков нау- гад. По-видимому, имеется в виду, что мы указываем ящики с вероят- ностями <71=<72=<7з=<74=<75= 1/5. При различных wt назначим вероят- ности qx, q2, q3, qtn q$ и попробуем сделать это так, чтобы потери были
226 ГЛ. 4. управляемые динамические системы возможно меньшими. Ожидаемые потери при такой стратегии равны 2 <7,(1 — Pi)Wi и зависят не только от выбираемых вероятностей qlt q2, q3, qt и </5, но и неизвестных вероятностей ри р2, р3, pt и ръ. Если бы вероятности были известны, то задача решалась бы очень просто. Как быть при неизвестных вероятностях pt? В этой неопределенной ситуации можно исходить из соображений гарантированного уменьшения потерь или из уменьшения средних потерь, но при этом необходимо располагать сведениями о вероятностях величин pt. Рассмотрим последовательно каждую из этих возможностей. В пер- вом случае мы хотим, чтобы при любых ри р2, р3, р4 и р3 величина по- терь была возможно меньшей, заведомо меньшей некоторой величины £, которая должна быть по возможности меньшей, т. е. мы хотим вы- брать qt так, чтобы при любых рг 2 <7,да,—2 <7,-/?,да,- < £ и чтобы величина £ была наименьшей из всех возможных. При выб- ранных qt наибольшее значение £ равно С = max £ = 2 ?,да, —|min q-w;. pi 1 Оно зависит от вероятностей qt. Теперь выберем эти вероятности qt так, чтобы £ была наименьшей: min (J) q^i — min q,-w^ . Ясно, что этот минимум достигается при qiW1=q2w2=q3ze)s=q4wi=q5w5, т. е. при ™ s \ w4 ' w2 w3 w4 w5 J При равных wt приходим к интуитивно очевидному результату qi= = ?2 = <7з = <74:=?5=1/5. При неравных wt ответ уже не так очевиден. Согласно проведенному рассмотрению требуемые qt находятся из условия min <7 где _ £ = max (2 <7/^—2 QiPiwt)f Ps т. е. из условия минимакса min max 2 (<7Z^Z—<7,-р,да,-)- (7.1) <7 ps Рассмотрим теперь вторую возможность. Она предполагает извест- ными вероятности значений pt. В силу этого для любых выбранных
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 227 Qi, Qi, Чз, q*, qs, может быть найдено математическое ожидание потерь 2 q^i^pi). Далее следует выбрать qt из условия минимума математического ожи- дания потерь, т. е. из условия min S <qiwi—q^t^pi) = min wi (i —Mpt). (7.2) <?; i Если этот минимум достигается при i=s, то qs= 1, а остальные qt равны нулю. Сопоставим оба изложенных подхода к выбору стратегии принятия решения в ситуации неопределенности. Первый подход не предпола- гает никаких сведений о том, где находится кошка, и поэтому оказы- вается возможным только обеспечить потери ниже некоторой границы. Ничего другого обеспечить нельзя. Далее, естественно эту границу по возможности уменьшить. Все это вместе приводит к условию мини- макса (7.1). Второй подход предполагает наличие некоторых сведений о вероятностях величин ри р2, рз, pt, рь. Более того, может оказаться, что достаточно располагать только некоторыми оценками их математи- ческих ожиданий. Действительно, выбор вероятностей qt исходит из ’условия (7.2), которое определяет qs=1, если только ws(l — AAp,)<w,.(l—Mpi) (7.3) для всех i=^=s. Остановимся теперь подробнее на вопросе о том, что такое допол- нительные сведения и в чем их отличие от новых сведений, которые мо- гут противоречить прежним, что для дополнительных сведений не до- пускается. Ясно, что такое отсутствие сведений. Это полное неведение в отно- шении того, в каком ящике находится кошка. Ясно и что такое пол- ные сведения. Это такие сведения, которые позволяют достигнуть ми- нимальных потерь, которые уже не могут быть уменьшены никакими дополнительными сведениями. Между двумя этими крайними случаями возможны промежуточные. Что же они из себя представляют? Как про- исходит переход от одного крайнего случая к другому? В теории вероятностей есть понятия априорной и апостериорной вероятностей. Вторая получается изменением первой в результате не- которого эксперимента. В рассматриваемом случае это не уточнение уже имеющихся сведений, а их изменение. Это новые сведения. Что такое расширение сведений? Это случай, когда новые сведения не противоречат прежним, а уточняют, детализируют их. Изложенную классическую схему теории вероятностей можно подвести под понятие расширения сведений, если ввести с самого начала в нее результаты эксперимента. Тогда вначале они были неизвестными, могли быть лю- быми, а после эксперимента эта неопределенность устранена. Раньше мы располагали неопределенным результатом эксперимента, затем ре- зультат эксперимента стал известен, и в соответствии с этим априор-
228 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ные вероятности заменились на апостериорные. Это уже уточнение све- дений. Пусть сведения задаются ограничениями на какие-то параметры или функции. Будем говорить, что произошло уточнение, если эти огра- ничения сужены, т. е. расширение сведений — это сужение неопреде- ленностей на описывающие систему величины, функции или пара- метры. Применим эти общие соображения к рассматриваемому примеру. Пусть, например, вначале было неизвестно, в каком ящике нахо- дится кошка, а потому удалось узнать, что в первом ящике ее нет. Это уточнение. Пусть стали известны вероятности рг#0 и р2 пребыва- ния кошки в ящиках 1 и 2. Это уточнение. Если же после этого станет известно, что в первом ящике ее нет, то это не уточнение, это новые сведения. Они новые потому, что противоречат прежним: теперь ве- роятность р± нахождения кошки в первом ящике равна нулю, в то вре- мя как ранее Как уже отмечалось, можно расширить систему и тогда эти новые сведения можно будет трактовать как расширение сведений. Расширение сведений — это сужение неопределенности, это суже- ние множества всевозможных систем, к которому на самом деле при- надлежит рассматриваемая сйстема. Пусть G — множество всевозмож- ных систем. Получение сведений о системе равносильно сужению мно- жества G до Gi; получение дополнительных сведений — сужению Gi до 62. Это продолжается до некоторого множества Gs систем, в отно- шении которых описание уже является полным (по отношению к рас- сматриваемой задаче принятия решения или управления). Сама систе- ма может при этом оказаться не полностью определенной. Множество G может быть разбито по отношению к поставленной за- даче принятия решения или управления на множества, всем точкам каждого из которых отвечает одно и то же наилучшее решение или управление. Каждое из таких множеств обозначим через Gn. Поэтому, если неопределенность в информации о системе такова, что соответст- вующее ей множество систем содержит несколько (возможно, и бес- конечно много) множеств Gn, то получение наилучшего решения со- пряжено с некоторым компромиссом между наилучшими решениями в каждом из этих множеств Gn. В соответствии со сказанным ранее этот компромисс может быть основан на желании получить гарантийно наилучший результат — это принцип минимакса — либо на желании получить результат, наилуч- ший в среднем, если, конечно, для этого есть необходимые сведения о вероятностях недостающих данных. Компромиссное решение для каждого из составляющих множеств G„, вообще говоря, не является наилучшим. В лучшем случае оно с ним совпадает. Но совпадение более чем в одном случае быть не может, так как такое со впадение означало бы, что эти множества составляют одно и то же множество G„.
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 229 Подведем итог. Расширение сведений — это либо сужение области рассматриваемых систем, либо введение в ней некоторого распределе- ния вероятностей. При всяком расширении сведений потери наилуч- шего управления из раз навсегда фиксированного класса могут только уменьшиться. После того как расширение сведений привело к сужению множества рассматриваемых систем до одного из множеств Gn, даль- нейшее расширение сведений о системе не может улучшить управления. Этот простой вывод очень важен. Он говорит о том, что не всегда сле- дует стремиться к возможно более полной, сложной и точной модели, к возможно более полному знанию ее состояния, может оказаться, что и очень простая и неточная модель совершенно достаточна для полу- чения максимально возможного эффекта, для достижения минималь- ности или квазимннимальности потерь управления. Перейдем теперь к исходной задаче управления движением транс- порта на перекрестке. Начнем с вопроса: какая информация для при- нятия решений об управлении движением на перекрестке является полной? Единственная неопределенность, которая осталась в данном выше описании,— это моменты прибытия автомашин к перекрестку. После их задания система полностью определена, и поэтому ее описа- ние является полным по отношению к любому классу управлений. Какие различные классы управлений мыслимы в этой задаче? Это, прежде всего, самое простое и обычно используемое управление с по- мощью светофора с фиксированным ритмом переключений. Его опти- мизация состоит в выборе времен зеленого и красного цветов в цикле периодически повторяющихся смен, при котором достигается минимум потерь. Возможны управления по числам ожидающих переезда автома- шин, по суммарным или средним задержкам автомашин по потокам, наконец, по прогнозируемой последовательности прибытий автомашин к перекрестку. Все виды управления, перечисленные в последней фра- зе, можно рассматривать как управления по разным сведениям о си- стеме. Рассмотрим сначала задачу об оптимальном светофоре с фиксиро- ванным ритмом. Примем, что потоки прибывающих к перекрестку ав- томашин равномерные с интенсивностями и Х2. Пусть Xj, х12, т2, т21— выбранный ритм переключений светофора. В идеализации потоков автомашин непрерывными потоками имеем —а»! при пТ < t^.nT-{-i1 и хг > О, О при пТ</^п7' + т1 и хх — 0, (7.4) при nT-f-Xj < t 1) Т, 'К ^2 <*>2 О при пТ—х21< i ^п7’4-т1 + х12, При nT-f-Xi-f-Xja < t ^nT’ + Xj + Xja + Xa И Х2 > О, при nT-f-Xj-f-x12 <[/^пТ + х1 + х12 + х2 и х2 = 0. В этих уравнениях Xj и х2 — числа автомашин, скапливающихся перед перекрестком в первом и втором направлениях, и Х2 — интенсивности
230 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ прибытия автомашин к перекрестку, toj и <о2 — предельные пропуск- ные способности перекрестка и Т=т14-т12+т2+т21— период работы светофора. Пусть хи х2 и xlt х2 — числа автомашин, скопившихся перед перекрестком в два последовательных момента времени пТ и (п+1)7\ Из формул (7.4) находим, что = Ж —(“г—ЧЮ 4А *2=f ta + MTl+Tj — (®2 — Ь)4-^2Т21» где f(x) означает функцию, равную х при х^О и равную нулю при х<0. На рис. 4.95 изображены графики зависимостей Xi от хх и х2 от х2 в предположении достаточных пропускных способностей перекрест- ка, т. е. при < (о^!, ТХ2 < <о2т2. (7.6) Согласно этим графикам вне зависимости от начальных значений хх и х2 спустя некоторое время устанавливаются постоянные значения xj и х2. По этим значениям хх и х*2 могут быть сосчитаны числа оста- новок по каждому из потоков и общие времена ожидания. Заметим, что при несоблюдении какого-нибудь из условий (7.6) соответствующий график на рис. 4.95 изменяется так, что последовательные значения Xi или соответственно х2 неограниченно растут. Пусть процесс переезда автомашин через перекрестки со светофо- ром с фиксированным ритмом переключений уже установился. Тогда в момент появленйя зеленого света по Первому потоку скопилось хх автомашин. К концу зеленого света они все переедут через перекресток и затем к следующему появлению зеленого света их снова накопится Xj. Подсчитаем число остановок перед перекрестком и общее время ожидания переезда через него для машин первого потока. Очередь ис- чезает после появления зеленого света через время хх/(«1—XJ, так что не ждут переезда автомашины первого потока только в течение времени ту—(xj/(®x—Хх)). Все остальное время они вынуждены оста- навливаться перед перекрестком. Останавливаться перед перекрестком
§7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 231 будет часть машин, равная Л \ ~~ I Аналогично, по второму потоку число остановок равно \ W2 '“2 / Относительное число остановок автомашин по обоим потокам равно (1-»1,(1+гД) + (|-^)х1(|+гЛс). (7.7) Задача оптимизации управления перекрестком по критерию числа остановок сведена к задаче минимизации функции (7.7) по временам Ti и т2 (следует иметь в виду, что 7’=т1+т12+т2+т21). Нетрудно ви- деть, что оптимальная стратегия неприемлема, поскольку она реко- мендует пропускать все время один из потоков и не пропускать дру- гой, хотя именно такая стратегия обеспечивает наименьшее число оста- новок. Общее время задержки, отнесенное к единице времени, . как нетрудно найти, равно А [(7-г,)" I, ( 1 +^) + (?-,,)• 7., (I + -Al.) ] . (7.8) Минимизация функции (7.8) по параметрам Tj и т2 дает стратегию, оптимальную по критерию общего времени ожидания среди всевоз- можных стратегий с фиксированным ритмом и заданными временами желтого света т12 и t2i. В рассматриваемой модели управления движением транспорта на перекрестке прибытие автомашин к перекрестку и переезды через него имели детерминированный характер. Примем теперь, что потоки авто- машин случайные пуассоновы с интенсивностями и Х2. Все остальное оставим без изменения. Переход от математической модели с равно- мерными детерминированными потоками к модели со случайными пуассоновыми потоками не есть уточнение — это другая модель. Если на самом деле потоки автомашин распределены по закону Пуассона, то прежнюю модель можно трактовать как упрощенную, но нельзя трактовать как модель, в которой учитывается меньшая информация. В прежней модели описание полное, и к нему нельзя ничего добавить. Итак, потоки автомашин пуассоновы, так что за время v в потоке с интенсивностью X прибывает к перекрестку т] автомашин с вероят- ностью (уд) г)! х ' Пусть pi (х, t) — вероятности того, что в i-м направлении в момент времени t перед перекрестком скопилось х машин(х=0, 1,2,...). Най-
232 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ дем вероятность pf (х, Z+т), если в течение времени v проезд автомашин i-ro потока не разрешался и разрешался. В первом случае p,-(x, t + v)= £ Pi(x—, (7.10) Т)= О а во втором случае pz (х,/-f-v)= У Pi(x—T)4-(ozv, (х=#0), п=о (7.П) Pi (o, 14- V) = > ; Pi (1], t)e~ Ki\ T)=0 Пусть в момент времени t=Q заданы числа Xi и х2 ' ожидающих переезда через перекресток автомашин. Тогда формулы (7.10) и (7.11) позволяют шаг за шагом находить вероятности pt(x, t) в моменты вре- мени тъ Т14-Т12, Ti+t12+t2) Ti+ti2+t21-|-t22=t, т4-Т1, т4-Т1+Т12 и по- следующие. Как оказывается, вычисляемые таким образом вероятно- сти либо все стремятся к нулю, что соответствует неограниченному нарастани очереди и имеет место при <dztz < Xzr, (7.12) либо стремятся к некоторым пределам pz (х), что имеет место при нера- венстве, обратном (7.12). Эти предельные вероятности соответствуют установившемуся случайному процессу управляемого переезда авто- машин через перекресток. В установившемся состоянии по вероятно- стям pl (х) могут быть найдены математические ожидания времен ожидания переезда и вероятности торможений. Путем не очень простых вычислений можно найти оптимальный ритм переключений светофора, т. е. найти, при каких Tj и т2 математическое ожидание времени переез- да через перекресток минимально. Такие вычисления были продела- ны. Они позволяют указать по параметрам Хъ Х2, coj, со2, т12 и т21 наилучшие значения времен Xi и т2, а также найти соответствующее наименьшее возможное среднее время ожидания переезда. Сравнение моделей с равномерными и пуассоновыми потоками с равными сред- ними числами Xj и Х2 прибывающих за единицу времени автомашин по- казывает, что расхождения в оптимальных стратегиях могут быть зна- чительными, что учет случайности потоков существен. Расширим теперь класс допустимых стратегий управления. Примем, что светофор может менять свое состояние через времена т. Потоки автомашин случайные, случаен и переезд автомашин через перекре- сток. Управляющий автомат (светофор), как и ранее, может нахо- диться в состояниях А1г Д12, А2 и Д21. В качестве цели управления, как*и прежде, примем достижение возможно меньших значений сред- его времени ожидания переезда через перекресток. В качестве ин-
§ 7. УПРАВЛЕНИЕ И ИНФОРМАЦИЯ 233 формации, по которой через каждый промежуток времени т принимает- ся решение о выборе состояния А управляющего автомата, примем чи- сла ожидающих переезда автомашин. Тогда решающее правило при- нятия решений на каждом такте будет вида Д"+1 = £(Д”; xvx2). (7.13) Это значит, что состояние управляющего автомата определяется по его состоянию на предшествующем такте и числам х, и х2 ожидающих переезда через перекресток автомашин. Пусть р'г(А; хх, х2) — вероят- ность того, что в конце n-го такта управления управляющий автомат находится в состоянии Див очередях стоит хх и х2 автомашин. Тогда по формуле полной вероятности р»+10; хг, х2) = ^^рп(В; П1, х2 + %2—Л2)Х Хр(В; £х, E2/xx-Hi. *2 + Up(ni. Л2), (7-14) где суммирование производится по всем состояниям В управляющего автомата и всем £2, гц и г]2, для которых g(B; x1 + g1— г],, х2 + %2—я2) = А, (7.15) р(Л1> Лг) — вероятность того, что за время т подъезжает к перекрестку по первому и соответственно второму направлениям гц и т]2 автома- шин, g(B; Bj, £2/xi+£i, *2+£2) — вероятность того, что при состоя- нии В управляющего автомата через перекресток за время т переедет в первом и втором направлениях £х и соответственно £2 автомашин при условии, что ожидало переезда через перекресток соответственно Х1+51 и х2+^2 автомашин. Действительно, спустя время т перед пере- крестком может оказаться хх и х2 машин соответственно по первому и второму направлениям, если в начале такта их было Xj+^j—гц и х2+£2—Ла и в течение такта прибыло и убыло соответственно rj!, т]2 и gi, £2. Уравнения (7.14) и (7.15) при заданной стратегии управления (7.13) позволяют шаг за шагом находить вероятности рп(А; хъ х2) (га=1,2,...). В зависимости от стратегии управления, как и в ранее рассмотренном более простом случае, вероятности р"(Д; хх, х2) либо стремятся к ну- лю, и тогда происходит неограниченное нарастание одной из очередей, либо стремятся к некоторым конечным положительным пределам p*(A;Xi, х2). Предельные значения р* (Д; хъ х2) соответствуют вероятностям состояния А и длин очередей хх и х2 в установившемся режиме. По этим предельным вероятностям могут быть найдены потери управления по формуле вида 2 г (А; х]( х2)р*(Д; хх, х2), (7.16) где г(Д; хх, х2) — математическое ожидание общего времени переезда через перекресток, включая время ожидания его, отнесенное к одному такту длительности т в случае, когда на рассматриваемом такте управ-
234 ГЛ. 4. УПРАВЛЯЕМЫЕ ДИНАМИЧЕСКИЕ СИСТЕМЫ ляющий автомат находится в состоянии Див начале такта в очередях стоят Xi и х2 автомашин. Задача оптимизации управления теперь мо- жет быть сформулирована как поиск стратегии (7.13), для которой величина (7.16) минимальна. Формулы (7.14) и (7.15) определяют динамическую систему. Это так называемая управляемая марковская система. Ее состояниями, яв- ляются всевозможн