Text
                    

32.81 П 64 УДК 62-50 Введение в оптимизацию. Поляк Б. Т.— М.: Наука. Главная редак- ция физико-математической литературы, 1983.—384 с. Книга является систематическим введением в современную теорию и методы оптимизации для конечномерных задач. Основное внимание уделя- ется идейным осиовагл методов, их сравнительному анализу и примерам использования. Охвачен широкий круг задач — от линейного программирова- ния и безусловной минимизации до стохастического программирования. Об- суждается методика постановки и решения прикладных проблем оптимиза- ции. Приводятся условия экстремума, теоремы существования, единственности и устойчивости решения для основных классов задач. Исследуется влияние помех, негладкости функций, вырожденности минимума. Книга предназначена для инженеров, экономистов, статистиков, вычислителей, сталкивающихся с задачами оптимизации. По своему математическому аппарату книга доступ- на студентам технических и экономических вузов. Табл. 6, илл. 44, библ. 247. Борис Теодорович Поляк ВВЕДЕНИЕ В ОПТИМИЗАЦИЮ Редактор Т. И. Кузнецова Технический редактор В. Н. Кондакова Корректоры О. А. Сигал, Л. С. Сомова ИВ № 11436 Сдано в набор 22.04.82. Подписано к печати 06.04.83. Т-08902. Формат 60х907ю. Вумага № 2. Литературная гарнитура. Высокая печать. Условн. печ. л. 24. Уч.-изд. л. 26,32. Тираж 8500 экз. Заказ № 179. Цена 2 р. 40 к. Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 Ленинградская типография A's 2 головное предприятие ордена Трудового Красного Знамени Ленинградского объединения «Техническая книга» им. Евгении Соколовой Союз- иолиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли. 198052, г. Ленинград, Л-52, Измайловский проспект, 29 1502000000—074 П 053(02)-83 153-82 © Издательство «Наука». Главная редакция физико-математической литературы, 1983
ОГЛАВЛЕНИЕ Предисловие........................................................ 5 Список обозначений ................................................ 7 Введение .......................................................... 9 ЧАСТЬ I. БЕЗУСЛОВНАЯ МИНИМИЗАЦИЯ....................................15 Глава 1. Основы теории и методов безусловной минимизации . ... 15 § 1. Сведения из математического анализа .... 15 § 2. Условия экстремума.........................................22 § 3. Существование, единственность, устойчивость минимума ... 25 § 4. Градиентный метод....................................... 29 § 5. Метод Ньютона.............................................36 § 6. Роль теорем сходимости....................................39 Глава 2. Общие схемы исследования итеративных методов..............44 § 1. Первый метод Ляпунова.....................................44 § 2. Второй метод Ляпунова.....................................49 § 3. Другие схемы..............................................59 Глава 3. Методы минимизации........................................63 § 1. Модификации градиентного метода и метода Ньютона ... 63 § 2. Многошаговые методы...................................... 68 § 3. Другие методы первого порядка.............................77 § 4. Прямые методы.............................................87 Глава 4. Влияние помех.............................................94 § 1. Источники и типы помех....................................94 § 2. Градиентный метод при наличии помех.......................97 § 3. Другие методы минимизации при наличии помех..............100 § 4. Прямые методы............................................103 § 5. Оптимальные методы при наличии помех..................... 107 Глава 5. Минимизация недифференцируемых функций...................114 § 1. Сведения из выпуклого анализа.............................114 § 2. Условия экстремума, существование, единственность и устойчи- вость решения..................................................124 § 3. Субградиентпый метод......................................128 § 4. Другие методы.............................................134 § 5. Влияние помех.............................................144 § 6. Поисковые методы......................................... 146 Глава 6. Вырожденность, миогоэкстремальность, нестационарность . . 150 § 1. Вырожденный минимум...................................... 150 § 2. Миогоэкстремальность......................................166 § 3. Нестационарность..........................................175
4 ОГЛАВЛЕНИЕ ЧАСТЬ И. УСЛОВНАЯ МИНИМИЗАЦИЯ....................................179 Глава 7. Минимизация на простых множествах.......................179 § 1. Основы теории............................................179 § 2. Основные методы..........................................185 § 3. Другие методы............................................192 § 4. Влияние помех............................................196 Глава 8. Задачи с ограничениями типа равенств....................199 § 1. Основы теории............................................199 § 2. Методы минимизации...................................... 210 § 3. Учет возможных осложнений................................220 Глава 9. Общая задача математического программирования .... 225 § 1. Выпуклое программирование (теория)......................225 § 2. Нелинейное программирование (теория)....................240 § 3. Методы выпуклого программирования.......................247 § 4. Методы нелинейного программирования.....................263 Глава 10. Линейное и квадратичное программирование.............. . 268 § 1. Линейное программирование (теория)......................268 § 2. Конечные методы линейного программирования..............281 § 3. Итерационные методы линейного программирования..........288 § 4. Квадратичное программирование...........................296 ЧАСТЬ III. ПРИКЛАДНОЙ АСПЕКТ............ . , ..................301 Глава 11. Примеры задач оптимизации..............................301 § 1. Задачи идентификации....................................301 § 2. Оптимизационные задачи в технике и экономике............317 § 3. Задачи оптимизации в математике и физике................330 Глава 12. Практическое решение задач оптимизации.................336 § 1. Процесс решения.........................................336 § 2. Программы оптимизации...................................340 § 3. Тестовые задачи и результаты вычислений.................343 Библиографические указания и комментарии.........................361 Литература.......................................................372 Предметный указатель.............................................383
ПРЕДИСЛОВИЕ Чрезвычайно широкое распространение задач оптимизации в технике, экономике, управлении привело к необходимости ознакомления широкого круга практиков с методами решения подобных задач. Однако инженеру или вычислителю трудно ориентироваться в литературе по оптимизации (большинство имеющихся книг написано «математиками для математиков»), нелегко разобраться в многообразии задач и алгоритмов. В этой книге делается попытка систематического изложения основ со- временной теории и методов оптимизации в форме, доступной инженеру. Используемый математический аппарат минима- лен—достаточно знания начал математического анализа, ли- нейной алгебры и теории вероятностей. Изложение построено на последовательном усложнении рассматриваемых задач. Вна- чале описываются наиболее простые задачи безусловной мини- мизации гладких функций, затем исследуется влияние различ- ных осложняющих факторов — помех, негладкое™ функций, вырожденности минимума, наличия ограничений. Анализ каж- дого класса задач проводится единообразно — вводится требуе- мый математический аппарат, затем обосновываются условия экстремума, результаты о существовании, единственности и устойчивости решения, и, наконец, описываются основные ме- тоды решения и исследуются их свойства. Главное внимание уделяется идейным основам методов, их сравнительному ана- лизу; показано, как теоретические результаты служат фунда- ментом при построении и изучении методов. На примерах при- кладных задач оптимизации обсуждается взаимоотношение общих и специальных методов решения. Дана обширная ком- ментированная библиография, позволяющая читателю в случае надобности обратиться к более подробным работам на интере- сующую его тему. Включенный в книгу материал во многом отличается от тра- диционного. Нередко учебники по математическому программи- рованию сводятся к описанию техники симплекс-метода линей- ного программирования. Мне этот круг вопросов нс кажется центральным; ему посвящен лишь один параграф. В то же время большое внимание уделено задаче безусловной миними- зации, которая дает богатый материал для обсуждения основ- ных идей теории и методов оптимизации. Среди нестандартных разделов книги —задачи негладкой оптимизации, вырожденные
6 ПРЕДИСЛОВИЕ и нестационарные задачи, задачи с ограничениями типа ра- венств, условия устойчивости экстремума, влияние помех на ме- тоды оптимизации, анализ общих схем исследования сходимости итеративных методов и т. д. Систематически обсуждаются «наивные» вопросы, которые не принято задавать в математи- ческой литературе. Например: зачем нужны условия экстре- мума? Какова польза от теоретических результатов о сходимо- сти методов? Можно ли реально решать неустойчивые задачи оптимизации? и т. п. Книга целиком посвящена конечномерным задачам. Это обу- словлено как ограничениями на объем работы, так и предпола- гаемым уровнем математических знаний. Поэтому не рассма- триваются такие важнейшие вопросы, как современная теория условий оптимальности в общих экстремальных задачах, за- дачи вариационного исчисления и оптимального управления и т. д. Вместе с тем мне кажется, что конечномерный случай очень богат идеями и результатами; он может служить прекрас- ной «моделью» более общих задач оптимизации. Знакомый с функциональным анализом читатель без труда заметит, что многие утверждения автоматически переносятся на задачи в гильбертовом или банаховом пространстве, однако в тексте по- добные обобщения не приводятся. В книгу не включены также дискретные задачи оптимизации. Они требуют совсем иных ме- тодов исследования, чем непрерывные, и примыкают к комби- наторике и математической логике. Мне неоднократно приходилось читать лекции по теории и методам оптимизации, в частности в Московском государствен- ном университете и Институте проблем управления. На их при- мере я убедился, сколь различен подход к предмету у матема- тиков, вычислителей и практиков. Предлагаемая книга пред- ставляет собой попытку некоторого компромиссного решения, рассчитанного на все эти категории читателей. Обращаясь к математикам, я хотел бы подчеркнуть, что данная книга —не учебник, она не связана с имеющимися вузовскими програм- мами по курсу «методы оптимизации», не все приводимые тео- ремы доказаны, много материала вынесено для самостоятель- ной работы в упражнения и т. д. С другой стороны, вычислитель не найдет окончательных формулировок алгоритмов или гото- вых текстов программ оптимизации; в работе нет обсуждения важных деталей вычислительной «технологии»; ряд приводимых результатов представляет лишь теоретический интерес. Иными словами, книга не может служить сборником готовых рецептов решения конкретных задач. Наконец, инженеру или экономисту придется примириться с несколько абстрактным характером изложения (примеры и приложения даны лишь в заключитель- ных главах).
7 СПИСОК ОБОЗНАЧЕНИЙ Большое значение для меня имела продолжительная совмест- ная работа с Я- 3. Цыпкиным, который является инициатором написания этой книги. Постоянная творческая активность я. 3. Цыпкина, его эрудиция и интерес к задачам оптимизации оказали серьезное влияние па формирование моих взглядов на предмет и методологию данной области науки. Я многому научился у своих учеников; в частности, вычислительный опыт Е. Н. Белова и В. А. Скокова существенно помог мне при напи- сании книги. Большой труд по редактированию взял на себя Ю. Е. Нестеров. Неоценимую помощь в работе над книгой мне оказала Г. М. Корпелевич. Высокий профессионализм Г. Н. Ар- хиповой позволил избежать многих трудностей при оформле- нии рукописи. Всем названным лицам я выражаю глубокую признательность. Апрель, 1980 г. Б. Т. Поляк СПИСОК ОБОЗНАЧЕНИЙ R" — п-мерное вещественное евклидово пространство. {хь ..., хп} — компоненты вектора х е R". || • II — норма в R": ЩИ2 = *? + + х2. (•, •) — скалярное произведение в R": (х, у) = хгу{ + ... +х„уп. I — единичная матрица. Ат— матрица, транспонированная к А. А+ — псевдообратная матрица к А (§ 1 гл. 6). А В — матрицы А и В симметричны и А—В неотрицательно опреде- лена. А > В — матрицы А и В симметричны и А—В положительно определена. ||А|| — норма матрицы А: ||А||= шах ||Ах||. ||х|| = 1 р(А) —спектральный радиус матрицы А (§ 1 гл. 2). х у — все компоненты вектора х е R" не меньше соответствующих компонент вектора у @ R": Xi Jg yi, i = 1.п. RlJ. — неотрицательный ортант в R": R" = {х е R": х>о}. х L — положительная часть вектора х е R": (х+); = max {0, Xi}, i = 1, ... ..., п. х* = argmin f (x) — любая точка глобального минимума f (х) иа Q: х @ Q /(х*) = тЦЦх). v* хё<2 = Argmin / (х) — множество точек глобального минимума f (х) па Q: = {х* = argmin f (х)}. х esQ W(4. Г(х) — градиент скалярной функции [(х) (§ 1 гл. 1). Vg(x), g'(x)—производная векторной функции g(x), матрица Якоби (§ 1 гл. 1). f"(x)—матрица вторых производных, гессиан (§ 1 гл. 1). ^х (х> У)> Lxx(x, у) — градиент и матрица вторых производных В(х, у) по переменной х. ВНх) — субградиент выпуклой функции (§ 1 гл. 5 и § 1 гл 9). ОеГ(х) — е-субградиент выпуклой функции (§ 1 гл. 5).
8 СПИСОК ОБОЗНАЧЕНИЙ ['(х; у) —производная функции f (х) в точке х по направлению у (§ 1 гл. 1 п § 1 гл. 5). £)(/) —область определения функции [(х) (§ 1 гл. 5). Conv Q — выпуклая оболочка множества Q (§ 1 гл. 5). Q0 - - внутренность множества Q. 0 — пустое множество. Рр(х) —проекция точки х иа множество Q (§ 1 гл. 5). р(х, Q) —расстояние от точки х до множества Q:p(x, Q) = inf ||х — у\\. о(й(х)) — если g: Л: R"->RS н llg(x) ||/||/i (х) ||-> 0 при ||х||->0, то g(x) = o(h(x)). O(h(x))—если g: R"Rm, h: R"-*R’ и найдутся e > 0, а такие, что ||g (x) || gc a:’|/i (x) || при ||xil < e, to g (x) О (Л(х)). о (и*) — если последовательности ut е R", vk e Rm, k = 1, 2 .... таковы, ЧТО ||U*ll/||£ZjtII 0 при k-+ ос, то vh = O(Mft)—если для последовательностей lit e R", V/, e Rm, k = 1, 2 ..., найдутся a > 0, ka такие, что |1щ<|| сД alludl при k kQ, то vk = 0{ик)- Mg — математическое ожидание случайной величины g. М (g|x)—условное математическое ожидание случайной величины g, за- висящей от х, при фиксированном значении х. V—квантор общности: V.veO--«для всех = А—знак, ставящийся в конце доказательства (или в конце утвержде- ния, если последнее приводится без доказательства). Обычно буквы х, у, а, Ь, .. . используются для обозначения векторов, а, р, ... — скаляров, А, В, ... — матриц, I. j, k, ... — целых чисел, Q, S,... — множеств. Итеративная последовательность векторов обозначается х°, х1, ... . .., хк, . .. ; X; — компоненты вектора х. Нумерация лемм, теорем и формул в каждом параграфе независимая. При ссылках в пределах параграфа указывается только помер формулы, в пределах главы — помер формулы п параграфа, в остальных случаях приво- дится номер формулы, параграфа и главы.
ВВЕДЕНИЕ Обычно наши действия в условиях неоднозначности выбора определяются некоторой целью, которую мы стремимся достичь наилучшим образом. Тем самым человеческая деятельность свя- зана с постоянным (сознательным или бессознательным) реше- нием оптимизационных задач. Более того, многие законы при- роды носят вариационный характер, хотя здесь и неуместно говорить о наличии цели. Можно было бы думать, что подобная распространенность задач оптимизации должна была найти свое отражение в мате- матике. Однако в действительности до середины нынешнего столетия задачи на экстремум рассматривались в математике лишь эпизодически, развитая теория и методы решения подоб- ных задач были созданы совсем недавно. Наиболее простая задача безусловной минимизации функции многих переменных привлекла внимание математиков во вре- мена, когда закладывались основы математического анализа. Она во многом стимулировала создание дифференциального исчисления, а необходимое условие экстремума (равенство гра- диента нулю), полученное Ферма в 1629 г., явилось одним из первых крупных результатов анализа. Позже в работах Нью- тона и Лейбница были по существу сформулированы условия экстремума II порядка (т. е. в терминах вторых производных) для этой задачи. Другой класс задач на экстремум, традиционно рассматри- вавшийся в математике, — это задачи вариационного исчисле- ния. Следы интереса к ним можно найти и в античной мате- матике (разного рода изопериметрические проблемы), однако подлинное рождение вариационного исчисления произошло в конце XVIII века, когда И. Бернулли сформулировал знамени- тую задачу о брахистохроне. На современном языке классиче- ская задача вариационного исчисления представляет собой бес- конечномерную задачу безусловной оптимизации с минимизи- руемым функционалом специального (интегрального) вида. Условия экстремума I порядка в вариационном исчислении были получены Эйлером (уравнение Эйлера), а II порядка — Лежандром и Якоби. Важный вопрос о существовании решения в вариационном исчислении был впервые поставлен Вейер- штрассом во второй половине XIX века. Обе задачи, о которых говорилось выше (конечномерная и бесконечномерная), являются примерами задач безусловной
10 ВВЕДЕНИЕ минимизации. Задачи на условный экстремум рассматривались в классической математике лишь для ограничений типа равенств. Знаменитое правило множителей Лагранжа (сформулированное в XVIII веке) представляет собой необходимое условие экстре- мума I порядка в подобных задачах (и в конечномерных, и в задачах вариационного исчисления). Поразительно, что такие же условия для задач с ограничениями типа неравенств были получены лишь недавно. Сами по себе системы неравенств (вне связи с задачами минимизации) изучали Фурье, Минковский, Вейль и другие ученые; созданный ими аппарат позволял без труда получить условия экстремума в задачах с ограниче- ниями— неравенствами. Первые работы по экстремальным задачам при наличии ограничений общего вида относятся к концу 30-х — началу 40-х годов нашего века. Корни этих работ были различны. Специалистов по вариационному исчислению, принадлежавших к Чикагской школе (Блисс, Больца, Макшейн, Грейвс, Хестенс и др.), стимулировал интерес возможно более широкой поста- новки вариационных задач. Здесь в 1937 г. появилась работа Валентайна, посвященная условиям экстремума для задач ва- риационного исчисления при наличии разного рода ограничений типа неравенств. Позже были созданы (Макшейн, Кокс) общие схемы анализа абстрактных экстремальных задач. Одному из аспирантов Чикагского университета, Карушу, было поручено исследовать в качестве упражнения конечномерные задачи ми- нимизации с общими ограничениями. Каруш получил в 1939 г. условия экстремума первого и второго порядков для гладкого случая; к 'его работе не отнеслись серьезно, и она не была опу- бликована. К тем же по существу условиям экстремума не- сколько позже пришел американский математик Фриц Джон, занимавшийся экстремальными проблемами в геометрии (типа отыскания эллипсоида наименьшего объема, описанного вокруг заданного выпуклого тела). Работа Джона была отвергнута одним серьезным математическим журналом и была напечатана лишь в 1949 г. Независимо от американских исследований оптимизацион- ная тематика развивалась и в СССР. Пионером в этой области был Л. В. Канторович, опубликовавший в 1939 г. книгу, содер- жавшую математические постановки ряда экономических задач. Последние не укладывались в рамки стандартного математи- ческого аппарата, а именно, являлись задачами минимизации линейной функции на множестве, задаваемом линейными огра- ничениями типа равенств и неравенств. Л. В. Канторович раз- работал теорию подобных задач и предложил некоторые (не полностью алгоритмизованные) методы их решения. В 1940 г. появилась заметка того же автора, содержавшая общую форму- лировку условий экстремума при наличии ограничений в беско-
ВВЕДЕНИЕ 11 нечномерном пространстве. Работы Л. В. Канторовича в то время не привлекли внимания математиков и остались, по су- ществу, незамеченными. Как видит читатель, судьба не благо- приятствовала первым исследованиям по пеклассическим за- дачам оптимизации. Время для них созрело несколько позже, в конце 40-х годов. Под влиянием прикладной тематики, которой ему приходилось заниматься в годы войны, Данциг в США стал изучать задачи минимизации линейной функции при линейных ограничениях, получившие название задач линейного программирования. Он сформулировал условия оптимальности решений в линейном программировании. Под влиянием работ фон Неймана по тео- рии игр, Данциг, Гейл, Кун и Таккер создали теорию двойствен- ности в линейном программировании — специфическую форму- лировку условий экстремума. Вскоре после разработки теории линейного программирова- ния возникает ее естественное обобщение на нелинейный слу- чай. Задача минимизации нелинейной функции при нелинейных ограничениях была названа задачей математического програм- мирования (что вряд ли можно признать удачным, учитывая перегруженность обоих терминов). Если и минимизируемая функция, и ограничения выпуклы, то говорят о задаче выпук- лого программирования. Условия экстремума для задач мате- матического программирования стали широко известны после работы Куна и Таккера 1950 г.; по существу, это были те же условия Каруша — Джона. Для выпуклого случая Кун и Так- кер сформулировали условия экстремума в терминах седловой точки; эта формулировка пригодна и для негладких задач. Существенный прогресс в теории оптимизации был достигнут при изучении так называемых задач оптимального управления, являющихся непосредственным обобщением классической за- дачи вариационного исчисления и заключающихся в оптимиза- ции функционалов от решений обыкновенных дифференциаль- ных уравнений, правые части которых включают подлежащие выбору функции («управления»). Необходимые условия опти- мальности для этих задач были сформулированы и доказаны Л. С. Понтрягиным, В. Г. Болтянским и Р. В. Гамкрелидзе в 1956—1958 гг. в форме так называемого принципа максимума. В иной форме условия оптимальности для подобных задач были получены Веллманом на основе идей динамического програм- мирования. Эти результаты были столь связаны со специфиче- ской формой задач оптимального управления, что не сразу было осознано их родство с условиями экстремума для задач математического программирования. л Р годы появился цикл работ (А. Я. Дубовицкого и А. А. Милютина, Б. Н. Пшеничного, Нейштадта, Халкина, Варги
12 ВВЕДЕНИЕ и других авторов), в которых были предложены общие схемы получения условий экстремума для абстрактных задач оптими- зации с ограничениями, позволившие охватить как теорему Куна — Таккера, так и принцип максимума. Это дало возмож- ность по-новому взглянуть на известные результаты и, в част- ности, выделить в них стандартную часть, которую можно полу- чить с помощью общих схем, и нестандартную, связанную со спецификой задачи. Удобным аппаратом для исследования экстремальных задач оказался выпуклый анализ — сравни- тельно новый раздел математики, получивший завершенную форму в работах Р. Рокафеллара. В настоящее время тех- ника вывода условий оптимальности развита в совершен- стве. Выше в основнохм говорилось о той части теории оптимиза- ции, которая связана с условиями экстремума. Однако найти с помощью условий экстремума явное решение задачи удается лишь в редких случаях. Сложность или невозможность отыска- ния аналитического решения обнаружилась и в других разделах математики; постепенно стало ясно, что любая задача может считаться решенной, если указан алгоритм, позволяющий чис- ленно построить приближенное решение с требуемой точностью. Этот принципиально новый подход, подкрепленный появлением ЭВМ и приведший к возникновению вычислительной матема- тики, существенно затронул и проблематику оптимизации. Од- ним из центральных направлений здесь стала разработка и обо- снование численных методов решения. Математиков прошлого относительно мало интересовали вы- числительные проблемы, и хотя некоторые методы решения не- линейных уравнений и безусловной минимизации связывают с именами Ньютона, Гаусса, Коши, эти результаты оставались изолированными в творчестве упомянутых ученых и их после- дователей. Пожалуй, первыми нужду в численных методах минимиза- ции испытали статистики. В задачах оценки параметров при- менение метода максимального правдоподобия или метода наи- меньших квадратов приводило к необходимости отыскания экстремума функции многих переменных (вообще говоря, неква- дратичной). Статистикам (Карри, Левенбергу, Крокету, Чер- нову и другим) принадлежат первые исследования по числен- ным методам безусловной минимизации, выполненные в 40-х— 50-х годах. В связи с проблемами планирования эксперимента и решения уравнений регрессии в работах Бокса, Роббинса и Монро, Кифера и Вольфовица в начале 50-х годов были пред- ложены методы минимизации функций при наличии случайных помех. Другим разделом математики, где происходило зарождение методов оптимизации, была линейная алгебра. Необходимость
ВВЕДЕНИЕ 13 решения больших систем линейных уравнений, возникающих при конечно-разностной аппроксимации уравнений с частными производными, привела к развитию итеративных методов линей- ной алгебры. Но задача решения системы линейных уравнений эквивалентна минимизации квадратичной функции, и многие итеративные методы удобно строить и обосновывать, опираясь на этот факт. Таковы методы покоординатного спуска, наиско- рейшего спуска, сопряженных градиентов и ряд других методов, которые были созданы в линейной алгебре к началу 50-х годов. Естественным шагом было перенесение подобных методов на неквадратичный случай. С необходимостью решения задач оптимизации столкнулись и специалисты по теории автоматического регулирования. Тру- дами В. В. Казакевича, А. А. Фельдбаума, А. А. Первозванского в 50-х годах была создана теория экстремального регулирова- ния и предложены специальные методы оптимизации действую- щих объектов в реальном масштабе времени. Первый численный метод нелинейного программирования — метод штрафных функций — был введен Курантом в 1943 г. из соображений, связанных с физической природой рассматри- вавшейся задачи. Наконец, мощный импульс для развития методов оптимиза- ции дал предложенный Данцигом в конце 40-х годов симплекс- метод для решения задач линейного программирования. Оби- лие приложений и наличие хороших программ для ЭВМ при- вели к широкой популярности симплекс-метода прежде всего среди экономистов. До какого-то времени такого рода исследования были спора- дическими и не объединялись ни единым подходом, ни аппара- том. Однако к середине 60-х годов в рамках вычислительной математики сложилось самостоятельное направление, связан- ное с численными методами оптимизации. С тех пор непрерывно шло интенсивное развитие этого направления как вширь (раз- работка новых методов, исследование новых классов задач), так и вглубь (выработка единого аппарата для анализа сходимости и скорости сходимости, классификация и унификация методов). В настоящее время эта область вычислительной математики может считаться окончательно сформировавшейся. Разработано множество численных методов для всех основных классов за- дач оптимизации — безусловной минимизации гладких и неглад- ких функций в конечномерных и бесконечномерных пространст- вах, условной минимизации при ограничениях типа равенств и (или) неравенств в выпуклом или невыпуклом случае и т. д. Для большинства методов имеется строгое обоснование, выяс- нена скорость сходимости, установлена область применимости. Конечно, многие проблемы еще не решены до копца (построение
14 ВВЕДЕНИЕ эффективных методов для некоторых специальных типов задач, проблема оптимальных методов, подробная численная проверка имеющихся алгоритмов, создание доступных и отработанных машинных программ и т. п.). Однако, по-видимому, период наи- большей активности в области численных методов оптимизации остался позади. В предлагаемой вниманию читателя книге делается попытка систематического изложения современного состояния основ оптимизации.
ЧАСТЬ I БЕЗУСЛОВНАЯ МИНИМИЗАЦИЯ Глава 1 ОСНОВЫ ТЕОРИИ И МЕТОДОВ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Мы начинаем изучение проблем оптимизации с классической задачи безусловной минимизации гладкой функции: min f (х), х е Rra. Этой задаче будет уделено большое внимание не только из-за ее важности, но и потому, что в силу ее простоты для нее наибо- лее четко видна схема математического исследования общих оптимизационных задач и идейные основы методов оптимизации. § 1. Сведения из математического анализа 1. Дифференцирование скалярных функций. Скалярная функция f(x) «-мерного аргумента х (кратко это записывается f: R«->R> ) называется дифференцируемой в точке х, если най- дется вектор а е R" такой, что для всех i/eR" f(x + f/) = f(x) + (a, у) + о(у). (1) Вектор а в (1) называется производной или градиентом функции f(x) в точке х и обозначается f'(x) или Vf(x). Итак, градиент определяется равенством f (х + у) = f (х) + (Vf (х), у) + о (у). (2) Иначе можно сказать, что функция дифференцируема в точке х, если она допускает линейную аппроксимацию первого порядка в этой точке, т. е. найдется линейная функция f(^) = /(x) + + (Vf(x), у) такая, что |f(x-]-z/)— f (у) \ — о(у). Ясно, что гра- диент определяется однозначно, при этом Vf(x) — вектор с ком- понентами (df(x)/dxi, ..., df(x)/dxn). Вычислять градиент можно, во-первых, непосредственно из определения, во-вторых, с помощью его координатной записи и, в-третьих, с помощью правила дифференцирования сложной функции (см. ниже (12)). Пусть, например, f(x)—квадратичная функция f(x) = (Ax, х)/2 —(6, х), где А — симметричная «X «-матрица, b е R". Тогда f(x + ^) = == (Д(х+г/), х + у)/2-(Ь, (х + у)) = (Ах, х)/2- (Ь, х) + -НАх-б, у) + (Ау, y)/2 = f(x) + (Ax-b, у) + (Ау, у)/2. Но I Иг/, У) | X НАШИ2, поэтому (Ау, у)/2 = о(у). Итак, f(x) диф- ференцируема в любой точке х и Vf(x) = Ax — b. (3)
16 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Функция f(x) называется дифференцируемой на множестве QczRn, если она дифференцируема во всех точках Q. Если f(x) дифференцируема на всем пространстве R", то говорят просто, что она дифференцируема. Пусть f(x) дифференцируема на отрезке [х, х + у] (т. е. для точек вида х -ф ту, 0 кф т 1). Рассмотрим функцию одного пе- ременного ф(т) = f(x + ту) и вычислим ее производную для Оцфтгф 1: Ф (т + Ат) — ф (г) f (х + (г + Аг) у) — + ту) = Ат Ат __(W (* + ту), Ату) + о (Ату) Ат ’ ф' (т) = lim ф (т + \v~ '-Т) = (vf (х + т>У), У). Ат-»0 Таким образом, ф(т) дифференцируема на [0, 1] и ф/(т) = (УНх + тг/), у). (4) Величина № У) = Нт (5) е-»+0 8 называется производной по направлению (или вариацией) функ- ции f(x) в точке х по направлению у. Производная по направ- лению может существовать и для негладких функций. Напри- мер, для f(x)=||x|| имеем f(0; у) = \\у\\. Если f(x) имеет в точке х производную по всем направлениям, линейную по у. f'(х; у) — (а, у), то говорят, что f(x) дифференцируема по Гато в точке х. Такая функция имеет частные производные, причем f'(x; ei) = df(x)/dxi (et — координатные орты), a — (df/dxit ... .... df/dXn). Из формулы (4) следует, что если f(x) дифферен- цируема в точке х, то она дифференцируема и по Гато, причем f' (х; у) = ф' (0) = (Vf (х), у). (6) Обратное, вообще говоря, неверно. Например, функция f- R1, /7 фг 2, вида fl, если || х — а || = || а ||, х ф= 0, f (х) = S п (7) (.0 в остальных точках, где а <= R", а 0, дифференцируема в точке 0 по любому на- правлению и f(0; у) — 0 для всех у, т. е. она дифференцируема по Гато в нуле, однако она не дифференцируема (и даже не непрерывна) в этой точке. Отметим еще, что иногда (чтобы под- черкнуть отличие от дифференцируемости по Гато) употреб- ляют термин «дифференцируемость по Фреше» вместо «диффе- ренцируемость».
§ I. СВЕДЕНИЯ ИЗ МАТЕМАТИЧЕСКОГО АНАЛИЗА 17 Если функция f(x) дифференцируема на [х, х + у], то, поль- зуясь (4) и формулой Ньютона —Лейбница ф(1) = <р(0)4- । ^ф'(т)г/т, получаем запись остаточного члена в (2) в инте- О тральной форме: 1 f (X + у) = f W + J (V/ (х + ту), у) ах = О 1 = / (х) + (V/ (х), у) + J (Vf (у + ту) — V/ (х), у) dx. (8) о Другой полезный результат — теорема о среднем — следует из формулы конечных приращений <р(1) = <р(0) + <р'(6), 0 кф 0 < 1, и (4): Цх + У) = f W + (V) (х + 0у)> У), (9) где 0 0 1 — некоторое число. Упражнения. 1. Докажите, что: a) Т||х|| = х/||х|| при х 0; при х = 0 функция |Д|! недифференцируема; б) Vii-Т-Д!3 = 2х+. 2. Докажите, что из непрерывности по х производной Гато следует диф- ференцируемость. 2. Дифференцирование векторных функций. До сих пор речь шла о дифференцируемости скалярных функций. Совершенно аналогично определяется дифференцируемость векторных функ- ций. Функция g: называется дифференцируемой в точке х, если найдется матрица А размерности m X а такая, что для всех у е R" g^ + y) = g(x)A-Ау + о(у'). (10) Матрица А называется производной или матрицей Якоби ото- бражения g'(x), и для нее применяется то же обозначение g'(х) или Vg(x), что и в скалярном случае. Итак, g-(x + y) = y(x) + y'(x)y + o(y), (Ц) т. е. дифференцируемая в точке х функция допускает в этой точке линейную аппроксимацию первого порядка. Очевидно, что для дифференцируемой векторной функции g (х) — (o-t (х), ... g'm(x)) элементы матрицы Якоби определяются формулой g'W<7 = dgi(x)/dxj. Пусть g: R"-> — дифференцируемая в точке х функция, a h: Rm->RS дифференцируема в точке g(x). Тогда спра- ведливо правило дифференцирования сложных функций [Л (g (*))]' —/г' / (х), (12) где в правой части стоит произведение матриц ф л g\
18 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Теорема о среднем для векторных функций неверна, т. е., во- обще говоря, не существует такого О сф О 1, что g (х + у) = g (х) + g' (х + 9г/) У для дифференцируемой на [х, х -ф у] функции g: R'!->Rm, т>1. Однако справедлива формула, аналогичная (8): если g(x) дифференцируема на [х, х + у] > то 1 g (х + У) = g (х) + (* + ху) у dr = О 1 = g(x) + g'(x)y + 5 (g' (х + ту) — g' (х)) у dr. (13) о Из формулы (13), в частности, получаем следующие полез- ные оценки. Если ||/У(х + ху) || L при О т 1, то ||g(x + У) — g(x)||<L|| 1/||, (14) а если g'(x) удовлетворяет условию Липшица на [х, х-^-'у]: llg'(u) — £Г'О) II vll, и, V (=[х, х + у], то II g (X + у) — g (х) — g' (х) у II < LII у 1172. (15) Как и в скалярном случае, функция g: R"->Rm, дифферен- цируемая во всех точках R", называется дифференцируемой. Упражнение. 3. Используя (12) и результат упражнения 1, покажите, что VI! (Ах — — &)+И2 — 24z(Ах— &)+, где А — матрица хрХ п. 3. Вторые производные. Скалярная функция f(x) на R" на- зывается дважды дифференцируемой в точке х, если она диф- ференцируема в этой точке и найдется симметричная п X «-ма- трица Н такая, что для всех у R" f (х + У) = f (х) + (Vf (х), у) + (Ну, у)/2 + о(\\у ||2). (16) Эта матрица называется матрицей вторых производных, матри- цей Гессе или гессианом и обозначается /’"(х) или V2f(x). Иначе говоря, функция дважды дифференцируема в точке х, если она допускает квадратичную аппроксимацию второго порядка в окрестности этой точки, т. е. существует квадратичная функция f(y) = f<x) + (yf(x), z/) + (V2f(x)z/, у)/2 такая, что | f (х + у) -- — 1(У) I = о(Й112). Уточним полученные ранее оценки для дважды дифференци- руемых функций. Рассмотрим вновь скалярную функцию ф(т) = = f(x + ту) в предположении, что f дважды дифференцируема
§ 1. СВЕДЕНИЯ ИЗ МАТЕМАТИЧЕСКОГО АНАЛИЗА ' 19 на [х, х + у]. Так же, как и выше, показывается, что эта функ- ция дважды дифференцируема и qp"(r)==(V2f (х + ту)у, у). (17) Тогда из формулы Тейлора с остаточным членом в инте- 1 t гральной форме ср (1) == Ф (0) + q/ (0) + q>" (х) dx dt следует о о 1 t f(x + t/) = f(x) + (Vf(x), у) + J + y)d%dt. (18) о о В частности, если |[V2f(x ту) || Е для 0 т 1, то отсюда получаем \f(x + y)-f(x)-(Vf(x), y)\^(L/2)\\y\\2, (19) а если || V2/ (х + ту) — (х) || < Lt || у ||, то I f (х + у) - f (х) - (V/ (х), у) - (>/2) (V2/ (х) у, у) К (А/6) IIУII3. (20) Если же пользоваться формулой Тейлора с остаточным членом в форме Лагранжа Ф(1) = Ф(0) + ф'(0) + ф"(0)/2, О<0<Я, то получаем, что найдется 0 0 1, для которого f (х + у\) = f (х) + (vf (х), у) + (V2/' (х + 0у) у, у)/2. (21) Упражнения. 4. Покажите, что V3)(x)—матрица с элементами d2f(x)ldxidx/. 5, Докажите, что-, a) V2[(Ax, х)/2—(Ь, а)] = А, где А — симметричная «X «-матрица, b eR"; б) V'2Wi = /IWI-1 — ххт || х|| -3 для a=/=0; в) V2(c, а)2= = 2ссг, с е R’’. 6. Проверьте, что f"(x) = (f'(x))', т. е. производная векторной функции f'(x) совпадает со второй производной f(x). 4. Выпуклые функции. Понятие выпуклости играет огромную роль в теории экстремальных задач, и мы будем многократно обращаться к нему. Числовая функция f(x) на R" называется выпуклой, если f (Ах + (1 - X) у) < If (х) + (1 - Л) f (у) (22) Для любых х, у е R", 0 А 1- Это определение имеет нагляд- ный геометрический смысл — график функции на отрезке [х, у] лежит ниже хорды, соединяющей точки (х, f(x)) и (У, Ну)) (рис. 1). В определении выпуклости фигурируют две точки х, у и их выпуклые комбинации. Совершенно аналогичное неравенство справедливо для любого числа точек и их выпук- лых комбинаций.
20 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Лемма 1 (неравенство Йенсена). Пусть f{х) — выпуклая функция на R”. Тогда для любых х1, ..., хл стл R" и ф? 0, k k, У О = 1, г-1 Жх!+ ... WKWH ••• + W(A А (23) Функция f(x), для которой —f(x) является выпуклой, на- зывается вогнутой Очевидно, что аффинная функция /(х) = х Ах+Ю-Кд у Рис. 1. Выпуклая функция. ции. Функция f(x) на R" любых х у, 0 < /. < 1, = (а, х) + [J является и выпук- лой и вогнутой. Из определения очевидно, что если )i(x) выпуклы, t=l,..., tn, то ГП И f(x)= Е Vifdx), уz>0, и г = 1 f (х) ~~ max fi(x) также будут I < г < m выпуклы. Важным частным случаем выпуклых функций являются строго и сильно выпуклые функ- называется строго выпуклой, если для f (%х + (1 - %) у) < U (х) + (!-%)/ (г/), (24) и сильно выпуклой с константой I 0, если при 0 А щ 1 ИХх + (1 - %) г/)< V (х) + (1 ~ 'М f (У) ~ & (1 - X) О х - у ||2/2. (25) Ясно, что сильно выпуклая функция строго выпукла. Важно иметь аналитические критерии, по которым можно судить о выпуклости функций. Такие критерии существуют и очень просты для случая дифференцируемых функций. Они основываются на следующем элементарном результате. Лемма 2. Пусть ф(т)— дифференцируемая функция на R!. Тогда выпуклость ф(т) эквивалентна монотонности произ- водной (4>'(ti) ф'Стг) при тц^тг), строгая выпуклость — строгой монотонности (ф'(т1) > Ф'Ч'Гг) при ti>t2), а сильная выпуклость — сильной монотонности (ф(Т1)—Ф(Т2)^/(Т1 — та), Т1 > т2). ▲ Лемма 3. Для дифференцируемой функции f(x) на R" вы- пуклость эквивалентна неравенству fix + у) > f (х) + (Vf (х), у), строгая выпуклость — неравенству f (х + у) > f(x) + (vf (х), у), у 0, (26) (27)
§ 1. СВЕДЕНИЯ ИЗ МАТЕМАТИЧЕСКОГО АНАЛИЗА 21 а сильная выпуклость — неравенству f (х + У) > f W + (V/ (х), у) + III У 1г/2 (28) для любых х, у Rr‘. ▲ Иначе говоря, график (строго) выпуклой функции лежит (строго) выше касательной гиперплоскости, а для сильно вы- пуклой функции график лежит выше некоторою параболоида (рис. 2). Рис. 2. Типы выпуклости: а) выпуклая функция; б) строго выпуклая функ- ция; е) сильно выпуклая функция. Из (26) получаем полезное неравенство (vf (х) - Vf (у), X - у) > 0, (29) являющееся обобщением условия монотонности производной выпуклой функции на многомерный случай. Для строго выпук- лой функции справедливо условие строгой монотонности (Vf(x)-V/(H х-г/)> 0, х^у, (30) а для сильно выпуклой — условие сильной монотонности (yf (х) - vf (у), х - у) > /1| х - у ||2. (31) Наиболее просто критерий выпуклости формулируется для дважды дифференцируемых функций f(x): выпуклость эквива- лентна выполнению условия V2f (х) > 0, (32) а сильная выпуклость — выполнению условия V2/(x)>Z/ (33) для всех х. Если же v2f (х) > 0 (34) для всех х, то f(x) строго выпукла. Последнее условие является лишь достаточным (например, для строго выпуклой функции Дх) = ||х||4 будет V2/(0)= 0) Пусть х* точка „минимума дифференцируемой сильно вы- пуклой (с константой /) функции /(х). Такая точка заведомо
22 ГЛ. 1. ТЕОРИЯ и МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ существуем единственна и V/(x*) —О (см. ниже §§ 2, 3). По- этому из неравенств (28), (31) получаем f(x)>f(x-) + /||x-x*||2/2, (35) (Vf (х), х - xs) > 11| х - х* ||2, (36) 1П(х)||^/||Х-Х*||. (37) Упражнение. 7, Убедитесь в справедливости следующих утверждений: а) функция (Ах, х)/2— (Ь х), А > 0 сильно выпукла; б) функция (Ах, х)/2 — (Ь, х) с вырожденной матрицей А 2г 0 (в част- ности, линейная функция) выпукла, но не строго выпукла; в) функция ||х|| “ выпукла при а 2^ 1, строго-выпукла при а > 1, сильно выпукла только при а = 2. § 2. Условия экстремума Условия экстремума гладких функций на всем пространстве хорошо известны. Мы рассмотрим их, однако, достаточно по- дробно, так как они служат моделью, по которой строятся ана- логичные условия в более сложных случаях. 1. Необходимое условие 1 порядка. Точка х* назы- вается локальным- минимумом f(x) на R", если найдется е > О такое, что f(x)^f(x*) для всех х из е-окрестности х* (т. е. при ||х— х*|| ^е). Иногда в таком случае говорят просто о точке минимума, отбрасывая слово «локальный». Нужно, однако, иметь в виду разницу между локальным и глобальным мини- мумом (т. е. точкой х* такой, что )(х)Дг f(х*) для всех х). В не- обходимых условиях экстремума можно говорить просто о точке минимума, поскольку если некоторое условие выполняется для локального минимума, то оно же справедливо для глобального. При формулировке достаточных условий нужно различать, ка- кой из типов минимума подразумевается. Теорема 1 (Ферма). Пусть х* — точка минимума f(х) на R” и f(x) дифференцируема в х*. Тогда Vf(x*) = 0. (1) Доказательство. Пусть Vf(х*) =0= 0. Тогда f (х* - xVf (х*)) = f (х*) - т || Vf (х*) ||2 + о (Wf (х*)) = = f (х*) - т (|| Vf (х*) ||2 + х-~'-о (т)) < f (х*) для достаточно малых т > 0 по определению о(т). Но это про- тиворечит тому, что х* — точка локального минимума. А Приведенное доказательство весьма поучительно. В предпо- ложении, что условие экстремума не выполняется, показано, как построить точку с меньшим значением /(х). Таким обра- зом, это доказательство указывает путь для построения метода
§ 2. УСЛОВИЯ ЭКСТРЕМУМА 23 минимизации. Такой метод (он называется градиентным) будет подробно изучаться в § 4. 2. Достаточное условие I порядка. Разумеется, если какая- либо точка является стационарной (т. е. градиент в ней обра- щается в 0), то она не обязана быть точкой минимума (рис. 3) — например, она может быть точкой максимума или седло- вой точкой. Для выпуклых функций, однако, такая ситуа- ция невозможна. Теорема 2. Пусть f(x)— выпуклая функция, дифферен- цируемая в точке х*, и Vf(x*) = 0. Тогда х* точка рис 3 Стационарные точки: а — точ- глобального минимума f(x) ка минимума, Ь — точка перегиба, на R\ с — точка максимума. Доказательство следует сразу из формулы (26) § 1, так как f (х) f(x*) -ф (Vf (х*), х — х*) = f (х*) для любого х g R". А Таким образом, для выпуклых функций необходимое усло- вие экстремума является и достаточным. Впоследствии мы уви- дим, что эта ситуация является общей и для других типов вы- пуклых экстремальных задач. 3. Необходимое условие П порядка. Для невыпуклых задач можно продолжить исследование условий экстремума с по- мощью старших производных. Теорема 3. Пусть х*— точка минимума f(x) на R” и f(x) дважды дифференцируема в х*. Тогда . V2/ (х‘) > 0. (2) Доказательство. По теореме 1 Vf(x*) = 0, поэтому для произвольного у и достаточно малых т t (**) С Их* + ху) = f (X*) + т2 (V2/ (х*) у, у)/2 + о (т2), (W)!/, г/)>о(т2)/т2. Переходя к пределу при т->0, получаем (V2f(x*)y, у) Д 0. В силу произвольности у это означает, что V2f(x*)J=: 0- А 4. Достаточное условие II порядка. Теорема 4. Пусть в точке х* )(х*) дважды дифференци- руема, выполнено необходимое условие I гооядка (т. е. = 0) и Ш>о. (3) Тогда х" точка локального минимума.
24 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Доказательство. Пусть у — произвольный вектор с еди- ничной нормой. Тогда f (х* + ту) = f (х*) + т2 (V2/' (х*) у, у)/2 + о (т21| у ||2) > > f (х*) + т2//2 + о (т2), где I > 0 — наименьшее собственное значение V2f(x*), а функ- ция о(т2) не зависит от у. Поэтому найдется то такое, что при О т т0 будет т2//2 о (т2), т. е. f (х* + ту) f (х*). А Если в точке х* выполняются необходимые условия I и II порядков (т. е. Vf(x*) = O, V2f (х*) 0), но не выполняется достаточное условие II порядка (матрица V2f(x*) не является положительно определенной), то х* может и не являться точкой минимума (например, )(х) = х3, xsR’l и в принципе анализ можно продолжить с помощью старших производных. Для одно- мерного случая правило действий хорошо известно (нужно найти первую отличную от 0 производную), для многомерного случая техника вычислений сложна. 5. Зачем нужны условия экстремума? Обычно в книгах по математическому анализу предлагается следующий рецепт для отыскания точек экстремума. Нужно найти все точки, удовле- творяющие необходимому условию I порядка, а затем получен- ные точки исследовать с помощью условий II порядка, отобрав из них точки минимума. Таким образом, создается впечатление, что условия экстремума — эффективный инструмент для реше- ния задач оптимизации. Нужно со всей определенностью подчеркнуть, что это со- вершенно не так. Отыскать в явной форме точку минимума с помощью условий экстремума удается лишь в редких случаях, для специально построенных примеров (они обычно и приво- дятся в учебниках). Дело в том, что решение системы уравне- ний Vf(x) = 0 — задача ничуть не более простая, чем исходная, и явный вид ответа в пей найти, как правило, нельзя. Зачем же в таком случае нужны условия экстремума и по- чему им уделяется столь большое внимание в теории экстре- мальных задач? Отчасти такое внимание является данью тра- диции, когда численные методы оптимизации не изучались, а решением задачи считалось лишь некоторое аналитическое вы- ражение. Нередко при этом вывод условий экстремума для раз- личных типов экстремальных задач превращается в чисто ма- тематическую игру, где целью является получение изощренных формулировок для разного рода вырожденных ситуаций без всякой заботы о том, как пользоваться этими условиями экстре- мума. При чтении некоторых монографий создается впечатле- ние, что формулировка условий оптимальности является глав- ным (пли даже единственным) объектом исследования в обла- сти экстремальных задач.
§ 3. СУЩЕСТВОВАНИЕ, ЕДИНСТВЕННОСТЬ, УСТОЙЧИВОСТЬ 25 На наш взгляд условия экстремума являются той основой, на которой строятся методы решения оптимизационных задач,— с этой точки зрения и нужно рассматривать вопрос о их полез- ности. В дальнейшем мы увидим, что, во-первых, в ряде случаев условия экстремума хотя и не дают возможности явно найти решение, но сообщают много информации о его свойствах. Во- вторых, доказательство условий экстремума или вид этих усло- вий часто указывают путь построения методов оптимизации. Мы уже видели выше, что доказательство условия yf(x*) = 0 есте- ственно приводит к градиентному методу минимизации. В-третьих, при обосновании методов приходится делать ряд предположений. Обычно при этом требуется, чтобы в точке х* выполнялось достаточное условие экстремума. Таким образом, условия экстремума фигурируют в теоремах о сходимости ме- тодов. Наконец, сами доказательства сходимости обычно стро- ятся на том, что показывается, как «невязка» в условии экстре- мума стремится к нулю. У читателя будет в дальнейшем много поводов убедиться в полезности условий экстремума. § 3. Существование, единственность, устойчивость минимума Важной частью математической теории экстремальных задач (и в частности, задач безусловной оптимизации) являются проб- лемы существования, единственности и устойчивости решения. 1. Существование решения. Вопрос о существовании точки минимума обычно решается совсем просто с помощью следую- щей теоремы. Теорема 1 (Вейерштрасс). Пусть f(x) непрерывна на R" и множество Qa= {х: f(x)^a} для некоторого а непусто и ограничено. Тогда существует точка глобального минимума f(x) на Rn. < Доказательство. Пусть f(xft)->inf f(х) > а, тогда хк е хе Rra е Qa Для достаточно больших k. Множество Qa замкнуто (в силу непрерывности f(x)) и ограничено, т. е. компактно, а потому у последовательности хк существует предельная точка х* е Qa. Из непрерывности f(x) следует, что f(x*)~ inf f(x), т. e. x* = argmin f(x). A Предположение об ограниченности Qa существенно (напри- мер, функции х и 1/(1 -ф х2) непрерывны на R1, но не имеют точки минимума). В некоторых случаях можно доказать су- ществование решения и в ситуациях, не охватываемых теоре- мой 1 (см. ниже упр. 2). Упражнения. стиг^т^™аЖИТе’ Д° диФФеРенциРУемая сильно выпуклая функция на R"’ до- стигает минимума (воспользуйтесь неравенством (28) § 1 и теоремой 1).
26 ГЛ. 1, ТЕОРИЯ и МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ 2. Пусть f(x) —г(Ах, х) — (&, %), А>0 и f(x) ограничена снизу (напри- мер, Щх) =- \\Вх — d||2). Докажите, что f(x) достигает минимума на R,!, хотя условия теоремы 1, вообще говоря, не выполняются (множество Qa не обя- зательно ограничено). 2. Единственность решения. Будем называть точку минимума локально единственной, если в некоторой ее окрестности нет других локальных минимумов. Будем говорить, что х* — невы- рожденная тонка минимума, если в ней выполнено достаточное условие экстремума II порядка, т. е. у/(х*) = 0, V2f(x*)> 0. Теорема 2. Невырожденная точка минимума локально единственна. Доказательство. В соответствии с упражнением 6 § 1 Vf(x) — Vf(x*)+ V2f(x*) (х— х*) + о (х — х*), поэтому ||Vf(x)|| — — ilV2f(x*) (х —X*) II + о(||х—- х*||) 1\\х-- Х*|| 4-0 (||х — х*||) >0 для достаточно малых ||х — х*|1, поскольку при V2/(х*) = А > О имеем ||4х|| /||х|| для всех х, где /> 0 — наименьшее соб- ственное значение А. Таким образом, в некоторой окрестности х* нет стационарных точек f(x), а значит, и точек минимума. А Для выпуклых функций ответ на вопрос об единственности минимума часто может быть получен совсем просто. Теорема 3. Точка минимума строго выпуклой функции (глобально) единственна. Доказательство следует непосредственно из определения строгой выпуклости. А 3. Устойчивость решения. При практическом решении задач оптимизации постоянно приходится сталкиваться со следую- щими проблемами. Пусть метод оптимизации приводит к по- строению минимизирующей последовательности, следует ли от- сюда ее сходимость к решению? Если вместо исходной задачи минимизации решается задача, близкая к ней, можно ли утверждать близость их решений? Такого типа проблемы отно- сятся к области теории экстремальных задач, связанной с по- нятиями устойчивости и корректности. Мы будем пользоваться термином «устойчивость» задач оптимизации, оставляя термин «корректность» для задач, не связанных с оптимизацией (ре- шение алгебраических, интегральных, операторных уравнений и т. п.). Точка х* локального минимума f(x) называется локально устойчивой, если к ней сходится любая локальная минимизи- рующая последовательность, т. е. если найдется 6 > 0 такое, что из f(xfe)->f(х*), \\xk— х*[| гС б следует хй->х*. Теорема 4. Точка локального минимума непрерывной функции f(x) локально устойчива тогда и только тогда, когда она локально единственна. Доказательство. Пусть х* локально единственна. Возь- мем произвольную локальную минимизирующую последова- тельность xk, ||xfe —x*||C6, f(xk)-^f(x*). В силу компактности
§ 3 СУЩЕСТВОВАНИЕ, ЕДИНСТВЕННОСТЬ, УСТОЙЧИВОСТЬ 27 щара в R" из нее можно выбрать сходящуюся подпоследователь- ность xki~>x, ||х — х*|| С 5- Из непрерывности f (х) следует, что = litnf(xfe<) = f(x*), но тогда х = х* (так как х* локально единственная точка минимума). Поскольку это же верно для любой другой подпоследовательности, то и вся последователь- ность хк сходится к х*. Таким образом, к* локально устойчива. Обратно, пусть х* локально устойчива, но существует другая точка минимума х] =г= х, || х\ — х* || 6. Тогда f (xi) = f (х*). Возь- мем последовательность точек х1, х2, ..., поочередно совпадаю- щих то с х*. то с xt Она является минимизирующей, но не схо- дится, что противоречит локальной устойчивости х*. А Аналогично доказывается следующий результат. Теорема 5. Пусть х* — локально устойчивая точка мини- мума непрерывной функции f (х), a g(x) — непрерывная функ- ция. Тогда для достаточно малых е>0 функция f(x)-|-eg(x) имеет локально единственную точку минимума хв в окрестности х* и хе->х* при е->0. Д Таким образом, из устойчивости следует близость точек ми- нимума исходной и «возмущенной» функции. Невырожденная точка минимума, как следует из теорем 2 и 4, является локально устойчивой. В этом случае результат теоремы 5 можно уточнить. Теорема 6. Пусть х*—-невырожденная точка минимума f(x), а функция g(x) непрерывно дифференцируема в окрест- ности х*. Тогда для достаточно малых s > 0 существует хЕ— локальная точка минимума функции f (х) -|- eg(x) в окрестности х*, причем xe = x*-e[V2f(x*)]“1V^(x*) + o(e). А (1) Можно ввести и глобальное понятие устойчивости точек ми- нимума. Для этого нужно в определении слово «локальный» заменить на «глобальный». Именно, точка глобального мини- мума называется глобально устойчивой, если к ней сходится любая минимизирующая последовательность. Будем в этом слу- чае говорить о глобальной устойчивости задачи минимизации. Повторяя почти дословно доказательство теоремы 4, получаем, что если ^х*— единственная точка глобального минимума не- прерывной функции f(x) и множество Qa = {х: /(x)s^a} не- пусто и ограничено для некоторого a>f(x*), то х* глобально устойчива. Требование ограниченности существенно. Напри- мер, у функции Дх) =: х2/(1 ф-х4), xeR1, точка глобального минимума х* = 0 единственна, но не глобально устойчива (так как минимизирующая последовательность xfe—>оо не сходится к X*). Можно было бы ввести следующее более широкое опреде- ление устойчивости, которое не предполагает единственности минимума. Множество А* точек глобального минимума f(x),
28 ГЛ. t. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ назовем слабо устойчивым, если все предельные точки любой минимизирующей последовательности принадлежат X*. Крите- рий слабой устойчивости указан в упражнении 5. Помимо качественной характеристики (устойчива или нет точка минимума), важно иметь количественные оценки устой- чивости. Такие оценки, позволяющие судить о близости точки х к решению х*, если f(x) близко к f(x*), уже были получены ранее для сильно выпуклых функций. Именно, из (35) § 1 по- лучаем || х - х* ||2 < 2Г1 (f (х) - f (х*)), (2) где I — константа сильной выпуклости. Аналогичная локальная оценка справедлива для невырожденной точки минимума: II х - х* |р < 2Г1 (f (х) - f (х*)) + о (f(x) - f (х*)), (3) где I — наименьшее собственное значение матрицы V2/(x*). Таким образом, число I характеризует «запас устойчивости» точки минимума. Оно, однако, не всегда удобно как мера устой- чивости— например, оно меняется при умножении f(x) па кон- станту. Поэтому часто используют следующий «нормирован- ный» показатель. Назовем обусловленностью точки минимума х* число р, = lim ( sup || х — х* ||2/ inf || х — х* ||2), «->0 xelj (4) —{х: f(x) = f(x*) + 6}. Иначе говоря, it характеризует степень вытянутости линий уровня /(х) в окрестности х*. Ясно, что всегда ц 1. Если ц велико, то линии уровня сильно вытянуты—функция имеет овражный характер, т. е. резко возрастает по одним направле- ниям и слабо меняется по другим. В таких случаях говорят о плохо обусловленных задачах минимизации. Если же ц близко к 1, то линии уровня /(х) близки к сферам; это соответствует хорошо обусловленным задачам. В дальнейшем мы увидим, что число обусловленности ц возникает во многих проблемах, свя- занных с безусловной минимизацией, и может служить одним из показателей сложности задачи. Для квадратичной функции f (х) ==- (Ах, х)/2 - (Ь, х), А > 0 (5) имеем А6 — {х: (А(х-—х*), х — х*)=26}, поэтому максимум ||х— х*|| по достигается на векторе xi = x* + yi/i, где ?! — нормированный собственный вектор, отвечающий наимень- шему собственному значению Zi матрицы А, а множитель р определяется из условия xi ез L&, т. е. = у! = (26/%^. Аналогично минимум ||х—-х*|| по хе£а достигается на векторе
§ 4. ГРАДИЕНТНЫЙ МЕТОД 29 хп = х* +'ynln, In — собственный вектор, отвечающий наиболь- шему собственному значению кп, уп — (26/Л.„)/2 (рис. 4). Таким образом, отношение ц (6) == I] лд — ** ||2/|| хп “ х* If = Vi/Y^ = фактически не зависит от 6 и Заметим, что отношение наибольшего к наименьшему собствен- ному значению называется в линейной алгебре числом обуслов- ленности матрицы. Для случая неквад- ратичной функции обу- словленность задачи ее минимизации рав- на числу обусловлен- ности гессиана в точ- ке минимума. Именно, если х*— невырожден- Рис. 4. Обусловленность квадратичной функ- ции. ная точка минимума, то L [Л z , (7) где L — наибольшее, а I — наименьшее собственное значение матрицы V2f(x*). Мы увидим в дальнейшем, что в практических приложениях часто возникают неустойчивые или плохо обусловленные задачи оптимизации. Обсуждение методов их решения будет дано в § 1 гл. 6. Упражнения. 3. Покажите, что точка минимума строго выпуклой непрерывной функции глобально устойчива. 4. Проверьте, что в условиях упражнения 2 множество точек минимума слабо устойчиво. 5. Докажите, что если /(х) непрерывна и = {х-. f(x) а} непусто и ограничено для некоторого а > inf f(x), то множество точек минимума f(x) слабо устойчиво. 6. Покажите, что обусловленность задачи не меняется при монотонных преобразованиях функции и ортогональных преобразованиях переменных, т. е. обусловленность f(x) и f (х) = одинакова, если <р: R’ -> R1 моно- тонно возрастающая непрерывная функция, a U — ортогональная матрица. 7. Убедитесь, что для функции f (х) = Х[ -{- х? в R обусловленность точки минимума равна бесконечности. 8. Докажите, что для дифференцируемой функции f(x) не может выпол- няться неравенство f(x) — а||х~ х*||. сг'> О § 4. Градиентный метод 1. Эвристические соображения. Мы переходим к анализу наи- олее важных в идейном отношении методов безусловной ми- нимизации градиентного и Ньютона. Эти методы, редко
30 ГЛ. 1 ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ применяемые на практике в «чистом виде», служат моделью для построения более реалистических алгоритмов. На примере дан- ных методов будет подробно разобран вопрос о сходимости — будут даны различные доказательства сходимости, описана общая техника построения доказательств, обсуждены соотно- шения между теоретическими результатами о сходимости и практическим использованием методов. Предположим, что в любой точке х можно вычислить гра- диент функции Vf(x). В такой ситуации наиболее простым ме- тодом минимизации f(x) является градиентный, в котором, на- чиная с некоторого начального приближения х°, строится ите- рационная последовательность xfe+‘ = xk — ykVf(xk), (1) где параметр у* 0 задает длину шага. К методу (1) можно прийти из разных соображений. Во-первых, при доказательстве необходимых условий экстре- мума (теорема 1 § 2) мы использовали то обстоятельство, что если в точке х условие экстремума не выполняется (Vf(x)=H= 0), то значение функции можно уменьшить, перейдя к точке х — xVf(x) при достаточно малом т > 0. Итеративно применяя этот прием, приходим к методу (1). Во-вторых, в точке хк дифференцируемая функция f(x) при- ближается линейной fk(x) — f(xk) + (Vf(xfe), x — xk) с точно- стью до членов порядка о(х — xk). Поэтому можно искать ми- нимум аппроксимации /Т(х) в окрестности хк. Например, можно задаться некоторым е* и решить вспомогательную задачу min fk (х). (2) || x-xk II < ей Ее решение естественно принять за новое приближение xft+‘. Можно остаться в окрестности хк и иначе, добавив к fk(x) «штраф» за отклонение от хк. Например, можно решить вспомо- гательную задачу min [fk(x) + afe||x — xft ||2] (3) и ее решение взять в качестве xft+1. Читателю предоставляется убедиться в том, что решение задач (2), (3) задается форму- лой (1). В-третьих, можно в точке хк выбрать направление локаль- ного наискорейшего спуска, т. е. то направление yk, ||yfe|| = 1, для которого достигается минимум f(xA; у). Используя фор- мулу (6) из § 1 для производной по направлению, получаем / = argrnin (V/ (Xй), у) = — Vf (xfe)/|| Vf (xfe) ||. (4) nii=i Таким образом, направление наискорейшего спуска проти- воположно направлению градиента.
§ 4. ГРАДИЕНТНЫЙ МЕТОД 31 Мы привели здесь столь подробно эти соображения, по- скольку они же будут использоваться при построении методов оптимизации в более сложных ситуациях (например, при нали- чии ограничений). Однако в этих ситуациях они могут привести к различным методам. 2. Сходимость. Рассмотрим простейший вариант градиентно- го метода, в котором yk s у: xk+i = xk — yvf(xk'). (5) Нас будет интересовать поведение этого метода при различных предположениях относительно f(x) и у. Теорема 1. Пусть f(x) дифференцируема на R", градиент f(x) удовлетворяет условию Липшица-. || xjf (х) - Vf (</) II < L || х - у ||, (6) f(x) ограничена снизу: f (х) > f > — оо (7) и у удовлетворяет условию О < у < ЦЬ. (8) Тогда в методе (5) градиент стремится к 0: lim V/ (xft) = 0, fe->oo а функция f(x) монотонно убывает: f (х^1) f (х^). Доказательство. Подставим в формулу (8) § 1 х = xk, У——y^fix11) и воспользуемся (6): f (xft+1) = f (xk) — у II Vf (xk) II2 — V (Vf (xk ” M’Vf (xk)) — - Vf (xk), (xfe)) dx < f (x*) — Y II Vf (xft) ||2 + + Ay2 II Vf (xfe) ||2 J т dx = f (xfe) - у (1 - | Ay) II Vf (xfe) ||2. 0 Суммируя неравенства f(xfe+1)<f(x^)— a||vf (xfe) If2, а = у(1-Ау/2) (9) no k от 0 до s, получаем f(xs+1)<Hxn)-af || Vf (xfe)||2. fe=0
32 ГЛ. 1. ТЕОРИЯ И .МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Поскольку а>0 в силу (8), то I II Vf (хй) ||2 Д а-> (f (,Д) - f (V+1)) <a"1 (f ('Л ~ П k- Н) при всех s, т. е. Е II Vf (х':) j)2 < сю. Отсюда || V/ (хк) || -> 0. ▲ k=- о Покажем, что все условия этой теоремы существенны. Нару- шения условия (6) могут быть двух типов. Во-первых, функция f(x) может быть недостаточно гладкой в какой-либо точке. Пусть, например, )(х) = ||х||!+“, 0<а<1. Эта функция диф- ференцируема, но ее градиент не удовлетворяет условию Лип- шица, так как l|V/r(x) — Vf(O)||/j|x—0|| = (ос -f- 1) ЦхЦ01-1 —оо при ||х|| -> 0. В этом случае будет у||V/(xft) || > ||xft — х*|| = ||х*|| при малых ||х&||, т. е. шаг в методе (5) получается большим и моно тонкость убывания f(x) нарушается. Во-вторых, (6) не выпол- няется для функций, растущих быстрее квадратичной. Пусть, например, Дх) = ||х||2+а, ос > 0, тогда ||V/(x) — Vf(O) ||/||х — 0|| = = (2 -4- ос) ||х||а—> оо при |1х|| -->оо. При этом для всякого у>0 можно указать такое х°, что метод (5), примененный к функции ||х||2+«, а > 0, с начальным приближением х°, расходится, по- скольку будет ||х&+!|| > ||х&||, k = 0, 1, ... Если не выполнено условие (7), то функция f(x) не дости- гает минимума и градиент в методе (5) не обязан стремиться к 0 (например, если Дх) линейна: f(x) = (c, х), то ||Vf(x)||s= = 1И1> 0). Наконец, выбирать у, нарушая условие (8), вообще говоря, также нельзя, что видно на примере функции Дх) = Lx2/2, х е R1. Действительно, если у ^з 2/L, то в методе (5) для этой функции будет Дх/с+!) Дз f (xft), k = 0, 1, ..., при лю- бом х°. С другой стороны, при сделанных в теореме 1 предположе- ниях нельзя доказать ничего большего, например, сходимость последовательности xk. Примером может служить Дх) = 1/(1 4- 4-||х||2). Эта функция удовлетгюряет условиям теоремы и при любом х° 0 будет ||хй||—>-оо. Если потребовать, чтобы множество {х: Дх)^Дх0)} быль ограничено, то из xft можно выбрать подпоследовательность, сходящуюся к некоторой стационарной точке х*. Однако точка х* не обязана быть точкой локального или глобального мини- мума. В частности, градиентный метод (5) (или даже (1) с про- извольным выбором у.Д, начатый из некоторой стационарной точки х°, останется в этой точке: хк — х° для всех /г. Иными словами, градиентный метод «застревает» в любой стационар- ной точке — точке максимума, минимума или седловой. Что же касается поиска глобального минимума, то градиентный метод «не отличает» точед локального минимума от глобального и
§ 4. ГРАДИЕНТНЫЙ метод 83 никакой гарантии сходимости к глобальному минимуму он не дает. Наконец, в условиях теоремы 1 скорость сходимости Vf(xk) к 0 может быть очень медленной. Например, для f(x) = 1/х при х^ 1 (вид f(x) при х< 1 безразличен) метод (5) при у = 1, х° = 1 принимает вид хк^ = xk (xft)-2, при этом можно показать (используя лемму 6 § 2 гл. 2), что |Г(?)|=0(Н/з). Рассмотрим поведение градиентного метода для более уз- кого класса• функций— сильно выпуклых. Естественно, здесь удается доказать более сильные результаты, чем в теореме 1 — именно, сходимость итераций хк к точке глобального минимума со скоростью геометрической прогрессии. Нам понадобится несколько неравенств, относящихся к диф- ференцируемым, выпуклым и сильно выпуклым функциям. Лемма 1. Пусть f(x) дифференцируема, \ф(х) удовлетво- ряет условию Липшица с константой hu f(x)^ f* для всех х. Тогда || Vf (х) ||2 2L (f (х) —- Г). (Ю) Доказательство. Сделаем из точки х шаг градиентного метода с у = 1/L. Тогда (см. (9)) f‘ < f (х - L-’vf (х)) < f (х) - (2L)-‘ || Vf (х) ||2. А Лемма 2. Пусть f(x) выпукла и дифференцируема, a Vf(x) удовлетворяет условию Липшица с константой L. Тогда W(х) - Vf (у), x-y)^L-l\\^f (х) - Vf (У) II2. (Н) Доказательство. Докажем (11) лишь для дважды диф- ференцируемых функций. Тогда (см. (13) § 1) 1 Vf (У) = Vf (х) + J V2f (х -ф т (у - х)) (у - х) dx = Vf (х) 4- А (у - х), о 1 где матрица А — (х + т {у -- х)) dr симметрична и неотри- о цательно определена в силу (32) § 1, т. е. Л^О. Кроме того, ||Л|| L, так как ||V2f(x)|| L для всех х в силу условия Лип- шица на градиент. Поэтому (Vf (х) — Vf (у), х — у) — ' = (Д (х - у), х - //)>|| А |Г' || А (х - z/)|f^ || Vf (х) - vf М-
34 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Лемма 3. Пусть f(x) — дифференцируемая сильно выпук- лая (с константой I) функция, х* — ее точка минимума (она существует, см. упр. 1 § 3). Тогда ||Vf(x)||2>2Z(f(x)-f(x*)). А Теорема 2. Пусть Цх) дифференцируема на Rn, ее гра- диент удовлетворяет условию Липшица с константой L и f(x) является сильно выпуклой функцией с константой I. Тогда при О < у < 2/L метод (5) сходится к единственной точке глобаль- ного минимума х* со скоростью геометрической прогрессии: || х* - х* || < с?, 0<<7<1. (12) Доказательство. Выполнены все условия теоремы 1, по- этому справедливо неравенство (9): f (х*+>) < f (х*) - у (1 - Ly/2) !J Vf (xft) ||2. Используем лемму 3: f (х*+>) < f (Д) - ly (2 - Ly) (f (?) ~ f (/)). f (xk+ Ч-f (x*) < (1 - ly (2 - Ly)) (f (x*) - f (x*)) = q{ (f (xk) - f (x*)), f (?) ~ f (?) < q\ (f (?) - f (?)), 91 = 1 - 2Zy 4- LZy2. Поскольку 0 < у < 2/L, то 0 < qx < 1, и следовательно, f(xk)-+ -+f(x*). Из неравенства (35) § 1 следует ||x^~?||2<(2/Z)^(f(?)-f(?)). A Рассмотрим еще более узкий класс функций — сильно вы- пуклых дважды дифференцируемых. Теорема 3. Пусть f(x) дважды дифференцируема и H^f(x)^LI, Z > О, (13) для всех х. Тогда при 0 < у < 2/L ||х'-х*1К||х°~- ?||?, <? = max {11 — yZ |, | 1 — уТ |) < 1. (14) Величина q минимальна и равна <7* = (LZ)/(L 4-Z) при y = y* = 2/(L4-Z). (15) Доказательство. По формуле (13) § 1 1 Vf (?) = Vf (х*) 4- J V2/ (х* 4- т (xk - х*)) (xk - х’) dx = Ah (xk - x‘), oJ
§ 4, ГРАДИЕНТНЫЙ МЕТОД 33 где в силу (13) lI<Ak^LI. Поэтому II ^+> - х* || = II xk - X* - Wf Ю II = = II (Z -yAk) (xft - x*) ||< || I - yAk || || xk - x* II. Для всякой симметричной матрицы А имеем || / — Л || = = шах {11 — Ат I, I 1 — I }> гДе и — наименьшее и наи- большее собственные значения А. Поэтому ||xfe+1 —х*||< < q || х-1 — х* ||, q = max {11 — yZ |, | 1 — yL |}. Поскольку 0 < у < < 2/L, 0 < Z <L, то | 1 — у/1 < 1, | 1 — yL | < 1, т. е. q < 1. Ми- нимизируя q по у, получаем (15). ▲ Покажем, что оценка скорости сходимости, даваемая теоре- мой 3, точная, она достигается для любой квадратичной функ- ции. Пусть f (х) = (Ах, х)/2 — (Ь, х), А > О, О <Z I — М дД %2 • • .jT = L, где Хг — собственные числа матрицы А. Возьмем произвольное 0 < у < 2/L. Предположим, что |1—у/|>|1 — — yL|. Выберем х° = х* е1, где е1 — собственный вектор, от- вечающий Xi, 11641 = 1. Тогда х* —-х* — (Z —уЛ)*(х° —х*) = = (1 — уМ)М, IK— х*|| = | (1 — yZ) Р = 7&||х° — х*||. Анало- гичным образом, если |1—yL | Дд 11—yZ|, то выберем х° — == х* еп, еп — собственный вектор, отвечающий Ln, ||ел||= 1, и получим также |lxft — х*|| = | (1 — yL) |k = gj|x° — х*||. Таким образом, для всякого 0 < у < 2/L найдется х° такое, что ||х* — — х*|| — <?41х° — х*||, <7 = max{| 1 —yZ|, | 1 —yL|}. Оценку ||х*— х*|| дД(о*)ЯЛ— х*||, q*—(L—Z)/(L Z) нель- зя улучшить, даже если выбирать у оптимальным образом для каждого х°. Действительно, возьмем х° = х* -|- е1 еп (обозна- чения те же, что и выше). Тогда при любом 0 < у < 2/L хк - х' = (1- уД)к (хо _ (j _ Y/)fe ei _|_ (! _ yL)k || х* - х* || =4(1 - ylf 4- (1 - yL)2T1| х° - х* ||/V2. Поэтому, если либо |1—yl\^> q*, либо |1—yL|> q*, то IK— х*|| убывает медленнее, чем (q*)k. Но q — max {11—yZ|, |1—yL|} еД q* лишь при у = у*, при этом |1—у*1\ --~ = |1 — y*L\ — q* и ||х*— х*|| = (^*)*||х° — х*||. Аналогичное рас- суждение справедливо для любой точки х° такой, что (х° —х*, е’)^0, (х° —х% en)^Q. ф Локальный аналог теоремы 3 справедлив и для невыпуклых Теорема 4. Пусть х* — невырожденная точка локального минимума f(x). Тогда при 0 < у < 2/||V2f (х*) || метод (5) ло- кально сходится к х* со скоростью геометрической прогрессии, т.е. ля всякого 6 > 0 найдется е > 0 такое, что при ||х°—х*|К Дае будет II**-ЛК1|х°-х*||(<7 4-6)\ ?==тах{|1 — у/|, | 1 — Y£|j < о < ZZ <V2f Ю <TZ.
36 ГЛ. I. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Величина q минимальна и равна q* = (L — /)/(£ + /) при у* -2/(1 + /). А Другие теоремы о сходимости градиентных методов при не- сколько иных предположениях будут приведены в следующих главах. Упражнения. 1. Подробно разберите поведение градиентного метода (5) для следующих функций на R1: а) |х|'+ а, 0 < а < 1; б) |х|2+ч, а > 0; в) х2; г) (1 + х2)~’. При каких х° и у метод сходится, при каких расходится? Ответы, а) Схо- димости нет при любом у > 0 и х° 0, при этом | хк | -> [*/2 (1 + а) у]1 ~а', а знаки х'1 и х,<41 чередуются при k k0. б) Метод сходится, если у(2 + а)|х°|“ <2, н расходится в противоположном случае, причем |х*| s jxOj при у(2 а) |х°|“ = 2 и |х4|-^оо при у(2 + а) |х°| а > 2. в) МетоД Сходится при 0 < у < 2 и расходится при у 2 и любом х° =^= 0, при этом |х4| ав |х°|, если у = 2 и |х4|->оо при у > 2. г) |х*|->оо при любом х° + 0. 00 2. Используя неравенство IIV/ (х*) ||2 < <х>, полученное при доказа- ло тельстве теоремы 1, покажите, что в ее условиях (х4)||2 — 0. &->оо § 5. Метод Ньютона 1. Эвристические соображения. В градиентном методе осно- вой является идея локальной линейной аппроксимации миними- зируемой функции f(x). Если же функция дважды дифферен- цируема, то естественно попытаться использовать ее квадра- тичную аппроксимацию в точке хк, т. е. функцию fk U) - f (хк) + (Vf (хк), х - хк) + (V2f (хк) (х - хк), х - хк)/2. (1) В градиентном методе следующее приближение xfe+1 искалось из условия минимума линейной аппроксимации при дополни- тельных ограничениях на близость к хк (так как линейная функ- ция не достигает минимума на всем пространстве) — см. (2), (3) и (4) в § 4. Для квадратичной аппроксимации можно по- пытаться не накладывать таких ограничений, так как при У2/(+)>-0 функция Д(х) достигает безусловного минимума. Выберем точку минимума Д(х) в качестве нового приближения: ++> ~ argmin ЬДх). х <& Rn Таким образом, мы получаем метод ++1 ===.+ -• [V2f(^)]-!Vf(xft). (2) К этому методу можно прийти и из несколько иных соображе- ний. Точка минимума должна быть решением системы п урав- нений с п переменными Vf(x) — O. (3)
§ 5. МЕТОД НЬЮТОНА 87 Одним из основных методов решения таких систем является метод Ньютона, заключающийся в линеаризации уравнений в точке хк и решении линеаризованной системы (см. ниже п. 3). Эта линеаризованная система в данном случае имеет вид Vf(xfe) + V2f(xfe)(x-xft) = O (4) и ее решение xft+1 дается формулой (2). 2. Сходимость. Теорема 1. Пусть f(x) дважды дифференцируема, V2f(x) удовлетворяет условию Липшица с константой L, f(x) сильно выпукла с константой I и начальное приближение удовлетво- ряет условию <7 = (Л/“72) |] V/(х°) || < 1. (5) Тогда метод (2) сходится к точке глобального минимума х* с квадратичной скоростью: ||xfe-x*||<(2//L)/. (6) Доказательство. Из условий Липшица на V2f(x) сле- дует (см. (15) § 1) II Vf (х + у) - Vf (%) - V2f (%) у II < (L/2) || у II2. Возьмем здесь x~xk, у--—[V2f(xz')]-1Vf(x*), тогда х-\-у = — xk+' и || Vf (х^1) II <(L/2) || [V2f (xfc)] -1 Vf (xfe) ||2 < (L/2) || [V2f (x*)J ’' ||21| Vf (x*) II2. Но поскольку V2f(x*)^/Z (условие сильной выпуклости, см. (33) §1), то [V2f(xfe)]~‘ < l-Ч и ||[V2f(x*)]-1||<Z-1, т. е. ||Vf (xfe+1) || щ: (LZ“2/2) ||Vf (xk) I,2. Итерируя это неравенство, по- лучаем II Vf (хй) i| < А (А1| vf (х°) ||)? = -А Применение (37) § 1 завершает доказательство. А Покажем, что все условия теоремы существенны, а усилить ее утверждение, вообще говоря, нельзя. Ясно, что существова- ние второй производной требуется в самой формулировке ме- Тг0^?! 3 условие сильной выпуклости гарантирует существование jV f(x )]-!. Меньшие требования к гладкости (отказ от условия Липшица на V2f(x)) могут привести к уменьшению скорости сходимости метода. Пусть, например, f(x) — |х|5/2, хе/?1. Тогда при х>0 f'(x) == (5/2)х3/2, f"(x) = (15/4)х1/2 и f"(х) не удов- летворяет условию Липшица. Метод принимает вид (при х°>0) Lfl щЛ “(4/15)(x^)-1/2.(5/2)(x^)3/2 L(i/3)^, Т1 е. хь = (уЗ) х и метод сходится к х* = 0 со скоростью геометриче- ской прогрессии (а не с квадратичной скоростью). Наконец,
$ 6. РОЛЬ ТЕОРЕМ СХОДИМОСТИ 89 летвоояет условию Липшица в этой окрестности. Пусть матрица невырождена. Тогда найдется е > 0 такое, что при fxo_x*||^e метод (8) сходится к х* с квадратичной ско- ростью. „ г, Очевидно, что теорема 2 есть частный случаи теоремы 3 при p-(x) = Vf(x); доказательство остается прежним. А Подчеркнем, что для сходимости (8) не нужно ни симметрич- ности, ни положительной определенности g'(x). В частности, метод Ньютона годится для отыскания стационарных точек функции f(x), отличных от точек минимума. § 6. Роль теорем сходимости 1. Две крайние точки зрения. Возьмем какую-нибудь книгу по методам оптимизации, написанную «математиком для мате- матиков» (типичным примером может служить монография Сеа [0.17]). Основную ее часть составляют теоремы о сходимости методов и их доказательства. Их формулировки максимально общи и абстрактны, используется аппарат современного функ- ционального анализа. Критерии оценки результатов те же, что и в «чистой» математике — глубина, красота и простота утверж- дений и доказательств. Комментарии и примеры- почти отсут- ствуют; сравнительный анализ методов не производится; важ- ность или эффективность методов не обсуждается; численных примеров нет. Читателю, который, интересуется использованием методов, приходится самому догадываться о связи математи- ческих результатов с практикой вычислений, и зачастую такур связь установить не просто. При этом нередко (особенно в жур« нальной литературе) такому же формальному исследованию подвергаются методы малоинтересные, а иногда и заведомо неэффективные. Это дало повод для появления остроумной ijgr родии на «наукообразные» работы по методам оптимизации, написанной Вульфом [1.11]. Увы, эта пародия не исправила положения (более того, многие читатели восприняли статью всерьез, не поняв ее нарочитой нелепости). Такая ситуация породила другой крайний взгляд, по су- ществу отвергающий роль теории в разработке и изучении ме- тодов оптимизации. Его сторонники считают, что при создании метода достаточно эвристических соображений. Строгое доказа- тельство сходимости излишне, так как условия теорем трудно- проверяемы в конкретных задачах, сам факт сходимости мало что дает, а оценки скорости сходимости неточны и неэффек- тивны. Кроме того, при реализации метода возникает масса обстоятельств, строгий учет которых невозможен (ошибки округления, приближенное решение различных вспомогатель- ных задач и т. д.) и которые могут сильно повлиять на ход про-
38 ГЛ. I. ТЕОРИЯ и МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ нельзя утверждать сходимость метода при любом начальном приближении (не удовлетворяющем условию (5)). Пусть за- дача заключается в минимизации одномерной функции, произ- водная которой изображена на рис. 5. Эта функция дважды дифференцируема, сильно выпукла (так Kai£ f"(x) 1/2 > 0 для всех х), f"(x) удовлетворяет Однако если начать итерационный Рис. 5. Расходимость метода Ньютона. (так как f" (х) условию Липшица, х* — 0. процесс из любой точки х° с |х°|>1, то метод не сходится: |х* | ss= 1 для всех k 1. Условия теоремы 1 можно несколько осла- бить лишь в одном на- правлении — можно гло- бальные требования на f(x) заменить на локаль- ные. Теорема 2. Пусть f(x) дважды дифферен- цируема в окрестности U точки невырожденного минимума х*, и V2f(x) удовлетворяет условию Липшица на U. Тогда х*|| 8 метод (2) сходится задач минимизации, но и для реше- найдется е > 0 такое, что при ||х° к х* с квадратичной скоростью. А Для квадратичной функции f(x) = (Ах, х)/2 — (Ь, х) с Л > 0 метод Ньютона сходится за 1 шаг, т. е. х1 = х* при любом х°. Это очевидно, так как аппроксимирующая функция f0(x) сов- падает с f(x). Чем ближе f(x) к квадратичной, тем быстрее сходится метод Ньютона. Формально — чем меньше L, тем в соответствии с теоремой больше область сходимости, опреде- ляемая (5), и тем быстрее скорость сходимости, определяемая величиной q. 3. Метод Ньютона для уравнений. Метод Ньютона может применяться не только для ния произвольных нелинейных уравнений g(x) = 0, g-. R"->R\ (7) Ок основан на той же идее линейной аппроксимации — на k-n итерации решается линеаризованное уравнение g (Хк) + g' (Xk) (х — xk) = О, откуда xft+1 = xft — g'(xk\'1 g (xk). (8) Теорема 3. Пусть уравнение (7) имеет решение х*, функ- ция g: R” дифференцируема в окрестности х* и g' (х) удов-
40 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ цесса. Поэтому единственным критерием оценки метода яв- ляется практика его применения. Не будем обсуждать эти точки зрения на абстрактном уровне, так как это потребовало бы решения общих проблем о предмете и стиле вычислительной математики. Вместо этого попытаемся на примере приведенных выше результатов о сходимости двух методов безусловной минимизации выяснить, в какой мере мо- гут быть полезны теоремы о сходимости и почему они требуют к себе достаточно осторожного отношения. 2. Зачем нужны теоремы о сходимости? Ответ на этот «на- ивный» вопрос не так прост. Конечно, для математика, зани- мающегося теоретическим обоснованием методов, теоремы пред- ставляют самостоятельный интерес с точки зрения используемой в них техники, полноты исследования методов и т. д. Однако чем могут быть полезны такие теоремы человеку, собирающе- муся решать практическую задачу? Прежде всего, условия теорем выделяют класс задач, для которых можно рассчитывать на применимость метода. Эта ин- формация нередко носит отрицательный характер — если усло- вия теоремы не выполняются, то метод может (но разумеется не обязан) оказаться неработоспособным. Так, наименее жест- кие предположения, при которых можно обосновать сходимость градиентного метода в форме (5) § 4, заключаются в достаточ- ной гладкости минимизируемой функции (теорема 1 § 4). При обсуждении теоремы мы видели, что нарушение этих предполо- жений действительно может привести к расходимости процесса. Аналогичным образом более сильные условия гладкости функ- ции для применимости метода Ньютона (теорема 1 § 5), как мы видели из примеров, также существенны. Удобно, когда подобные требования носят качественный характер (гладкость, выпуклость и т. п.) — это позволяет их проверять даже в слож- ных задачах. Важно также, чтобы требования в теоремах не были завышенными. Например, если судить по теореме 3 § 4, то для применимости градиентного метода нужно существова- ние второй производной. Однако в действительности это требо- вание излишне (см. теорему 1 § 4); оно нужно лишь для полу- чения оценок скорости сходимости. Поэтому полезно иметь не- сколько теорем, в которых даются утверждения об одном методе при различных предположениях (таковы теоремы 1—4 § 4 для градиентного метода). Теоремы о сходимости дают также важную информацию о качественном поведении метода: сходится ли он для любого начального приближения или только для достаточно хорошего, в каком смысле сходится (по функции, по аргументу или в пре- деле удовлетворяется условие экстремума и т. д.). Так, теоре- ма 1 § 4 гарантирует применимость градиентного метода из любой начальной точки, в то же время утверждается-лишь, что
§ 6. РОЛЬ ТЕОРЕМ СХОДИМОСТИ 41 (а сходимость по функции или аргументу может от- сутствовать, что подтверждают рассмотренные там же приме- ры). В теореме 1 § 5 наоборот обосновывается сходимость ме- тода Ньютона (по аргументу к глобальному минимуму) лишь для хорошего начального приближения, и как мы видели выше, это требование является существенным. Поэтому при практи- ческом использовании метода Ньютона нужно иметь хорошее начальное приближение, в противном случае возможна расхо- димость метода. Полезная информация нередко содержится и в самом дока- зательстве теорем о сходимости. Чаще всего они построены на той идее, что некоторая скалярная величина монотонно убы- вает в процессе итераций (подробно этот вопрос будет обсуж- даться в гл. 2). В теоремах 1, 2 § 4 такой величиной является сама минимизируемая функция, в теоремах 3, 4 § 4 — расстоя- ние до точки минимума, в теореме 1 § 5 — норма градиента. Часто эта величина доступна (f(x), IIV/(х)||) и по ее фактиче- скому поведению в процессе вычислений можно судить о схо- димости или расходимости метода — при нормальном течении процесса она должна убывать. Если же доказательство осно« вано, например, на монотонном убывании ||х*— х*||, то нера- зумно требовать монотонного убывания f(x) на каждом шаге. Особенно важные сведения о методе дает оценка скорости сходимости. Эти сведения могут быть как положительного, так и отрицательного характера. Например, оценка скорости схо- димости метода Ньютона, содержащаяся в теореме 1 § 5, пока- зывает, что метод сходится чрезвычайно быстро. Действительно, если начальное приближение достаточно близко к решению (?< 1), то в соответствии с (6) § 5 ||хк — х* ||'Д 2q2k (так как l^L). Поэтому для q — 0,5 будет || хк — х* || гД 2~2 +1 ’ так что Их5 — х*|| < 10~9, а для <7 = 0,1 имеем ||х* — х*|| :Д 2-так что ||х4 — х*|| < 10~16. Иными словами, если метод Ньютона применим, то обычно требуется не более 4—5 итераций для получения решения с очень высокой точностью. С другой сто- роны, градиентный метод при оптимальном выборе у в соот- ветствии с теоремой 3 § 4 сходится со скоростью геометриче- ской прогрессии со знаменателем q — (L — /)/(/.-}-/), причем мы видели, что эта оценка является точной для случая квадра- тичной функции. Для больших чисел обусловленности ц = L/1 знаменатель прогрессии q « 1 — 2/ц. близок к 1. Как мы уви- дим в дальнейшем, нередко для самых простых задач средне- квадратического приближения полиномами величина ц дости- гает значений 108 и выше. Ясно, что при ц= 108 нужно сделать порядка 2-Ю8 итераций, чтобы уменьшить ||х° — х*|| в е раз. Иными словами, градиентный метод в такой ситуации нерабо- тоспособен. Этот отрицательный результат о поведении гр а-
§ б. РОЛЬ ТЕОРЕМ СХОДИМОСТИ 43 входящие в них параметры неизвестны, оценки носят асимпто- тический характер и т. п. Такие обвинения во многом обосно- ваны. Нередко теоремы о сходимости чрезвычайно громоздки, и проверить их для какой-либо реальной задачи невозможно. Еще хуже, когда формулировки носят апостериорный характер («...пусть в процессе итераций выполняется такое-то соотноше- ние...») Почему бы тогда просто не предположить, что Однако не всегда ситуация столь мрачная. Как видно из теорем §§ 4 и 5, предположения в них просты и носят общий характер (требуются гладкость, выпуклость, сильная выпуклость, невы- рожденность и тому подобные естественные и часто легко про- веряемые условия). Константы L, I и q, входящие в формули- ровки теорем, обычно действительно неизвестны, поэтому кон- структивный выбор у в градиентном методе или явные оценки скорости сходимости невозможны. Однако существуют более сложные способы выбора в градиентном методе (гл. 3), для которых теоремы § 4 служат основой. Что же касается скоро- сти сходимости, то хотя ее количественная оценка не всегда доступна, ее качественный характер не вызывает сомнений. На- конец, оценки скорости сходимости совсем не обязательно носят асимптотический характер — так, в теоремах 2, 3 § 4 и тео- реме 1 § 5 они верны для всех конечных k. Еще один упрек теоремам о сходимости заключается в том, что они-рассматривают идеализированную ситуацию, отвлекаясь от наличия помех, ошибок округления, невозможности точного решения вспомогательных задач и т. п., а все эти факторы сильно влияют на поведение метода в реальных условиях. Дей- ствительно, в приведенных выше теоремах предполагалось, что градиент вычисляется точно, что обращение матрицы в методе Ньютона делается без погрешностей и т. д. В гл. 4 мы рассмо- трим те же методы при наличии разного рода помех. Оказы- вается, их влияние заметно сказывается на эффективности ме- тодов. Поэтому оценки качества методов нужно делать с учетом более общих теорем о сходимости, рассчитанных на наличие помех. Подводя итог, можно сказать, что теоретические исследова- ния методов оптимизации могут дать много информации вы- числителю-практику. Нужно лишь при этом проявлять разум- ную осторожность и здравый смысл.
42 ГЛ. I. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ диентного метода удается получить чисто теоретически, не при- бегая ни к каким численным экспериментам. Применительно к другим задачам минимизации он дает основания для насторо- женного отношения к градиентному методу — вряд ли -можно рассчитывать на этот метод как эффективное средство решения сложных задач. Теоретическая оценка скорости сходимости показывает так- же, от каких факторов зависит поведение метода. Так, для гра- диентного метода «трудны» задачи плохо обусловленные, а выбор начального приближения не влияет на скорость сходи- мости, тогда как для метода Ньютона скорость определяется качеством начального приближения и близостью функции к ква- дратической, но не обусловленностью задачи. Для метода со- пряженных градиентов, как мы увидим в дальнейшем, основ- ную роль играет размерность задачи, тогда как в полученных выше оценках для методов градиентного и Ньютона размер- ность явно не входит. На основе этих соображений можно де- лать ориентировочные выводы о целесообразности применения различных методов в той или иной конкретной ситуации. Наконец, при достаточно полной информации о задаче можно с помощью результатов о скорости сходимости заранее выбрать (или оценить) требуемое число итераций для дости- жения необходимой точности. Так, если мы находимся в усло- виях теоремы 3 § 4 и известны оценки для I, L и ||х° — х*||, то можно указать число шагов k, гарантирующее точность (|х* — сС 8 в градиентном методе с оптимальным у~ ^2/(L + l): 3. Необходима осторожность. Прислушаемся к другой точке зрения, критикующей теоретическое исследование методов как излишнюю, а иногда и вредную роскошь. Сторонники этой точки зрения указывают, что сам факт схо- димости метода ровно ничего не говорит об эффективности Последнего. Безусловно, это так. Ошибочно считать, что данный Метод можно применять на практике, если его сходимость до- казана — ведь скорость сходимости может быть безнадежно медленной. Однако мы уже отмечали, что теоремы сходимости (даже не содержащие оценок скорости сходимости) дают важ- ную информацию об области применимости метода, его каче- ственном поведении и т. п. Разумеется, вся эта информация недостаточна для окончательных выводов о целесообразности и возможности применения метода для решения конкретной задачи. Далее, результаты, о сходимости часто критикуют за некон- структивный характер. Их предположения трудно проверить,
Глава 2 ОБЩИЕ СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Результаты о сходимости и скорости сходимости алгоритмов минимизации в гл. 1 были получены непосредственно, без при- влечения каких-либо общих теорем. Такой подход был есте- ствен, поскольку доказательства очень просты. Однако по мере усложнения задач и методов их обоснование становится более громоздким и трудоемким. Внимательный анализ применяемых доказательств показывает, что лежащие в их основе идеи про- сты и единообразны. Разумно выделить эти идеи «в явном виде», получить с их помощью ряд общих результатов о сходи- мости, а затем систематически использовать их при обоснова- нии конкретных алгоритмов. Такого рода общие результаты и приводятся в данной главе. § 1. Первый метод Ляпунова Идея этого подхода заключается в линеаризации итератив- ной процедуры, после чего вывод о сходимости удается сделать на основе анализа линеаризованного процесса. Предварительно приведем необходимые сведения из линейной алгебры. 1. Сведения из линейной алгебры. Пусть А — квадратная матрица «Хщ Xi, ..., — ее собственные значения. Спек- тральным радиусом А называется число р(Л) = max (1) Другой важной характеристикой матрицы (не обязательно ква- дратной) является ее норма || А || = max || Ах ||. (2) IIX 11=1 Используя тот фцкт, что у симметричной матрицы все собст- венные значения вещественны и существует полная ортогональ- ная система собственных векторов, нетрудно доказать, что для симметричной матрицы р(Д) = ||Д||. Для несимметричной ма- трицы р(Д)^ ||Л|| и, вообще говоря, р(Л) =# [|Л||. Например, /О 1А для матрицы Л = 1 1 оба собственных значения равны 0, по-
§ 1. ПЕРВЫЙ МЕТОД ЛЯПУНОВА 45 этому р(Л) = 0, однако ||Л|| = 1. Важная связь между ||Л|! и р(Л) устанавливается равенством р(Л) = lim ||W/ft. (3) Из (3) вытекает следующий фундаментальный факт. Лемма 1. Чтобы lim Ak — Q, необходимо и достаточно выполнение условия р(Л) < 1, при этом для всякого е > 0 най- дется о = с(&) такое, что ||Л*|| < с(р(Л) + е)* для всех нату- ральных k. А Следствие. Для того чтобы итерационная последователь- ность векторов xk+1 — Axk сходилась к 0 при при любом х°, необходимо и достаточно выполнение условия р(Л)< 1. А Лемма 2. Пусть р(Л)< 1. Тогда матричное уравнение ATUA = U — C (4) имеет решение U, которое симметрично, если матрица С сим- метрична, uU'^C при С 0. Доказательство. Поскольку ||Л*|| cqk, q <. 1 (лем- оэ ма 1), тр ряд У, (Ar)kCAk сходится к некоторой матрице U. й = 0 Эта матрица симметрична при симметричной С, U 0 при С>0, ATUA = X (Ar)kCAk = U —С, U^C+ ArUA>C при ft=l С>0. А Назовем квадратную матрицу Л с собственными значениями М. Кп устойчивой (гурвицевой), если Re < 0, i — 1, ..., п. (5) Лемма 3. Для того чтобы lim eAt = 0, необходимо и до- i->oo статочно, чтобы А была устойчива. При этом для всякого е > 0 найдется с = с(е) такое, что |)еи!1=С c(s)e<v+E)< для всех t 0, №maxReX,. t Действительно, е г, поэтому р (В) = щах в' только тогда, когда у < собственными значениями В — еА являются = Поскольку еу <Z 1 тогда и ... , 0, то условие р(В)< 1 эквивалентно условию у < 0. Теперь остается воспользоваться леммой 1 (точ- нее, ее обобщением из упражнения 3). А Лемма 4 (Ляпунов). Пусть матрица А устойчива, а матри- ца С симметрична. Тогда уравнение AU + UAT^-C (6) имеет решение, причем U > 0 (£7^=0), если С>0 (С^О).
48 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Доказательство. В соответствии с леммой 3 матрица оо U = eAtCeATt dt определена. Матрица Z (t) = eAtCeATt является о решением дифференциального уравнения Z(f) = AZ ф ZAT, 00 оо Z(O)=C, т. е. (7=^ Z(t)dti поэтому AU + UAT — (AZ + о о со со ф ZAT) dt=\ Z(f)dt = -Z (0) = - С. Отсюда U = J eAtCeATt dt о о является искомым решением, и из этой же формулы следует, что и > 0 (В^О) при О О (С>0). А Связь между устойчивыми матрицами и матрицами с р(А)< < 1 устанавливается следующей леммой. Лемма 5. Пусть матрица А устойчива, В = 1 ф у А, 0 < у < < min (-- 2 Re ф-1 ф-1~2 *). Тогда р (В) < 1. t Действительно, если ф-— собственные значения А, щ — соб- ственные значения В, то цг = 1-фуЛг, |щ|2 = (1ф'уКе%г)24- ф у2(1т %,)2 = 1 ф 2у Re X/ф у2|Хг|2 < 1, т. е. р(В)<1. ▲ Упражнения. 1. Покажите, что если матрица А симметрична или имеет попарно раз- личные собственные значения, то в лемме 1 можно взять е == 0, с(е) = 1. 2. Приведите пример матрицы А с р(Д) Гэ 1 и некоторого х° 0, для которых Д4х°->0 при й->оо. 3. Покажите, что лемма 1 справедлива и для нецелых показателей, т. е. ||Д(|| С" с(е) (р(Д) + е)‘ для всех вещественных t Jr 0. 2. Теоремы о линейной сходимости. Мы будем часто употреб- лять термин линейная сходимость как синоним сходимости со скоростью геометрической прогрессии. Аналогично сверхлиней- ная сходимость означает сходимость более быструю, чем опре- деляемую любой геометрической прогрессией. Наконец, термин квадратичная сходимость используется для процессов, в кото- рых справедлива оценка вида uk+i^cuk, где uk— некоторая мера близости к решению на &-й итерации. Рассмотрим итерационный процесс вида xft+I = g(xft), (7) где g — некоторое отображение из R" в R". Точку х* будем на- зывать неподвижной точкой (7), если х* = g(x*). В этом случае при хк ~ х* будет Xs х* для всех s фг k. Теорема 1. Пусть х*— неподвижная точка (7), g(x) диф- ференцируема в х* и спектральный радиус матрицы Якоби
J !. ПЕРВЫЙ МЕТОД ЛЯПУНОВА 47 g'(x*) удовлетворяет условию р = p(g'(x*)) < 1. Тогда про- цесс (7) локально линейно сходится к х*, а именно, для всякого О < е <; 1 — р найдутся б > 0 и с такие, что для всех k О будет ||?-x*||<c(p + 8)fe (8) при Цх° — X* II < 6. Дадим краткую схему доказательства. Обозначим А = = тогДа в соответствии с определением производной g(x) = g(x*) + А (х— х*)4-о(х— х*). Поэтому процесс (7) мо- жет быть записан в виде zt+i — Azk + yk, zk = xk — x*, yk == o(zk). Отсюда fe z^-A^+^A^y1, i = 0 k l^1|kl|Aft+1llk°ll + SIItMIMI. 0) Из леммы 1 ||Xfe|| Cc(e)(p + fjfe, подставляя эту оценку в (9) и используя то! факт, что ||t/feH — о (zk), можно получить утверждение теоремы. ▲ Теорема 1 гарантирует локальную сходимость метода (7). В некоторых случаях можно утверждать и глобальную сходи- мость. Один из таких случаев очевиден — это случай линейной функции g(x). Приведем результат о глобальной сходимости и для нелинейных функций. При этом нам удобнее будет рас- сматривать итерационный процесс, заданный в виде xft+1 == xfe —у (Axft+$(xft)). (10) Теорема 2. Пусть матрица —А устойчива, а ср: Rre->Rre удовлетворяет условию I!<pU)IKL||x||. Тогда, если 2||С/|| ’ и Y (L + ||A||)2 - ПО где U — решение матричного уравнения UA + ATU = I, (12) То процесс (10) сходится к 0 со скоростью геометрической про- грессии при любом х°: ч = 1 - (7г) VIIV1Г1 + 4L + ('/,) ч2 (II ЛII + ц’.
48 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Для доказательства достаточно ввести Uk~(Uxk, Х&) и по- лучить соотношение и^\ qiik- А Полученные выше результаты можно применить для иссле- дования уравнения в конечных разностях Ук^ #2^-2 + ••• + апУк-п + ф(1//г-1, •••> Ук-пФ (14) где yt <= R1. Для этого введем векторы xk — (уь-\........#*-«)<= sR'1, xk+l=(yk, ..., Rn, тогда xk+i = Axk + + /i(xfe), где й] a2 ... an 1 0 ... 0 0 ...10 /г(х) = (15) Таким образом, итерационный процесс приведен к форме (7), Описанный прием типичен при исследовании многошаговых итеративных процессов, в которых каждое приближение зави- сит от нескольких предыдущих. Тогда увеличение размерности задачи позволяет свести ее к одношаговому процессу. Упражнение. 4. Докажите, что если все корни характеристического уравнения Л" = = арЛ~1 + ... + а.п по модулю меньше 1, то для матрицы А вида (15) будет р(Д) < 1. 3. Теорема о сверхлинейной сходимости. В случае, когда g'(x*) — 0, из теоремы 1 следует, что метод (7) сходится, быст- рее любой геометрической прогрессии. Этот результат можно уточнить. Теорема 3. Пусть х* — неподвижная точка (7), g(x) диф- ференцируема в S — {х: ||х — х*|| йД ||х°—х*||), g'(x) удовле- творяет в S условию Липшица и g'(x*) = 0. Тогда, если g — (L/2) ||х° — х* || < 1, то ||х^~х*||<(2Д)/. (16) (17) Доказательство. Очевидно, х° е S. В силу формулы (15) § 1 гл. l||x,-x*||-||g(x0)-g(x‘)-g'(x‘)(x0-r)||<(L/2)||x0- — х* II2 С У II х° — х* ||, поэтому ,t;lsS. Аналогичным образом xk s 5 для всех k. Поэтому мы имеем право пользоваться той же оценкой: || XW _ у = |[ g (Xk) _ g (x-*} _ g' (дЛ) (xk „ ЛЛ) || (£/2) || xk _ ||2> Отсюда следует требуемый результат. ▲
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА 49 Упражнение. 5. Пусть х*— невырожденная точка минимума f(x), V2/ (х) удовлетворяет условию Липшица в окрестности х*. Тогда метод ^+'CT/-[V2/(x‘)]-1V/(xfe) (18) локально сходится к х* с квадратичной скоростью. Докажите этот результат с помощью теоремы 3. § 2. Второй метод Ляпунова Этот метод является наиболее распространенным при обо- сновании сходимости итерационных процессов. Его идея заклю- чается в том, что вводится некоторая скалярная неотрицатель- ная функция V(x) (функция Ляпунова) и рассматриваются ее значения на последовательных итерациях xk. Если они моно- тонно убывают и ограничены снизу, то V(xk)—Е(х*+1)->0. От- сюда при некоторых дополнительных предположениях следует сходимость метода. Если посмотреть с этой точки зрения на приведенные выше результаты о сходимости, то окажется, что большинство из них получено именно по такой схеме. Так, при обосновании гра- диентного метода в гл. 1 в качестве функции Ляпунова в теоре- мах 1, 2 § 4 выступала сама минимизируемая функция f(x)— f*. В теоремах 3, 4 § 4 такую роль играло расстояние до точки ми- нимума. При обосновании метода Ньютона (теорема 1 § 5) ис- пользовалось монотонное убывание нормы градиента (т. е. не- вязки в выполнении условия экстремума). Наконец, в теореме 2 § 1 данной главы в доказательстве была построена специаль- ная квадратичная функция Ляпунова. Эти же приемы выбора функции Ляпунова обычно применяются и для других, более сложных задач. 1. Леммы о числовых последовательностях. Для значений функции Ляпунова Uk=V(xk) на &-м шаге процесса обычно получается итерационное соотношение вида “fe+i<qp*(uft). (1) Отсюда делается вывод, что «^->0 и дается оценка скорости сходимости Uk. Поэтому важно исследовать поведение последо- вательностей вида (1) для нескольких «типовых» функций <р&. С некоторыми простейшими соотношениями (1) мы уже сталки- вались. Так, при доказательстве сходимости градиентного ме- тода (§ 4 гл. 1) мы получали неравенство uk+i<quk, 0<7<1 (2) (где Uk = f(xk) — f*, либо Uk—\\xk — х*||2, либо Uk ~ ||Vf (хк) ||). Из (2) следует оценка Uk Uoqk. При обосновании метода
50 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Ньютона (§ 5 гл. 1) было получено соотношение для Uk =* = HV/(xA) |{: uk+\ < cul> с > °- (3) Отсюда с-’(си0)2^ и, если си0 < 1, то w*->0. В других задачах, однако, соотношение (1)' имеет более сложный вид, и его анализ не столь тривиален. Начнем с линейных неравенств вида «4+1 + а4> <74^0" (4) Отсюда «4 ^Qk-i4k-2 • • • 7о«о + 7a-i • • • 7iao + • • • + 74-ia4-2 + a4-n (5) Рассмотрим несколько частных случаев. Лемма 1. Пусть «4+i^7«ft + a» а > 0. (6) Тогда uk^a/(l — <?) + («о — а/( 1 — 7)) qk. (7) Доказательство. Обозначая Vk — uk— a/(l— 7), из неравенства (6) получаем u*+i Vkq, что и дает (7), ▲ Таким образом, uk сходится в область w^a/(l — 7) со ско- ростью геометрической прогрессии со знаменателем 7. Л е м м а 2. Пусть иь 0 и Uk+i ^(1 + ak)ukJr^k> V (8) L «4 < 00> ₽4 < °°- 4=0 4^0 Тогда uk-+u~^ 0. Доказательство совпадает с приводимым ниже доказатель- ством более общей леммы 9. ▲ Лемма 3. Пусть Ч&+1 74«4 ~Ь «4> 0 74 1» «4 00 (9) Е(1—74) = °о» «4/(1-74)-* 0. 4=0 Тогда Urn uk 0. В частности, если uk > 0, то Uk~*Q. ▲ &->оо Следствие. Если в (9) </* = ^<1, ссА->0, ик 5= 0, то Uk~^-Q- А В условиях леммы 3 можно для ряда случаев оценить и ско- рость сходимости.
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА 51 Лемма 4 (Чжун). Пусть иц^Ои 1 с \ । d «л-n^V1 “7fs+ f+1 ’ d> 0, p > 0, С' > 0. (Ю) Тогда uk<d(c-p)~l k"p + o(k p) при c>p, (H) Uh = 0 (k In при p = c, (12) «A=o(^c) при P>C. (13) Доказательство. При любом соотношении сир мы находимся в условиях применения леммы 3, так как 1—= оо = c/k, £ (1 — <7/0 = °°. аД1 — Qk)~l = dc~lk~p —>0, поэтому fe==0 «fe->0. Пусть с > р. Введем vk — kpuk — d (с — р)~ . Тогда + 1Г ^<^'(1 +т)'((1 Применяя лемму 3, получаем lim vk^0, что и доказывает (11). Пусть теперь р^с. Введем Vh~ukkc. Тогда ®*+i= uk+l (k 4* 1)с — /1 с2 , у 1 V ))ик 4М1 + 0 (?)) Vk + 7^ Для достаточно больших k. Суммируя по k, получаем, что vk / оо \ ограничено при р> с (так как ряд V-^-сходится при а> 1 I \ ы k ' / k \ а о^= О (In k) при р = cl так как у = О (In k) I. Это дока- зывает (12) и (13). A <I=1
62 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Лемма 5 (Чжун). Пусть > О и uk+1<(l 0<s<l, s<t. (14) Тогда uk^^-~^ + o^~y Д Перейдем к исследованию рекуррентных неравенств, зада- ваемых нелинейными соотношениями. Лемма 6. Пусть tik> 0 и uk+i<uk~akuk+p’ Р>0- (15) Тогда В частности, если аь = а, р = \, то Uk «о/(1 + aku0). (17) Докажем (16) лишь для случая р 1. Разделим обе части (15) на upkuk+l: ukP^uk Puk+i akUkUk+V Поскольку uk+l^uk, u^p^u1^ при р>1, то получаем UkP^ukPi~ ak- Суммируя неравенства, приходим к (16). Д 2. Леммы о случайных последовательностях. При исследова- нии итеративных методов, включающих элементы случайности (методы случайного поиска, задачи с помехами), обычно при- меняется та же техника, основанная на функциях Ляпунова. Од- нако здесь значения функции Ляпунова оказываются случайной величиной, поэтому нужно получить аналоги приведенных выше лемм для случайных последовательностей. Напомним различные виды сходимости случайных величин. Пусть v1, ..., vk, ....— последовательность n-мерных случайных векторов. Мы обычно не будем выписывать то вероятностное пространство (Q, £?, Р), на котором заданы эти величины (т. е, не будем писать у1 (со), .... vk(со), со е Q, Q— пространство элементарных событий, 5 — заданная на нем о-алгебра изме- римых множеств, Р — вероятностная мера на S). Говорят, что последовательность vk сходится к случайному вектору v: а) почти наверное (с вероятностью 1), еслиР(Нш yft = c)= 1 (здесь и далее Р(Л) обозначает вероятность события Л), при этом пишут vk-+v (п. н.). б) по вероятности, если для каждого е>0 lim P(\\vk— 4-»ОО — о||>е)==0, что обозначается —> у.
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА 53 ВУ в среднем квадратичном, если lim М || vk — v ||2 — 0 (здесь ' fe->oo и далее Ма обозначает математическое ожидание случайной ве- личины а). Основным инструментом при изучении сходимости случай- ных величин является теория полумартингалов. Последователь- ность скалярных случайных величин v0, ..., vk ... называется полу мартингалом, если M(tWi | fi, • • •, М Moo < °°. Здесь M(ffe+i|oo, •••, Vk)— условное математическое ожидание ик+\ при данных и0, • • •, Vk- Часто в данном случае употребляют также термин супермартингал, для неравенства противополож- ного знака говорят о субмартингале, а для равенства — о мар- тингале. Полумартингал является обобщением на стохастический случай понятия монотонно убывающей последовательности. Ключевой результат о сходимости числовых последователь- ностей (ограниченная снизу монотонно убывающая последова- тельность имеет предел) для случайных величин приобретает следующий вид. Лемма 7. Пусть и0, ..., vk ... — полумартингал, причем Vk 0 для всех k. Тогда существует случайная величина и О, Vk^»-v (п. н.). А Известное неравенство Чебышева (если v 0, е > 0, Му < <оо, то Р(о>е)^е-1Мо) для полумартингалов может быть усилено. Лемма 8 (неравенство Колмогорова). Пусть vo.....vk... — полума'ртингал, vk 0, е > 0. Тогда Р(^>е V£)<Ze !Мо0. А (18) Используя эти результаты, получим стохастические аналоги лемм 2 и 3. Лемма 9 (Гладышев). Пусть имеется последовательность случайных величин v0, ..., vk^0, Мо0<°° и М^+1 bo..+ + со §оа&<0°> а/г>0, Рй>0. (19) У < °°, Тогда vk~>v (п. н), где v 0 — некоторая случайная величина. Доказательство. Введем ик — Ц(1 + a,) vk + У, рг X 00 оо i=fe (1 + а,). Тогда ик^ О, М«о < 00 (так как П (1 + ад < оо, w‘+1 \ м 450Pi<°O, Mv0<ooj. При этом
54 гл. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ М(«й+1 |и0, «й) = оо оо оо = П (1 + ai) м (f*+i к,..., Vk) + У ₽/ П (14“а/)^ j~&+l /‘М-Н ОО ОО оо di u +ai) vk + S ₽i II (i+«/) = «а, i=*k l-“к /”i + l т. e. Uk — полумартингал, и по лемме 7 uk-^v{n. и.), у>0. / оо ч / оо Поэтому и vk = \uk — X ₽/ /п.(1 + «2)->у (п. н.). Д Лемма 10. Пусть у0, ..., vk —- последовательность случай- ных величин, vk^0, Mv0 < оо и M{vk+l\v0, »fe)<(l -afeK + pb (20) ОО ОО 0<aft<l, pft>0, £afe = c«, £pfe<~, Ь-->0. (21) 6=0 А=0 к Тогда vk->0 (п. н), Му£->0, причем для всякого е > 0, /г > О Р (у, < е для всех j > k) > 1 — е-11 Му* + У. рг). (22) \ 1 = Й у Доказательство. Беря безусловное математическое ожидание от обеих частей (20), получаем Muh-i^U — о^)МуН + Рь Отсюда по лемме 3 Муй->0. С другой стороны, ик~ оо = vk + У Р2 — полумартингал (ср. с доказательством леммы 9). i-k Используя леммы 8 и 9, получаем требуемый результат. Д 3. Основные теоремы. Рассматривается итеративный процесс вида хй+1 _. xk „ (23) где k — номер итерации, xk, sk — векторы в R”, Уй 0 — ска- лярный множитель, характеризующий длину шага. Мы объеди- ним детерминированный и стохастический случаи — будет рас- сматриваться общая ситуация, когда хк и sk случайны, а детер- минированный процесс включается в нее как частный случай. Основные предположения о процессе заключаются в следующем. А. Процесс носит марковский характер — распределение s’{ зависит только от xk и k, sk — sk{xk), величины sk, sk~l, ... взаимно независимы. Б. Существует скалярная функция {функция Ляпунова) V(x)^5 0, inf V(x) = 0, V (х) дифференцируема и VV(x) удо- xsRn влетворяет условию Липшица с константой L.
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА Бб В Процесс (23) является псевдоградиентным по отношению к V(x): (W(xs), M(ss |xs))>0, (24) т е ___5® в среднем является направлением убывания V(x) в точке хк. Г. Выполняется следующее условие роста на М (|| sk II2| х*)< а2 + т (W (xk), М (sk | хк)). (25) Величина а2 обычно характеризует уровень аддитивных помех. Случай о = 0 типичен для детерминированных задач. Д. Начальное приближение удовлетворяет условию MV(x°)<o°. (26) Разумеется, это условие выполняется, если х° — детерминиро- ванный вектор. Е. Длина шага такова, что ОО Ууй=оо, limy* Су-. (27) X-U £->оо fe«=0 Приведем основные теоремы о сходимости. При условиях А—Е нельзя, вообще говоря, утверждать, что V(xs)->-0 для процесса (23) в каком-либо вероятностном смысле. Например, если sk = 0, то все условия выполняются, но xk х°. Однако некоторые утверждения о сходимости справедливы даже при этих минимальных предположениях. Теорема 1. Пусть выполнены условия, А — Ей либо а2 = О, оо либо У, у? < оо. Тогда при любом Xй в алгоритме (23) V (xk) -» V (п. н.), lim (W (xk), M(sk\xk)) = 0(n.H.). (28) fe->oo Доказательство. Используя условие Б и формулу (15) § 1 гл. 1, получаем ' V (хк+')< V (хк) - уй (vP (xs), ss) + Ly21| sk ||2/2. Возьмем условное математическое ожидание обеих частей этого неравенства и применим условие Г: М (V (xs+1) |xs) < V (xk) - yft (VV (xs), M (ss | xs)) + Ly2M (|| sk ||21 xs)/2 < V (xk) - уД1 - C/2) Lxyft) (VJ7 (xs), M (sk | xs)) + Ly>2/2. (29)
ва ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ В силу условий В и Г М (V (л-&+!) | xft)< V (хк) + Lyf(Jz/2. (30) Применяя лемму 9, получаем, что V(xk)-+V (п. н.). Перейдем в (29) к безусловным математическим ожиданиям: МУ (х^1) < МV (х*) - (1 - (>/2) Lryfe) ик + Ау2а2/2, Ufe==M(v7(xft), M(s*|xft)). Для достаточно больших k, в силу условия Е, 1 — (’/2) Lvyk е > 0, т. е. МV (xft+I) МУ (xft) — ук&ик + Lyjcr2/2. ОО Поскольку МУ (х°) < оо (условие Д) и а2 У, у? < оо, то отсюда ьо со со следует, что У, укик < оо. Но так как У у&~оо, то это озна- ft=0 k=t) чает, что lim.Mj.~0. Из свойств сходимости в среднем еле- fe->oo дует, что если для случайных величин zk^Q, Msfe->0, то най- дется подпоследовательность z&z->0 (п. н.). Поэтому lim(vy(xft), М (зк |х*)) = 0 (п. н.). А fe->cb Заменим условие В на условие В' сильной псевдоградиент- ности: В'. (?У(х*), М(з*|х*))>/У(х*), />0. Теорема 2. Пусть выполнены условия А — Е и В' и либо оо а2 = 0, либо У у2 < оо. Тогда при любом х° в алгоритме (23) k=0 У(х*)->0 (и. н.), / °° \ Р(У(х9<8 1 -8-4 МУ(xfe)+4La2У у2). (31) ' i — k ' Доказательство. Из (29) и условия В' получаем м (У (х&+‘)\хк) < (1 —Zy&(l — (*/2) Ату,)) У (xfe) + Lyja2/2. (32) Из леммы 10 и условия Е следует требуемый результат. А Перейдем к условиям сходимости в среднем. Теорема 3. Пусть выполнены условия А — Е, В' и либо а2 — о, либо у,->0. Тогда в алгоритме (23) МУ(х*)~>0. (33)
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА 57 Доказательство. Беря безусловное математическое ожидание в (32), имеем MV(xft+IX(l “Ы1 -(72)^))MV(xft) + Ly^/2. (34) Поскольку 1 — (l/2)Lry* е > 0 для достаточно больших k, то MV (хй+!) < (1 — l^k) МУ (**) + ^^72. По лемме 3 MV(xfe)-*0. А Из неравенства (34) можно получать и другие результаты, в том числе оценки скорости сходимости. Приведем несколько примеров. Теорема 4. Пусть выполнены условия А — Е, В' и у к ~ у, О <у <2/ (Аг). Тогда (з5) <7 = 1 — Zy(l — (’/2)Ату). Этот результат следует из (34) и леммы 1. А Таким образом, если о2 > 0, то lim MV (xft)^Tycr2/[Z(2—Ату)], &->со если же а2 —0, то MV (х6) стремится к 0 со скоростью геомет- рической прогрессии. Теорема 5. Пусть выполнены условия А —Е, В', а2 > О и у* = y/k. Тогда и (О (1/6) при ly > 1, МУ xfe) = < _ Р ’ (36) (.0(1/6^) при ly < 1. v 7 Этот результат легко можно получить из (34) и леммы 4. А Упражнения. 1. В качестве следствия теоремы 1 получите теорему 1 § 4 гл. 1, взяв V(x) = {(x^—f*. 2. Примените теорему 4 для доказательства теорем 2, 3 § 4 гл. 1, беря VW = f(x) — f*, или V(x) = ||х —х*||2. 4. Возможные модификации. Приведенные теоремы о схо- димости отнюдь не являются самыми общими и охватываю- щими все случаи. Они могут быть видоизменены в различных направлениях. Во-первых, условия В, В' и Г могут быть обобщены следую- щим образом: (VV(xft), M(s4xft))>AV(xft)~0ft, (37) м (II sfe II21 xk) a2 + xk (VV (xft), M (? 1 xk)) + (xk). (38) При определенных условиях на lk, pfe, crft, xk и можно с по- мощью лемм данного параграфа доказать аналоги теорем 1—3.
68 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Такого рода ситуации, когда выполняются условия (37) и (38), встретятся нам далее при изучении конечно-разностных ва- риантов градиентного метода, методов регуляризации и т. д. Во-вторых, все приведенные до сих пор результаты носили глобальный характер — предполагалось, что условия на. V(x), sk(x) и т. д. выполняются для всех х, а начальное приближе- ние х° могло быть любым. Однако нередко такого рода пред- положения выполняются лишь локально, в окрестности реше- ния. Естественно, что при этом и утверждения о сходимости должны носить локальный характер. Примерами могут служить теоремы 4 § 4 и 1 § 5 гл. 1 о локальной сходимости градиент- ного метода и метода Ньютона. Наличие случайных помех вно- сит некоторые осложнения — возникает ненулевая вероятность выхода из области, в которой выполнены предположения. По- этому локальные утверждения о сходимости могут выполняться лишь с некоторой вероятностью 1 — б, б > 0. Приведем соответ- ствующий аналог теоремы 2. Пусть Q = {x: V (х)<е), где s > 0 — некоторое число. Теорема 6. Пусть условия А — Е, В' выполнены для всех х, xkG^Q. Тогда для метода (23): а) если х° детерминировано, х° е Q, о2 — 0, sk детерминировано, то V (х&) —0; оо б) если Y1 < °°> то P(?gQVA)>1 -б, Р(7(х*)->0)>1 -б, ! * (39) б —s-1M7(x°)+^-La2e_12J y1. ± fe=0 Далее, можно рассматривать непрерывные аналоги итера- тивных методов — процессы, описываемые обыкновенными диф- ференциальными уравнениями dxjdt — s(x, t), x(0) = x°. (40) Для них можно применить ту же технику, основанную на функ- ции Ляпунова. При этом формулировки многих теорем о сходи- мости упрощаются и приобретают более наглядный смысл. Исторически метод функций Ляпунова и возник применительно к подобным задачам. Мы, однако, не будем приводить соответ- ствующие результаты и рассматривать непрерывные методы. Дело в том, что развитие цифровой техники привело к тому, что теперь ЭВМ являются основными средствами решения вычис- лительных задач. Но при реализации процесса (40) на ЭВМ
§ 3. ДРУГИЕ СХЕМЫ 69 нужно переходить к его дискретной аппроксимации, т. е. вновь вернуться к итеративным методам. В то же время нужно иметь в виду, что переход к «предельной» форме дискретной траекто- рии может быть целесообразен с методической точки зрения для упрощения формулировок и «угадывания» различных методов. Для обоснования сходимости подобный подход систематически используется в монографии В. 3. Беленького, В. А. Волконского и др- [2.1]. Наконец, часто итерационный процесс рассматривается в форме xft+ic=7’(xft), Т- R"->R", (41) а не в виде (23). Постулируется существование функции V (х), обладающей свойством V (Т (х)) < V (х), хфТ (х), (42) при этом ни дифференцируемости, ни гладкости V(x) и Т(х) не требуется. Достаточно предположить, например, полунепрерыв- ность снизу функции ф(х)= V(T(x)) и ограниченность множе- ства {х: V(x)^V(x0)}. При этих условиях удается доказать, что у последовательности (41) есть предельные точки, и каждая из них является неподвижной точкой Т(х). Схемы такого типа предложены и исследованы в [0.6, 0.13, 1.6, 2.9]. Перспективной в круге данных идей представляется схема Е. А. Нурминского [2.9]; в ней не требуется монотонного убывания V (х) на каж- дом шаге и она пригодна для стохастического случая. К сожа- лению, подобные подходы не дают никакой информации о ско- рости сходимости процесса. § 3. Другие схемы Не нужно думать, что первый и второй методы Ляпунова исчерпывают все многообразие схем исследования сходимости итерационных процедур. Иногда эти схемы основываются на несколько иных соображениях. Упомянем кратко некоторые из них. 1. Принцип сжимающих отображений. Пусть g-. R”->Rra-i— некоторое отображение. Оно называется сжимающим, если Ог(х) —g(z/)IK^||x — yil, q<\, (1) Для всех х, у е R'!, т. е. если оно удовлетворяет условию Лип- шица с константой, меньшей 1. Рассмотрим итеративный про- цесс **+1 = g(xft). (2) Теорема 1 (принцип сжимающих отображений). Если S сжимающее отображение, то оно имеет единственную
60 ГЛ, 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ неподвижную точку х*, к которой сходится процесс (2) при лю- бом х° со скоростью геометрической прогрессии lkfe ~ X || < qk (1 - q)-1 II g (Х°) - Х° ||. (3) Доказательство. II xk+1 — Xk II —1| g (xk) ~ g(xfe-1) ||<?|| Xk — Xй-1 II, ||хй+1 -xftIK<7fe||x’~ х°||, k+s-1 i=k ,,k + ... + ^)||x1-x0||<-T4jl|x1-x0||. (4) Следовательно, ||xft+s— хй|| -> 0 при /г->оо и любом s, т. e. xk — последовательность Коши в R”. В силу полноты R” хк имеет предел х*. Так как g(x) непрерывна в силу -(1), то из xk-+x* следует g(xk)->-g(x*), но g(xk) = xk+1 ->х*. Поэтому x*=g(x*). Переходя в (4) к пределу при s->oo, получаем ||х*— хй|| ^(дй/(1— ^))||х1— х°||. Единственность неподвижной точки сразу следует из (1). ▲ Принцип сжимающих отображенией удобен тем, что он не только утверждает сходимость итеративного процесса, но и га- рантирует существование неподвижной точки. Поэтому он тра- диционно применялся в математике для получения разнообраз- ных теорем существования. Принцип сжимающих отображений допускает различные обобщения и модификации. Однако, как показывают приво- димые ниже упражнения 1—3, существенно расширить его нельзя. Отметим еще, что попытка непосредственно применить прин- цип сжимающих отображений к задачам, рассмотренным в § 1, не дает результатов. В самом деле, там было показано, что если спектральный радиус р(Л) матрицы А меньше 1, то итерации = Ахк сходятся. Однако в этих условиях линейное отобра- жение g(x) — Ах не является, вообще говоря, сжимающим, так как не обязательно ||Л|| < 1, см. § 1. Упражнения. 1. Постройте пример отображения g(x), обладающего свойством: ||g(x) — — g(g)ll < IIх — Для любых х Ф у, но не имеющего неподвижной точки. 2. Постройте пример нерастягивающего отображения: llg(x)—sT ||х — у\\, имеющего неподвижную точку, для которого итерации xft+1 = = не сходятся. 3. Постройте пример сжимающих отображений gk с общей константой сжатия <7 < 1, для которых итерации х*+> = g*(x*) не сходятся.
5 8. ДРУГИЕ СХЕМЫ 61 2. Теорема о неявной функции. Удобным инструментом при исследовании итеративных методов, не разрешенных относи- тельно xk+1, является хорошо известная из анализа теорема о неявной функции. Пусть F(x, у)—отображение из R^XR” в R«. Будем обозначать Fx (х, у), F'y (х, у) производные F по соот- ветствующим переменным. Теорема 2 (о неявной функции). Пусть F(x*, у*)—О, F(x, у) непрерывна по {х, у} в окрестности х*, у*, дифференци- руема по х в окрестности х*, у*, F'x(x, у) непрерывна в х*, у* и матрица F'x(x*, у*) невырождена. Тогда существует единствен- ная непрерывная в окрестности у* функция x — q>(y) такая, что Х*==ф(«/*), F(<p(y), у) = 0. Если, кроме того, Е'у(х*,у*) су- ществует, то ф(г/) дифференцируема в у* и ф'(/) = ~ [П(х*. У*)}'F'y(x*, у*). А (5) Иными словами, уравнение F(x, у) — 0 может быть разре- шено относительно х в окрестности у*. Применим этот резуль- тат прежде всего для исследования существования и устойчи- вости решений уравнений. Теорема 3. Пусть уравнение g(х) = 0, g: R^-^-R”, имеет решение х*, причем g(x) дифференцируема в окрестности х*, g'(x) непрерывна в х* и матрица g'(x*) невырождена. Тогда уравнение g(x) = y (6) имеет решение х(у) при достаточно малых у, причем х(у) = х* — g'у + о(у). ▲ (7) Приведенные результаты позволяют исследовать итерацион- ные процессы, в которых новое приближение xk+1 задается неяв- ным выражением, например оно является решением некоторой вспомогательной задачи безусловной минимизации. Именно так обстоит дело в методе регуляризации и многих методах реше- ния задач с ограничениями (например, методах штрафных Функций). 3. О роли общих схем исследования сходимости. Общие теоремы типа приведенных в этой главе берут на себя стандарт- ную, рутинную часть доказательств сходимости и тем самым упрощают процесс обоснования алгоритмов. Однако не нужно преувеличивать их роль и считать, что они делают анализ схо- димости элементарным. Во-первых, во многих случаях провер- ка их условий представляет самостоятельную нетривиальную проблему. Во-вторых, для простых задач непосредственное, <В лоб», доказательство ничуть не сложнее обращения к общим
62 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ теоремам. Примеры этому мы видели в гл. 1. Конечно, можно было бы ее результаты доказать с помощью схем настоящей главы. Однако такой подход лишен наглядности и поучитель- ности прямых доказательств. Наконец, в ряде задач целесооб- разно применить тот или иной специальный прием, использую- щий особенности задачи. Таким образом, анализ сходимости остается творческим про- цессом, требующим искусства и здравого смысла. Попытки уло- жить его в прокрустово ложе некоторой единой схемы (что свойственно, в частности, некоторым монографиям), произво- дят впечатление неестественности.
Глава 3 МЕТОДЫ МИНИМИЗАЦИИ В гл. 1 были рассмотрены два алгоритма минимизации, наи- более простые в идейном отношении — градиентный метод и ме- тод Ньютона. В настоящее время известны десятки (если не сотни) других методов безусловной минимизации дифференци- руемых функций. Ниже будут описаны некоторые из них — наи- более интересные либо в теоретическом, либо в вычислитель- ном отношении. На протяжении всей главы речь идет о задаче min f (х), х е Rre, где f(x)— дифференцируемая функция. § 1. Модификации градиентного метода и метода Ньютона 1. Недостатки и достоинства исходных методов. В гл. 1 были подробно исследованы градиентный метод xk+1 = xk — (хк) (1) и метод Ньютона xk+1 = xk — [^2f(xk)]~1^f(xk). (2) Этот анализ позволяет составить следующую таблицу сравни- тельных достоинств и недостатков каждого из методов. Таблица 1 Метод Достоинства Недостатки Градиентный Глобальная сходимость. Слабые требования к / (х). Простота вычислений Медленная сходимость. Необходимость выбора у Ньютона Быстрая сходимость Локальная сходимость. Жесткие требования к / (х). Большой объем вычислений Точный смысл этих терминов был разъяснен в гл. 1. Как Видно из таблицы, достоинства и недостатки данных методов
64 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ являются взаимно дополнительными, и хотелось бы разработать метод, объединяющий достоинства каждого из них и в то же время свободный от их недостатков. Хотя такого идеального решения нет, в данной главе будут описаны возможные шаги по направлению к нему. Прежде всего, оказывается, что некоторые из недостатков (необходимость выбора у для градиентного метода, локаль- ность метода Ньютона) могут быть устранены за счет простой модификации методов. К этому мы и перейдем. 2. Модификации градиентного метода. Рассмотрим общий градиентный метод Xk+l = х& — уk yf (xk) (3) при различных способах выбора длины шага у*. На первый взгляд кажется, что можно значительно повысить эффектив- ность градиентного метода, если идти до минимума по направ- лению антиградиента: yft = argmin Фй (у), фИу) == f (xk -- yVf (xk)). (4) Y >0 При этом мы получаем так называемый метод скорейшего спуска. Теорема 1. Пусть f(x)— непрерывно дифференцируемая функция и {х\ f(x)^f(xa)} ограничено. Тогда в методе (3), (4) Vf(x*)->0 и у последовательности хк существуют предельные точки, каждая из которых стационарна, т. е. найдется подпосле- довательность xkl-+x*, и Vf(x*) = 0. Этот результат нетрудно доказать с использованием техники гл. 2. ▲ По сравнению с теоремой 1 § 4 гл. 1 здесь условие Липшица на градиент удается заменить более слабым требованием не- прерывности градиента. Это естественно, поскольку способ вы- бора длины шага (4) является более гибким, чем выбор yft == у. /Метод (3), (4) сходится для тех примеров, на которых в § 4 гл. 1 демонстрировалась расходимость градиентного метода с постоянным шагом при невыполнении условия Липшица. Выясним вопрос о скорости сходимости метода. Рассмотрим пример квадратичной функции f (х) = (Ах, х)/2 - (Ь, х), А > 0. (5) В данном случае у* из (4) может быть выписано явно: „ _ IlwUW (AVf(xk). Vf(xk)) ' Метод (3), (6) выгодно отличается от (1) тем, что в него не входит подлежащий выбору параметр у.
§ I. ГРАДИЕНТНЫЕ МЕТОДЫ И МЕТОД НЬЮТОНА 65 Теорема 2. Для метода (3), (6) для функции (5) справед- лива оценка f(xk) - Ж)) (тТтГ ’ (7) где I — наименьшее, a L — наибольшее собственное значение матрицы А, х* — А~}Ь — точка минимума f(x). Доказательство. Используя вид фДу) и имеем f (xfe+!) = f (х*) - уft(Vf (xfe), Vf (х*)) + (AVf (x*)> Vf (x*))/2 = M ’ 2 Ж(хЖЖ)) ‘ Так как 2 (f (xk) — f (x*)) = (Л (xk — x*)> xk — x*) = (A~\f (/), ?/(/)), TO f (xk+l) — f (x*) __ . _____II W (xk) il4_____ f (xft) - f (X*) (Л- !w (xfe), Vf (x*)) (ЛVf (xft), Vf (x*)) Используя неравенство Канторовича (Лх, х)(Л’х, x)<(4U)-1(L + /)2||x|)4 VxeR", (8) получаем f(xfe+1)-f (х*) / z, — Z \2 Ж)-Г(х*) + ’ что и дает требуемую оценку (7). ▲ Поскольку 2 (f (х) — f (х*)) = (Л (х — х*), х — х*) ./> 11| х — х* ||2, то из (7) следует 11 xk - х*|! < V2/"1 (f (х°) -7tf))qk, q = {L — l)/(L1). (9) Оценка (7) точная, так как нетрудно построить двумерный пример, для которого неравенство в (7) превращается в равен- ство. Сопоставляя (7) и (9) с теоремой 3 § 4 гл. 1, приходим к несколько неожиданному выводу—метод скорейшего спуска для квадратичной функции сходится, вообще говоря, не быст- рее, чем простой градиентный метод (1) при соответствующем выборе у. Этот же вывод справедлив и для общего неквадра- тичного случая. Итак, добиться выигрыша в скорости сходи- мости за счет более полной одномерной минимизации (т. е. вы- бора шага в соответствии с (4)) в градиентном методе нельзя. Отсюда не следует делать вывод, что в принципе нельзя ускорить сходимость градиентного метода путем выбора длины шага. Например, если для минимизации квадратичной функции (5) применить градиентный метод (3) с у* = 1/Жь k — 0, ... ..., п—1, где 'Ki — собственные значения Л, то такой метод
66 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ будет конечен, т. е. хп = х* (проверьте!). Конечно, этот резуль- тат вряд ли представляет практический интерес, так как соб- ственные значения А обычно неизвестны, а их нахождение — задача более трудная, чем решение системы Ах = Ь. Перейдем к другому способу выбора у*. Простейший выбор у* ss у, 0 < у < 2/L (теорема 1 § 4 гл. 1), неконструктивен, так как константа L обычно неизвестна. Можно предложить следующую процедуру подбора у. Задаются 0<8<1,0<а< < 1 и некоторое у. На каждой итерации вычисляется f(x*— yVf(xfe)) и проверяется неравенство f (xk — yVf (xk)) < f (xk) — sy || Vf (xk) II2. (10) Если оно выполняется, то xk+1 — xk — yVf(xk), если же нет, то у заменяется на уа и проверка повторяется. Можно показать, что в условиях теорем 1 и 2 § 4 гл. 1 та- кая процедура требует конечного числа дроблений у на каждой итерации и остаются в силе утверждения этих теорем. Таким образом, правило выбора длины шага нетрудно сделать кон- структивным. Однако главный недостаток градиентного мето- да — его медленную сходимость для плохо обусловленных за- дач— простыми средствами устранить не удается. 3. Модификации метода Ньютона. Придать методу Ньютона свойство глобальной сходимости можно различными способами. Один из них связан с регулировкой длины шага: xk+i = xk — yk [V2f (л?)]"' vf (xk). (11) Его часто называют демпфированным методом Ньютона. Параметр у* может выбираться по-разному, например у/е = argmin f (х'г — у [V2f (х*)Г ‘ Vf (**)) (12) Y 0 или у дробится (умножается на 0<а< 1), начиная с у = 1, до выполнения условия f^+’XfW-v^QvV^-’vfC?), Vf(xfe)), 0 <<?<!, (13) или условия IlVf^+OlP^d-Y9)llVf(xft)||2, 0<7<1. (14) Для гладких сильно выпуклых функций демпфированный ме- тод Ньютона глобально сходится (упр. 1). Что касается скоро- сти сходимости, то на начальных итерациях можно утверждать лишь сходимость со скоростью геометрической прогрессии. При попадании же в окрестность х*, в которой выполняются условия теоремы 1 § 5 гл. 1, будет иметь место квадратичная сходи- мость (упр. 2). Возможна и другая модификация (называемая методом Ле- венберга — Марквардта), в которой само направление движения
« 1. ГРАДИЕНТНЫЕ МЕТОДЫ И МЕТОД НЬЮТОНА 07 отличается от задаваемого методом Ньютона. Поступим так же, как при одном из обоснований градиентного метода (см. (3) § 4 гл. 1) —добавим к аппроксимирующей функции квадра- тичный штраф за отклонение от точки хк, т. е. будем искать xft+1 из условия минимума ffe(x) + (a&/2) ||х —xfe||2, fA(x) = f(x*) + (Vf(x*), x-xk) + ^f(xk)(x-xk), х — х'1)/2. 05) Тогда приходим к методу xk+l = _ (ytf (xfe) 1 yf (16) При ak — 0 метод переходит в метод Ньютона, при а*->оо направление движения стремится к антиградиенту. Таким обра- зом, (16) представляет собой компромисс между этими двумя методами. За счет выбора а!г можно добиться глобальной схо- димости метода (упр. 3). Метод (16) обладает перед (11) тем преимуществом, что он (как и градиентный метод) пригоден не только для выпук- лых функций (см. упр. 3), тогда как в методе (11) требуется положительная определенность матрицы V2}(x) (упр. 4). Есть специальные модификации метода Ньютона, в которых матрица V2f(A:fe) заменяется на некоторую положительно опре- деленную, если сама V2f(xft) таковой не является. Однако во всех описанных модификациях метода Ньютона каждая итерация (как и в основном методе Ньютона) требует очень большой вычислительной работы (вычисление V2f(x), ре- шение систем линейных уравнений), а скорость сходимости вдали от минимума, вообще говоря, не высока. Таким образом, попытки «слегка подправить» градиентный метод и метод Ньютона хотя и позволяют устранить некоторые их недостатки, но не меняют положение с наиболее серьезными их дефектами — медленной сходимостью градиентного метода и трудоемкостью метода Ньютона. Упражнения. I. Пусть f(x)—дважды дифференцируемая сильно выпуклая функция, IIV2/(.x)|| Д -б- Тогда в процедурах (13), (14) число дроблений у па каждой итерации конечно, а метод (И) с любым правилом (12) — (14) выбора у* и при любом сходится к точке минимума х* со скоростью геометрической прогрессии. Докажите, воспользовавшись теоремами § 2 гл. 2 с V (а:) = = f (х) — fix'*) или V (х) = IIVf(х)112. 2. Покажите, что в условиях теоремы 1 § 5 гл. 1 в достаточно малой окрестности х* в методах (13) и (14) будет у* = 1. 3. Пусть f(x) —дважды дифференцируемая функция, ||V2f(x)|f < L, множество {x:f(x) -Д ffxf3)} ограничено, а точка х*, в которой Vf(x*) = О, единственна. Покажите, что можно указать такие у и у, что при у_г< а* у в методе (16) будет xkх* (воспользуйтесь теоремами § 2 гл. 2 с i/(.Y) — •» fix) — f(x*)).
§ 2. МНОГОШАГОВЫЕ МЕТОДЫ 69 ческой прогрессии: || ? — Z Ж с (6) (7 + 6)\ 0<?<1, 0 <6 <1-7. (5) Величина q минимальна и равна * д/а — д/7 * 4 7 — —------при а =7-7=-----------==г, 4 4L + -y/i r (Vl + VT)2 Схема доказательства. В данном случае непосред- ственно применить приемы исследования сходимости, описан- ные в гл. 2, нельзя, так как все они рассчитаны на одношаго- вые процессы. Можно, однако, использовать способ увеличения Рис. 6. Метод тяжелого шарика (а) я градиентный метод (б). размерности пространства, позволяющий свести многошаговый процесс к одношаговому (см. (15) § 1 гл. 2). Введем 2/г-мерный вектор zk — {х'Л— .г*, х^ — х*}. Тогда итерационный процесс (2) может быть записан в форме zk+1 = Azk + о (zs), (7) где квадратная матрица А размерности 2«Х2п имеет вид А ==( (1 + р) / — о.В 1 (8) О в = ?7(О- Пусть I = М X 7,2 С ... X — L — собственные значения матрицы В. Тогда собственные значения р/, / = 1, ..., 2п, ма- трицы А совпадают с собственными значениями матриц 2X2 вида 1 Т Р — aXj 1 -рх О ) ' Следовательно, они являются корнями уравнений р (1 4- (3 — ct%^) -j- (3 = 0, i 1, .. •, п. (9) Можно показать, что если 0 < Z X/ L, 0 с; |3 < 1, 0 •< а •< <. 2(1 4- p)/L, то |р| < 1, где р —любой корень уравнения (9).
68 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ 4. Приведите примеры, показывающие, что если матрица V2f(xi) не яв- ляется положительно определенной, то метод (11) может потерять смысл ([V2/'(х4)]-1 не существует), а в методе (11), (12) может оказаться ул = О в точке, где Vf(x*) ^=0. § 2. Многошаговые методы В градиентном методе на каждом шаге никак не исполь- зуется информация, полученная на предыдущих итерациях. Естественно попытаться учесть «предысторию» процесса для ускорения сходимости. Такого рода методы, в которых новое приближение зависит от s предыдущих: xft+I = <р,г(xk, xft~s+1), (1) называются s-шаговыми. Градиентный метод и метод Ньютона были одношаговыми, теперь рассмотрим многошаговые (s > 1) методы. 1. Метод тяжелого шарика. Одним из простейших многоша- говых методов является двухшаговый метод тяжелого шарика д.а+1 __ xk — aVf (xfe) + P(xfe — xfe_1), (2) где a > 0, P 2s 0 — некоторые параметры. Ясно, что при р — 0 метод (2) переходит в градиентный. Свое название метод полу- чил из-за следующей физической аналогии. Движение тела («тяжёлого шарика») в потенциальном поле при наличии силы трения (или вязкости) описывается дифференциальным урав- нением второго порядка d2X (/) г-, t I 11\\ ... dX (t) /г>\ (3) Ясно, что из-за потери энергии на трение тело в конце концов окажется в точке минимума потенциала f(x). Таким образом, тяжелый шарик «решает» соответствующую задачу минимиза- ции. Если рассмотреть разностный аналог уравнения (3), то придем к итерационному методу (2). Введение инерции движения (член р(х*— хА~’)) в итера- ционный процесс может привести к ускорению сходимости. Это видно, например, из рис. 6 — вместо зигзагообразного движения в градиентном методе в данном случае получается более плав- ная траектория по «дну оврага». Эти эвристические соображе- ния подкрепляются следующей теоремой. Теорема 1. Пусть х*— невырожденная точка минимума f{x), xeRn. Тогда при 0<₽<1, 0<а<2(1 +₽)//., //<V2f(x*)<Z,7 (4) найдется е 3> 0 такое, что при любых х°, х\ ||х°— х*|| е, Ух1—х*[| 8 метод (2) сходится к х* со скоростью геометра--
70 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Теперь мы можем воспользоваться теоремой 1 § 1 гл. 2 о ло- кальной сходимости итерационных процессов вида (7), что дает возможность получить оценку (5). Вычисляя min max | р/|, а, В 1 < 2га находим приведенные в теореме оптимальные значения а*, р* и соответствующее им </*. А Сравним скорость сходимости, даваемую одношаговым и двухшаговым методами при оптимальном выборе параметров. И в том, и в другом случаях имеем сходимость со скоростью геометрической прогрессии, но знаменатель прогрессии для одношагового метода равен <7, = (/,-/)/(/, + /), (10) а для двухшагового <h = (VI - VT)/(л/L + VT). (11) Для больших значений числа обусловленности р, = L/1 q^\—2lv., q2 I — 2/V?'• (12) Поэтому, чтобы приблизиться к решению в е — 2,7 ... раз, в одношаговом методе требуется порядка ц/2 итераций, в двух- шаговом— порядка д/ц/2. Иными словами, для плохо обуслов- ленных задач метод тяжелого шарика дает выигрыш в раз по сравнению с градиентным. Для больших ц эта разница весьма значительна. С вычислительной же точки зрения метод (2) немногим сложнее одношагового. Правда, подбор оптимальных значений аир в (2) не прост — формулами (6) непосредственно воспользоваться не удается, так как границы спектра V2f(x*) (числа I и L) обычно неизвестны. Упражнение. 1. Докажите глобальную сходимость метода (2) для квадратичной f(x). 2. Метод сопряженных градиентов. Рассмотрим другой вари- ант двухшагового метода — метод сопряженных градиентов, в котором параметры находятся из решения двумерной задачи оптимизации: — xk — akVf (xk) 4- $k(xk — x4-1), (13) {«&> = argmin f (^--aVf^) 4-p(xft — xft-1)). (14) {«. SI Для случая квадратичной функции Цх) = (Ах, x)/2~(b, х), Л > 0, (15)
72 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Если rk обращается в 0, то xk — точка минимума f(x). Но в R" не может существовать более п ортогональных ненулевых векторов, поэтому для некоторого k гД п будет rk = 0. Итак, мы доказали следующий результат. Теорема 2. Метод (13), (16), (17) дает точку минимума квадратичной функции f(x) вида (15) за число итераций, не превосходящее п. ▲ Мы установим в дальнейшем (см. гл. 7), что если L — не- которое подпространство в R", f(x)— выпуклая дифференци- руемая функция, то условие (Vf (х*), а) — 0 для всех а е L необходимо и достаточно для того, чтобы х* было минимумом f(x) на L. Отсюда и из леммы 1 следует, что xk — точка мини- мума квадратичной функции f(x) вида (5) на подпространстве, проходящем через х° и порожденном г°, ..., rk~x. Этот несколь- ко неожиданный факт (мы ищем минимум k раз последова- тельно на 2-мерных подпространствах, а он оказывается мини- мумом на всем ^-мерном подпространстве) является важнейшей особенностью метода сопряженных градиентов и объясняет его конечность. Последовательные направления движения pk в методе со- пряженных градиентов удовлетворяют соотношению (Ар1, pl)—0, (19) Действительно, р‘ = х‘ — х'-1, поэтому Ар': = Ах':— Ах':~1 = = г‘— г‘-х. С другой стороны, мы уже отмечали, что pk есть k -1 линейная комбинация г°, ..., г*-1, р'! — У, ц.Д. Поэтому для /=о / k~l \ i > k имеем (Ар1, pk) = I г1 — Д-1, У, I = 0 в силу леммы 1. \ i=o/ Векторы р‘, связанные соотношением (19), называются со- пряженными или А-ортогональными (они ортогональны в ме- трике, задаваемой матрицей Л). Это объясняет название ме- тода— в нем строятся линейные комбинации последовательных градиентов, являющиеся сопряженными. Отметим, что знание произвольных сопряженных направле- ний s', 1=1, ..., п, (As', s1) = 0, i^=j, позволяет без труда решить систему Ах = 6, А > 0. (20) п Действительно, будем искать решение в виде х— У atsl. Тогда, 1=1 “ подставляя это в (20), умножая скалярно на s' и используя
§ 2. МНОГОШАГОВЫЕ МЕТОДЫ 71 эта задача может быть решена явно: «а __ II rk IF (Арк, рк) — (rk, pk) (Ark, pk) ~ (Ar*,rftW,pft)-(X?V)2 rk — Vf (xft) = Axk — b, ||rfeIIW, p*)-(A Р»)(лА rk) (Агк, гк) (Apk, pk) - (Лг\ pk)2 pk = xk — Xk~l. (18) Могло бы показаться, что соотношение методов (13), (14) и (2) такое же, как методов (3), (4) и (1) в § 1, — если метод скорейшего спуска не дает, как мы видели, выигрыша в скоро- сти сходимости по сравнению с градиентным методом с постоян- ным оптимальным у, то и от двухшагового варианта скорей- шего спуска (13), (14) трудно ждать существенного ускорения по сравнению с. методом тяжелого шарика (2). Оказывается, ситуация здесь иная: так, в квадратичном случае метод (13), (14) (при специальном выборе р1) является конечным, т. е. дает точный минимум функции (15) за конечное число итераций. Пусть начальное приближение х°. произвольно, а х1 полу- чено из него методом скорейшего спуска: x1 = x°--^5-r°, r0 = V/(x°) = /4x°-6. (17) > г ) Лемма 1. Градиенты г°, г1, ... в методе (13), (16), (17) попарно ортогональны: (rl,rk) = 0, i < k. (18) Доказательство. Воспользуемся индукцией по k. Пусть (г1', гк) — 0 при 0 i < k, k^2, и г‘ ф 0, i ~ 0, ..., k. Орто- гональность г°, г1, г2 следует непосредственно из определения метода. Тогда, умножая (13) слева на А, получаем r*+1 __ rk _ _ pS-i). Из rl ф 0 для i k следует, что a* =/= 0. Поэтому Ark есть ли- нейная комбинация rft+1, гк и гк~\ аналогично Ar‘, i < k, есть линейная комбинация ri+1, rl, г‘~1 и в силу предположения ин- дукции (Ar1, rl") = Q, |г — j|> 1, i < k, j^ k. Следовательно, (rk+l, rl) = (rk — UkArk + P*(rk — rk~x), rl) — 0 при i — Q, ..k — 2. Далее, непосредственно из формул (13), (16) следует, что (,-s+i, rS) __ 0, (rft+1, рк) = 0. Наконец, из (13), заменяя k на k—1, имеем рк — —аь-1Гк~1 + + Pfc-ip*-1. Применяя это соотношение последовательно, полу- чаем, что рк есть линейная комбинация г°, г1, ..., гк~\ причем гк~1 входит с коэффициентом —aft_i 0. Поэтому из (г*4-1, рк) = =* 0, (г*+*, г‘) = 0, i^k — 2, следует, что (rft+1, rk~l) = Q. Итак, для всех i k будет (rft+1, г‘) = 0. А
§ 2. МНОГОШАГОВЫЕ МЕТОДЫ 73 А-ортогональность, имеем а<==(^> 5г)/(Лх', s‘). (21) Этому решению можно придать рекуррентную форму: зададимся произвольным х° и построим xk+i = х* ф- где а* задаются (21). Тогда хп = х* — решение (20). Поскольку а* в (21) мож- но определить иначе:. аА = argmin f (хк ф- ask), то мы получаем, а что знание системы сопряженных направлений позволяет найти минимум квадратичной функции с помощью п одномерных минимизаций. Этот важный факт будет неоднократно использо- ваться в дальнейшем при построении других методов минимиза- ции. В методе сопряженных градиентов сопряженные направ- ления не выбираются заранее, а строятся по рекуррентным фор- мулам. Если применять метод (13), (14) для неквадратичных функ- ций, то, сопоставляя его с методом скорейшего спуска, нетрудно доказать его глобальную сходимость, а сопоставляя с методом тяжелого шарика, — оценить скорость сходимости (упр. 3 и 4). Методу сопряженных градиентов можно придать и иную форму. Рассмотрим итерационный процесс хй+’ = хк + akpk, ak — argmin f (xk + арй), а = (22) ? = Vf(?), Po = O. Лемма 2. Для случая квадратичной функции (15) методы (13), (16), (17) и (22) при одинаковом х° определяют одну и ту же последовательность точек xk. А Поскольку рк в (22) и (16) отличаются лишь скалярными (ненулевыми) множителями, a гк в (22) и (16) совпадают, то процесс (22) обладает теми же свойствами, что и (13), (16): векторы р‘ являются сопряженными, а градиенты г1— взаимно ортогональны. Из леммы 2 и теоремы 1 следует, что метод (22) дает точку минимума квадратичной функции (15) в Rn за число итераций, не превосходящее п. Для неквадратичных задач ме- тод (22) проще, чем (13), (14), так как требует решения лишь одномерной (а не двумерной) вспомогательной задачи миними- зации. Разумеется, в неквадратичном случае теряется свойство конечности метода и (22) превращается в, вообще говоря, бес- конечный итерационный двухшаговый метод. Результат о его сходимости приведен в упражнении 5. Обычно для неквадратичных задач метод сопряженных гра- диентов применяется в несколько иной форме. В него вводится процедура обновления — время от времени шаг делается не по формуле (22), а как в начальной точке, т. е. по градиенту.
74 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Наиболее естественно производить обновление через число итераций, равное размерности пространства: д-fe+i _ xk _|_ akSk, aft = argminf(xfe + asft), a>0 + rk — vf(xk), (23) JO, k = 0, n, 2n, ... = t 11 rk ||2/|| г*-1 II2, k 0, n, 2n, ... Нетрудно доказать, что метод сопряженных градиентов с обновлением обладает свойством глобальной сходимости (упр. 6). Оказывается, что в то же время в окрестности мини- мума он сходится с квадратичной скоростью. Теорема 3. Пусть х* — невырожденная точка минимума, и в ее окрестности V2f(x) удовлетворяет условию Липшица. Тогда для метода (23) в окрестности х* справедлива оценка || х(т+1) п __ || с || xmn _ x* ||2# Иначе говоря, по скорости сходимости п шагов метода со- пряженных градиентов эквивалентны одному шагу метода Нью- тона. Мы не приводим доказательства теоремы, так как оно до- вольно громоздко. В его основе лежит идея квадратичной ап- проксимации f(x) и факт конечности метода для квадратичных функций (см. теорему 2). А Возможны иные вычислительные схемы метода сопряжен- ных градиентов для неквадратичных функций. С одной из них, требующей решения двумерной задачи минимизации на каждом шаге, мы начали анализ этого метода — см. (13), (14). Другие, подобно (22), обычно включают лишь одномерные вспомога- тельные задачи, но отличаются от (22) правилом выбора Примером может служить схема — xk + aksk, afe = argminf (xk — ask), a>0 = + (24) ffe = V/ (Xk), ₽0 = 0. Как и для (22), здесь возможны варианты либо с обновле- нием, либо без него. Для квадратичной функции последователь- ности xk, порождаемые методами (22) и (24), совпадают. Как показывает опыт вычислений, для неквадратичного слу- чая несколько более быструю сходимость обычно дает схе- ма (24). , Представляет интерес поведение метода для задач большой размерности (когда число итераций меньше размерности). Ока- зывается, здесь можно гарантировать лишь сходимость со ско-
s 2. МНОГОШАГОВЫЕ МЕТОДЫ 70 ростью геометрической прогрессии даже для квадратичного слу- чая. Пусть А — матрица «Х«, Z/<A<ZJ, Z > О, (25) и f(x)—соответствующая ей квадратичная функция на R": f (х) = (Ах, х)/2 - (Ь, х), b е Rn. (26) Точка xft может быть представлена в виде xft-x, = Pfe(A)(x0-x*), (27) где Pk(A)—матричный полином й-й степени вида Pk(A) = 1 + а^А + ••• (28) Поэтому II хй - х* II2 с 2 (f (xk) - П/l = (API (A) (x° - X*), x° - x*)// c <(L/0l|x0-x*||2 max Pl(K), где Pt(X)=l + alkKA~ ••• + cikkbk — обычный полином. В силу свойств метода оценка для f(xk)—f* справедлива для всех РДЛ), Рд. (0)= 1, в частности, для где Tk (П = [(Л + У^=й)k + U - У^Т? ]/2, Ц | > 1; Tk (Л) = cos (k arccos Л), | % | =< 1. Поэтому I x> _ z 2 ([(^±£)‘ + ($=$)']'' IU° - «• II« <2(|)Vl|x°-x*||, <7 = (VZ-V7)/(VZ + VT). (30) Можно показать на примерах, что оценка (80) неулучшаема. Итак, при k < п для метода сопряженных градиентов, при- мененного для минимизации квадратичной функции, можно га- рантировать сходимость со скоростью геометрической прогрес- сии со знаменателем = (VZ — д//)/(д/1 + д/Z)1 — 2/д/ц, ц=== ЬЦ, т. е. такую же, как для метода тяжелого щарика при оптимальном выборе его параметров. По сравнению с послед- ним в методе сопряженных градиентов нет проблемы выбора
76 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ параметров — они определяются автоматически, хотя это и требует дополнительных вычислений для решения одномерной задачи минимизации. Мы видим, что в методе сопряженных градиентов xk яв- ляется точкой минимума квадратичной функции f(x) на под- пространстве, порожденном первыми k градиентами. Отсюда следует, что никакой метод, использующий только градиенты функции (точнее, в котором шаг делается по линейной ком- бинации предыдущих градиентов), не может сходиться быстрее. Иными словами, метод сопряженных градиентов яв- ляется оптимальным по скорости сходимости в классе методов первого порядка. Из полученного выше результата вытекает, что для задач большой размерности с квадратичными функ- циями f(x), удовлетворяющими условию (25), для всех методов первого порядка нельзя ждать сходимости более высокой, чем скорость геометрической прогрессии со знаменателем ^г== (д/Л—VD/(V^-+V0- Естественно, большая скорость схо- димости не может достигаться и в более широком классе сильно выпуклых с константой I функций, градиент которых удовле- творяет условию Липшица с константой L. Факт квадратичной сходимости (теорема 3) имеет место только при числе итера- ций, существенно большем размерности пространства. Упражнения. 2. Проверьте, что если х1 выбирается произвольно (а не по формуле (17)), то метод (13), (16) сходится к точке минимума (15) со скоростью гео- метрической прогрессии, но, вообще говоря, не является конечным. Для дока- зательства можно воспользоваться, например, тем фактом, что по определе- нию метода (13), (14) f(xft+') f(xft+!), где хк+х—точка, полученная из х\ х6-1 методом тяжелого шарика. 3. Пусть f(x)—непрерывно дифференцируемая функция, множество {х: f(x) )(х°)} ограничено. Докажите, что тогда при любых х°, х1 в методе (13), (14) будет Vf(x*)-*O (используйте теорему 1 § 1). 4. Пусть х*—невырожденная точка минимума f(x). Используя то же соображение, что и в упражнении 2, докажите локальную сходимость метода (13), (14) со скоростью геометрической прогрессии. 5. Докажите следующий результат о сходимости метода сопряженных градиентов. Пусть f(x)—дифференцируемая сильно выпуклая функция, гра- диент которой удовлетворяет условию Липшица. Тогда метод (22) сходится при любом х° к точке минимума f(x). Используйте при этом следующие свой- ства метода: (г*, pft~’) = О, (г*, рк) =—||г*||2 и лемму Абеля —Дини (ряды ОО оо £ «й- Z ей/(ео+ ••• +®й) сходятся или расходятся одиовремеиио), при- й=0 й=0 меиив ее к efe = || rk iP/pf ... Попытайтесь оценить скорость сходимости. 6. Пусть f(x) непрерывно дифференцируема, а множество {х: f(x) sj •С Цх°)} ограничено. Докажите, что тогда в методе (23) V)(x6) ->0. Это же справедливо для любого правила выбора моментов обновления, если их число бесконечно. 7. Докажите, что Tt(Л), определяемое (29), действительно является по- линомом /г-й степени.
§ 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 77 § 3. Другие методы первого порядка В основе всех методов, описываемых в этом параграфе, ле- жит идея восстановления квадратичной аппроксимации функ- ции по значениям ее градиентов в ряде точек. Тем самым ме- тоды объединяют достоинства градиентного метода (не тре- буется вычисление матрицы вторых производных) и метода Ньютона (быстрая сходимость вследствие использования ква- дратичной аппроксимации). 1. Квазиньютоновские методы. Эти методы имеют общую структуру: ^+1 = ^_уйад(^), (1) где матрица Нк пересчитывается рекуррентным способом на основе информации, полученной на k-й итерации, так что Hk — [V2/ (xft) ]-I -> 0. Таким образом, методы в пределе пере- ходят в ньютоновский, что и объясняет их название. Отметим некоторые общие свойства методов такого типа. Доказатель- ство приводимых ниже лемм может быть без труда получено с использованием описанной ранее техники. Лемма 1. Пусть f(x)^f*, f(x) дифференцируема, Vf(x) удовлетворяет условию Липшица и m>0. (2) Тогда в методе (1) с yk = y, где у> 0 достаточно мало, будет Vf(xk)-+Q. А Лемма 2. Пусть х* — невырожденная точка минимума f(x), f(x) дважды непрерывно дифференцируема в окрестности л* и к-[ШГ'1->о. (3) Тогда метод (1) с = 1 локально сходится к х* быстрее лю- бой геометрической прогрессии. А Таким образом, при любых равномерно положительно опре- деленных Hk метод (1) обладает глобальной сходимостью, а при условии (3) в окрестности минимума метод сходится со сверхлинейной скоростью. Перейдем к вопросу о способах построения матриц Hk, ап- проксимирующих [V2f (х*)]-1. В принципе их можно формиро- вать с помощью конечно-разностной аппроксимации. Именно, из точки xk можно сделать п «пробных шагов» длины а* по ко- ординатным осям и вычислить в этих точках градиенты. Соот- ветствующая разностная аппроксимация будет искомой, если а*->0 (см. упр. 1). Однако такой прямолинейный способ аппроксимации неэко- номен— в нем делается п пробных вычислений градиента на каждой итерации и никак не используются градиенты,
Т8 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ найденные на предыдущих итерациях. Кроме того, в нем тре- буется обращать матрицу. Основная идея квазиньютоновских методов заключается; во-первых, в том, чтобы не делать спе- циальных пробных шагов, а использовать найденные градиенты в предыдущих точках (поскольку они близки к хк), а во-вто- рых, в том, чтобы строить аппроксимацию непосредственно для обратной матрицы [V2f(xft)]_1. Обозначим pR = — HkVf (xk), yk = V/ (x*+1) — V/ (xk). (4) Тогда для квадратичной функции f(x) = (Ax, x)/2 — (b, х), А > 0, имеем yk — A (xk+l — xk) = ykApk, т. е. Y*P*== A'lyk. (5) Поэтому для нового приближения Hk+i к [V2f (хй+1)]-1 есте- ственно потребовать выполнения так называемого квазиньюто- новского условия Hk+i yk = VkPk- (6) Кроме того, удобно получать Нк+\ как поправку к Нк с по- мощью матриц первого или второго ранга. Наконец, эти по- правки должны быть такими, чтобы для квадратичного случая оказалось = А-1. Основным техническим инструментом анализа подобных ме- тодов является следующая лемма об обращении матриц. Лемма 3. Пусть В — матрица п\п, для которой В~х су- ществует, а, b — векторы из R", (В-1а, &)=/=—1, А == В 4- abT, Тогда А-1 = В-1 —(1 + (В’1а, b))^ В~1а(в~'‘ь)г. (7) Лемма доказывается прямой проверкой. ▲ Таким образом, если известна матрица, обратная к В, а матрица А получена из В добавлением матрицы ранга 1, то обратная к А находится без труда. Приведем примеры формул пересчета матриц Нк: а) метод Давидона—Флетчера—Пауэлла (ДФП)г гг И Нкук(ук)т Нк , pk(pkY и f), б) метод Бройдена'. нк+1-нк hkPk - яУг) (ykpk - (УкрЬ - Hkyk, yk) Но> 0; (9)
§ 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 79 в) метод Бройдена— Флетчера — Шенно (БФШ);. п fe + 1 — nk -|---------------------------------------------------------------------------------------------------------------------------------- (yk, pk) . {Hkyk, yk) „ . n ₽‘“’* + '(7щГ’ H°>0- (10) Оказывается, для всех формул (8) —(10) выполнено квази- ньютоновское условие (6). А если > 0 — произвольные числа, pk — произвольные, линейно независимые векторы, yk удовле- творяют соотношению (5) с А-1 > 0, то при любом Яо > 0 бу- дет Нп = А-1. Отсюда следует Теорема 1. При любых х°, Но > 0 .метод (1), (4) с любой из формул пересчета (8), (9), (10) и yk = argmin f (xk 4- ypk) для f(x) = (Ax, x)/2 — (b, x), A > 0, будет конечным: xn — = x* — A~xb. ▲ Более того, можно показать, что, несмотря на различие формул пересчета, последовательности xk, генерируемые каж- дым вариантом метода, для квадратичной функции f(x) сов- падают. Для неквадратичных функций квазиньютоновские методы в записанной выше форме применимы, по они, естественно, пере- стают быть конечными. В связи с этим при k > п можно либо продолжать счет по этим же формулам, либо ввести процедуру обновления (заменять матрицу Н,, на Яо через каждые п ите- раций) . В настоящее время доказана сверхлинейная (или квадратич- ная) скорость сходимости многих вариантов квазиныотоновских методов в окрестности невырожденной точки минимума. Эти результаты выглядят естественными в свете утвержде- ний лемм 1 и 2 и теоремы 1, однако их полное доказательство весьма громоздко. Квазиньютоновские методы чрезвычайно популярны, им по- свящён огромный поток работ. Такое внимание объясняется упоминавшимися выше достоинствами методов — они требуют лишь одного вычисления градиента на каждом шаге, в них не нужно обращать матрицу или решать систему линейных урав- нений, они обладают глобальной сходимостью, в окрестности решения скорость сходимости высока (часто квадратична) и т. п. Однако они имеют и дефекты по сравнению, например, с методом сопряженных градиентов. Главный из них заключается в необходимости хранить и пересчитывать матрицу Hk размер- ности п )(п, что для больших п требует значительного объема памяти ЭВМ. При численной проверке методов обычно наилучшие резуль- таты дает вариант (10).
80 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Упражнение. 1. Пусть ei, еп—координатные орты в R'1, f(x) дифференцируема в окрестности точки х и дважды дифференцируема в х. Пусть Я(а)—мат- рица, т’-й строкой которой является a-1 (V/'(x + ае1) — V7(xj )> Докажите, что Я(а)-> V2f(x) при а-*0. 2. Методы переменной метрики и методы сопряженных на- правлений. Выше квазиньютоповские методы были получены как приближения к методу Ньютона. Однако на них можно посмотреть и с другой точки зрения. Выясним прежде всего, как влияет выбор метрики на вид и свойства градиентного метода. Пусть в пространстве Rn наряду с исходным скалярным произведением (х, у) задано с помощью матрицы А > 0 другое скалярное произведение (х, y)j = (Лх, у). (11) В этом случае А задает новую метрику в Rra: ||х —у||* = (Л(х — у), х — у). (12) Выпишем градиент дифференцируемой функции f (х) в но- вой метрике: Кх + y)=/(x) + (V/(x), у) + о(||у||) = - f(x)+(ZA '!V/'(x), у) + о (|| у ||) = f (х) + (а, у), + о (|| у Ц,), а = Д-'V/ (х). В соответствии с определением вектор а есть градиент f(x) в пространстве со скалярным произведением (11). Итак, (х)== Л-1?/(х). (13) В новой метрике градиентный метод приобретает вид xft+1 = xk - VkVif (У) = xk - ykA (xfe) (14) и отличается от исходного градиентного метода наличием ма- трицы А-1. Иными словами, градиентный метод не инвариантен к выбору метрики пространства. Естественно попытаться вы- брать метрику так, чтобы ускорить сходимость метода. Для ква- дратичной функции f(x) = (Bx, x)/2 — (b, х) — (у2)(Л”‘Вх, х)] — (Л~Ч x)j (15) скорость сходимости (14) определяется знаменателем прогрес- сии q — (L — /)/(/. + /), где L, I — наибольшее и наименьшее собственные значения матрицы А~-В. Чем ближе эта матрица к единичной, тем меньше q. Наилучший способ — выбрать А — В, тогда А~'В = I, у = 0, т. е. если задать метрику с помощью матрицы В, то градиентный метод (с у* = 1) даст точное реше- ние за 1 шаг. Это не удивительно, так как в этой метрике f(x) —
5 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 81 — (1/2) (х, x)i — (А-16, х)ь т. е. линии уровня f(x)—сферы, а обусловленность р равна единице. Для неквадратичной функции метод ^+1 = ^-уЛМ(^)> Hk>0, (16) может рассматриваться как градиентный в метрике (к, у)1 = (Н^х, у), (17) и «оптимальным» выбором метрики является И* = [V2/(xft)]-1. Иными словами, квазиныотоновские методы могут трактоваться как градиентные, в которых на каждом шаге выбирается новая метрика, по возможности близкая к наилучшей. В связи с этим часто употребляют термин методы переменной метрики как си- ноним квазиньютоновских методов. Такая интерпретация полезна и как эвристический способ построения новых вариантов квазиньютоновских методов. На- пример, можно получить новую метрику путем «растяжения» пространства в направлении последнего градиента или в на- правлении разности двух последовательных градиентов и т. п. Мы остановимся на таких методах подробнее в гл. 5. Другой подход к построению эффективных методов первого порядка связан с использованием понятия сопряженных направ- лений. уже отмечали в § 2, что, зная набор сопряженных направлений р1, ..., рп: (V, Я = 0, /=#/, (18) можно найти минимум квадратичной функции /(х) = — (Дх, х)/2 — (Ь, х) за п одномерных минимизаций: xk+l — xk — akpk, ak = argmin f (xk — apk). (19) a Тогда при любом x° будет xn — x* = A~'b. Один способ построе- ния сопряженных направлений использовался в методе сопря- женных градиентов — в нем процессу 4-ортогонализации под- вергались последовательно вычисляемые градиенты. Однако возможны и другие способы. Пусть р}, ..., рк, k < п,— уже построенные сопряженные векторы, (Ар1, pl) — 0, l<z, i =/= i, (20) a xk — соответствующие им точки в методе (19). Следующий вектор pk+l должен удовлетворять соотношению (рк+\ Ар‘) — 0, i~l, ..., k. Поскольку р1 — ar1 (xz+I — х1), Ар’—а~х (у[ (xi+l)—Vf (х;)) = а~'у{, то это эквивалентно условию Р'-'1, /)==0, (=1,..., k, (21)
82 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Итак, новое сопряженное направление /Д+1 должно удовлетво- рять условиям ортогональности (21). Подвергая такому про- цессу ортогонализации любой набор линейно независимых век- торов, получим различные наборы сопряженных направлений. Этот же процесс может быть применен к неквадратичной функции: x*+I _ xk _ ak = argniin f (xk — apk), a > 0 (/?+1, yl) = 0, yl = \7f (xi+l)— Vf (x‘). (22) Обычно при этом ищут pk+i в виде pk+i = Н k+iVf (xk+i), Нк+1 = Нк + ЬНк (23) и вместо непосредственного запоминания векторов у‘, i— 1, ... k, запоминают матрицу Нк. Таким образом, методы прини- мают ту же форму (1), что и квазиньютоновские. Разница лишь в том, что при этом не обязательно Hfc->[V2f(xA)]-1; в некото- рых вариантах метода оказывается (для квадратичной функ- ции) Нп = 0. Поэтому в таких методах обязательно должно осуществляться обновление. Выпишем алгоритм одного из простейших методов данного класса: xk+1 = xkakpk, ak = argmin f (xk 4- apk), pk = -HkVf(xk), yk = 'yf(xk+i) — 'yf(xk), , н.ук (yky Hk я0=я„-я2„= ... =/. Оказывается, что для квадратичной функции в методе (24) рк являются сопряженными направлениями, Нк 0 для всех k п, Нп — 0. Для неквадратичных функций доказана квадра- тичная локальная сходимость методов данного класса в окрест- ности невырожденного минимума. 3. Метод секущих. Одним из простейших и наиболее распро- страненных методов решения одномерного уравнения g (х) = 0 (25) является метод секущих, сущность которого видна из рис. 7. Его можно обобщить на многомерный случай —если g: Rn->R'!, то можно вычислить g в п 4- 1 точках, построить линейную ап- проксимацию и найти ее корень, который является очередным приближением к решению (25). Применительно к задаче минимизации [(х) в Rra, т. е. к за- даче решения уравнения Vf(x) = O, метод принимает следую- щий вид. Пусть х\ хк~’, ..., хк~"— п 4- 1 точек в Rn, V/(x*),..,
§ 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 83 .Vf(xk~n)— вычисленные в них градиенты. Решим систему п-\- 1 линейных уравнений с га4- 1 переменными Хо, М, •••> п п = £^-1 (26) М i-0 и построим точку **+* = £ iiXk-i, (27) i®=0 Далее процесс повторяется для «4-1 последних точек л4+’, хк, ..., и т, д. Нетрудно проверить, что для га — 1 такой метод совпадает с методом секущих для решения уравнения Vf(x) = 0. Ш Теорема 2. Если векторы лл — х°, 1 х2— х°, .... хп — х° линейно незави- /п\ симы, a f(x) квадратична с V2f(x)^ //7/1 = Л > 0, то хп+1 — точка минимума /// | f W • хг /з?/// I В системе линейных уравнений —г----------/ /^4----- (26) на каждой итерации меняется { / //х* х х лишь один столбец, поэтому нет необ- i / ходимости решать ее каждый раз за- I / у' ново, а можно воспользоваться еле- дующим результатом. " Лемма 4. Пусть В — квадратная Рис. 7. Метод секущих. матрица п\п со столбцами Ь',..., Ьп, а В отличается от нее первым столбцом (Ь1 заменено на 51). Тогда с‘ = с1 — 1 / (б1-/, с1) (28) где с1 — строки В~1, с1 — строки В-1. Для доказательства достаточно представить В в виде В = = В4-(5‘ — Ь1)ет, где е = (1, 0...0), и воспользоваться лем- мой 3. ▲ Однако в описанной выше форме метод секущих не является удовлетворительным. Так, он не обладает свойством глобальной сходимости. Для устранения этого недостатка можно применять стандартные средства, например регулировку длины шага (из хк делается шаг по направлению У, Вторым дефектом i метода является его склонность к вырождению — в процессе счета последовательные приближения оказываются лежащими (приближенно) в подпространстве пространства Rra. Соответ- ствующая система линейных уравнений (26) плохо обусловлена и ее решение неустойчиво. Для преодоления этого недостатка
84 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ можно модифицировать метод с тем, чтобы система базисных точек была заведомо невырожденной. Например, можно до- бавлять на каждой итерации точку, делая шаг по координат- ным осям (в циклическом порядке). Для модифицирован- ных подобным образом методов можно доказать сверхлинейную сходимость. 4. Другие идеи построения методов первого порядка. При всем разнообразии описанных выше алгоритмов первого порядка идея их оставалась одинаковой — использовать квадратичную аппроксимацию функции вблизи минимума. Как правило, эти алгоритмы конечны для квадратичных функций, а в общем слу- чае их эффективность тем выше, чем ближе функция к квадра- тичной. Однако квадратичная модель может считаться есте- ственной лишь в окрестности экстремума; вдали от него пове- дение минимизируемой функции может быть совсем иным. По- этому для всех описанных выше методов отнюдь не гаранти- руется даже разумность стратегии оптимизации на начальных этапах поиска. В связи с этим целесообразно использовать другие модели функции, отличные от квадратичной. На первый взгляд есте- ственно попытаться строить полиномиальные модели на основе старших производных — следующих членов ряда Тейлора. Такие попытки делались, однако они вряд ли перспективны. Во-пер- вых, прямое вычисление старших производных в многомерных задачах обычно требует слишком громоздких вычислений и большого объема памяти, а их восстановление по младшим производным предполагает вычисление последних в огромном числе точек. Во-вторых, решение .вспомогательных задач мини- мизации полиномиальных функций, за редкими исключениями, не может быть осуществлено в аналитической форме. Простой и важный класс представляют модели, основанные на аппроксимации функции однородной. Функция f(x), xeR", называется однородной относительно точки х* с показателем у > О, если fix* + А (х - Z)) - f (х‘) =V if (х) - f (х*)) (29) для всех xeR'1 и % 0. Примеры однородных функций при- ведены в упражнениях 2—4 и 6. Дифференцируемая однородная функция удовлетворяет важ- ному соотношению f (х) - f (X*) = V"1 (Vf (X), х - х*). (30) Чтобы доказать (30), возьмем в (29) %=14~е: f (х + 8 (х - х*)) - f (х*) = (1 + e)v if (х) - f (х*)), еу if (х) — f (х*)) = е (V/ (х), х — х*) 4- о (в). Устремляя е к 0, получаем (30).
§ 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 85 Точка х* не обязательно является минимумом f(x) (см. при- меры в упр. 2 и 3). Однако если f(x) достигает минимума, то х* — точка глобального минимума f(x). Действительно, пусть f(x) = f* — min f(x), тогда Vf(x) = O. Подставляя x вместо x в (30), получаем, что f(x*) = f(x) = f*, т. е. х* — точка глобаль- ного минимума. Именно этот случай и будет рассматриваться далее. С помощью (30) можно найти точку минимума х*, вычислив f(x) и Vf(x) в конечном числе точек. Действительно, если у из- вестно, то, взяв п + 1 точек х°, ..., хп, мы получаем систему — a + (vf(x{), x*) = (Vf(xi), xl\ i = 0, .... п, (31) линейную относительно «+1 переменных х*, a (a = yf(x*)). Исключая переменную а, получаем п линейных уравнений для определения х* е Rra: (vfU9-vf(x°), х*) = = (Vf(xz)> -V) — (Vf (х°), x°)-y(f(x9-f(x0)), i=l, (32) Если же у неизвестно, то можно взять п-|-2 точек х°, ..., хп+1 и определить п + 1 переменных у, х* из линейной системы (32), в которой следует взять п -j- 1 уравнений. Аналогичный подход можно применить для минимизации функций общего вида подобно тому, как это делалось в методе секущих. В самом деле, пусть уже построены приближения х°, ..., xk, k> п. Взяв последние п + 1 из них (или п + 2, если у неизвестно), решим систему (относительно х, а, у, либо х, а) (V/(x!')> х) — а + yf (x!') = (Vf (х1'), х!), i = k, k— 1. (33) а решение х выберем в качестве xft+I. Для у = 2 получаем ме- тод, близкий к методу секущих, но отличающийся от него (в нем, в отличие от метода секущих, используются не только Vf(x;)> н° и значения функции Цх‘)). Такой процесс следует модифицировать с помощью тех же приемов, что и метод секущих (бороться с вырождением точек xk путем добавления новых точек, линейно независимых от предыдущих; регулировать длину шага и т. д.). Полезно также сравнивать фактическое значение f(xk+l) с «предсказанным» (равным a/у). Это может служить проверкой предположения о близости функции к однородной. При решении систем линей- ных уравнений целесообразно использовать близость этих урав- нений на соседних итерациях (см.лемму 4). Для минимизации однородных и близких к ним функций можно применять и другие методы. Так, в градиентном методе можно применять специальные способы выбора длины шага. Пусть функция f(x) удовлетворяет условию (30), причем вели-
88 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ чины f* = f(x*) и у известны. Рассмотрим градиентный метод Д.&+1 _ xk _ (34) Выбор шага yk — - jj 3Десь сделан так, чтобы для Xft+I __ xk __ (xfe) удовлетворялось равенство f(xfe)— f = == у-1 (vf (xk), хк — xft+1) — ср. с (30). Тогда || _ Z ||2 = || Xk _ ||2 __ (V/ Xk _ x*) + + v2(/(^)-r)2 _ * ,|2 _ y2№)-D2 II Vf (xk) II2 11 x " II W)ll2 Отсюда следует, что если ||Vf(x)|| ограничена на множестве {х: ||х— х*|| ||х°— х*||}, то f(xk)-+f*. Нетрудно видеть, что этот же результат остается справедливым, если в (30) равен- ство заменить на неравенство fW-r^Y-'WGv), х-х*). (35) Несколько иной класс (по сравнению с однородными) за- дается формулой (х) = У7 (<р (х)), <р(х) — (Ах, х)/2 —- (Ь, х), Л > 0, (36) где F: R1-> R1 — монотонная на [ср*, оо) функция, <р* = <р(х*) = = min<p(x). Очевидно, что х* является точкой минимума f(x). Если задан явный вид F и <р, то в соответствии с последним замечанием вместо минимизации f(x) можно решать более про- стую задачу минимизации <р(х). Однако часто доступна меньшая информация о задаче. Тогда можно применить следующий ва- риант метода сопряженных градиентов: = хк + akpk, ak — argm'mf(xkA-apk), а>° (37) p*==-Vf(x*) + ₽^->, R F'(v(xk~l)\i ^f(xk) II2 И?(^»11т/(^-1)112 ’ Po — O' Нетрудно проверить, что метод (37) порождает ту же после- довательность точек, что и метод сопряженных градиентов для минимизации <р (х), а потому является конечным. Величину p* = Р(ср(х*))//:’/((р(х*'"1)), входящую в формулу для рй, можно оценивать приближенно, аппроксимируя F(z) квадратичной или степенной функцией. При этом метод (37) можно применять и для минимизации функций, не обязательно имеющих вид (36).
§ 4. ПРЯМЫЕ МЕТОДЫ 87 В целом методы, основанные на однородных и близких к ним аппроксимациях функций, пока мало исследованы. Упражнения. 2. Покажите, что аффинная функция f (х) = (а, х) — ($ однородна с у = 1 для любого х*. 3. Проверьте, что квадратичная функция /(х) = (Лх, х)/2—(&, х), где Л-1 существует, однородна относительно х* — Л-16 с у = 2. 4. Пусть существует решение х* системы (а1, х) = ф, i = 1, ..., т, хе. т е R". Докажите, что функция f(x) = У | (о/, х) — у > 0, однородна от- i=i носнтельно х* с показателем у. 5. Докажите, что для дважды дифференцируемой однородной функции справедливо соотношение V2f(x)(x — х*) = (у— 1)У/(х). 6. Покажите, что если ср* = 0, /7(2) = |г|«, а > 0, то /(х) вида (36) — однородная относительно х* с показателем 2а. § 4. Прямые методы 1. Общая характеристика. Во многих задачах минимизируе- мая функция задается с помощью некоторого алгоритма вычис- ления ее значении в произвольной точке. Вид алгоритма может быть неизвестен (например, вычисление значений функции про- изводится либо с помощью модели, либо на реальном объекте) или он может быть столь сложен, что аналитическое вычисление градиента слишком громоздко. Во всех этих случаях единствен- ная информация, которой мы располагаем, — значения f(x). Методы, использующие только эту информацию, называются методами нулевого порядка (часто говорят также о прямых методах, методах поиска или о методах без вычисления произ- водных). Наиболее прямолинейная стратегия в такой ситуации заклю- чается в использовании значений функции для конечно-разност- ной аппроксимации производных — градиента или гессиана. Более экономный способ связан с учетом значений функции в предыдущих точках. Наконец, известен ряд специфических ме- тодов нулевого порядка, не имеющих аналогов среди методов первого или второго порядков. 2. Методы линейной аппроксимации. Для оценки градиента функции f: Rra->RI в точке х составим конечно-разностные отно- шения Д1 = a-1 [f U + ay) — f (х)], Д2 = (2а)~' [f (х + ay) — f (х — аг/)], (1) где г/eR"— произвольный вектор. Лемма 1. а) Если f дифференцируема в х, то I Д1 ~ (Vf (х), у) | 0 при а -> 0. (2)
88 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ б) Если Vf удовлетворяет условию Липшица с константой L в окрестности х, то при достаточно малых а |Ai-(Vf(x), г/)|<£а||И72. (3) в) Если f дважды дифференцируема и \Pf удовлетворяет условию Липшица в окрестности х, то при достаточно малых а |Д2 —(V/(x), y)|<Z.a2||y||3/6. (4) г) Если f(x) квадратична, то при любом а A2 = (Vf(x), у). (5) Лемма 1 легко доказывается с использованием формул (2), (15), (20) § 1 гл. 1. А Таким образом, разностные отношения Ai и Az могут слу- жить приближением для линейной аппроксимации f(x). Рассмо- трим методы вида xk+x = xk — yksk, (6) где длина шага, a sk вычисляется по одной из двух формул + (7) Sk = Е (2aft)-1 [f (хк + akhl) — f(xk — akh1)} hl. (8) i=l Здесь hl, i— 1, ..., tn, — векторы, задающие направления проб- ных шагов, ak — длина пробного шага. Выбирая различные h‘ и т, получим те или иные алгоритмы. а) Разностный аналог градиентного метода: m== п, h‘ = е,, i=l, ..., п, где е, — координатные орты. Иначе говоря, проб- ные шаги делаются по координатным осям, так что метод (6), (7) в координатной записи имеет вид х;+1 = ~ (Yft/aft) [f (xk + aket) ~ f (**)]• (9) В соответствии с леммой 1 sk = £ (Vf (х'а), ег) + e* = V/ (xk) + &k, (10) i = l где остаточный член е'г может быть оценен для каждой из фор- мул (7), (8) в зависимости от гладкости f(x). б) Метод покоординатного спуска: m—l, h — в/, j = = &(modn). Шаги делаются по координатным осям, выбирае- мым в циклическом порядке: ( lxk + ал) ~ f (**)]> * == k (mod ")> X*+1 = ! k (11) 1 [ xf в противном случае. При этом sk = Vf (xk)j ej + eft.
§ 4. ПРЯМЫЕ МЕТОДЫ 89 в) Метод случайного покоординатного спуска: m — 1, h = = ej, где j принимает значения 1, .... п с равной вероятностью. Шаг делается, как и выше, по координатным осям, но они вы- бираются в случайном порядке. г) Метод случайного поиска: tn=l, h — случайный вектор, равномерно распределенный на единичной сфере. Здесь движе- ние производится по случайному направлению, а знак и вели- чина шага определяются разностным отношением: х'г+1 = xk — (yfe/ct*) [f (xfe + akh) — f (x*)] h. (12) Сходимость всех методов гарантируется условием (см. упр. 1). Скорость.сходимости зависит от гладкости f(x) и способа выбора ak. С точки зрения погрешностей вычисления выгодно брать ak большим. Так как чем меньше а*, тем больше влияние ошибок округления при вычислении разностных отношений (в (1) приходится вычислять разность двух близких чисел и де- лить на малое число; это всегда связано с потерей точности). Однако для больших ак ухудшается точность аппроксимации (лемма 1). Можно показать, что в условиях теоремы 3 § 4 гл. 1 можно обеспечить в описанных выше методах сходимость со скоростью геометрической прогрессии, если ak cqk, где q < 1 — некоторое число. Вопрос о соотношении скоростей сходимости различных ва- риантов метода довольно сложен. Рассмотрим важный частный случай, который может служить моделью более реалистических ситуаций. Пусть f(x) квадратична: f(x) = G4x, х)/2-(6, х), Л>0, (13) а уй выбирается из условия скорейшего спуска: xfe+1 = xfe — Vj,s\ ''k — argrnin f (x*— ysk). (14) у 5s 0 Сравним три способа выбора sk: симметричная разностная аппроксимация градиента sk = Е (2а)-1 [f № + aet) — — a<?z)] = Vf (15) (последнее равенство в силу (5)); покоординатный спуск sk х= (2а)~* [f (xk + aez) — f (xk — ae;)] et Vf (xk){ et, i = k (mod n) (16) и случайный поиск sk^(2a)~1[f(xk + ahk)-f(xk-a/v)]hk^^f(xk\ hh}h\ (174 где hh — равномерно распределенный на единичной сфере век- тор. Таким образом, (14), (15) совпадает с методом наискорей-
90 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ шего спуска ((4) § 1), а (14), (16) хорошо известен в линейной алгебре как метод Гаусса — Зейделя. Соотношение скоростей сходимости методов зависит от раз- личных причин; приведем несколько крайних случаев. Если А = I, то (14), (15) и (14), (16) приводят к решению за 1 шаг, тогда как метод случайного поиска сходится в среднеквадратич- ном не быстрее некоторой геометрической прогрессии. Если п (Ах, х) = У, Л.(х?, Xi > 0, то метод (14), (16) конечен, тогда как (14), (15)—нет. Наконец, если задача плохо обусловлена (ц 1), то можно показать, что метод случайного поиска схо- дится быстрее градиентного (с учетом разницы в числе вычис- лений f(x) на одной итерации методов). Грубо говоря, для таких задач случайное направление в среднем- лучше указывает на решение, чем антиградиент. Метод Гаусса — Зейделя имеет еще один резерв ускорения сходимости — если заменить в нем у к на ayk, 1 < а < 2 (так называемая сверхрелаксация), то оказы- вается, что в ряде случаев сходимость резко улучшается. В целом можно рекомендовать в классе поисковых методов описанного типа метод покоординатного спуска как по его про- стоте, так и по скорости сходимости. Упражнения. 1. Докажите, что в условиях теоремы 1 § 4 гл. 1 при а*-> 0, у* = у, где у достаточно мало, для всех методов а) — г) можно утверждать, что ->0 п. н. Используйте технику доказательства теоремы 1 § 2 гл. 2. 2. Предложите по аналогии с (10) § 1 конструктивный способ регули- ровки as, обеспечивающий линейную скорость сходимости. 3. Нелокальная линейная аппроксимация. В конечно-раз- ностном градиентном методе (9) пробные и рабочие шаги были разделены — точки xk 4- a^et служили только для оценки гра- диента в xk\ в лМ1 вся работа проводится заново. Можно посту- пить и иначе, и строить линейную аппроксимацию по набору то- чек, расположенных достаточно далеко. Типичным примером служит так называемый симплексный метод (не путать с симплекс-методом в линейном программиро- вании!). Пусть выбраны п-}- 1 точек х°, х1, ..., хп, образующие вершины правильного симплекса. Вычислим значения f(x) в вершинах и найдем ту, для которой f(x) максимальна: / = argmax f (х!). Построим новый симплекс, отличающийся от 0 < i -С п старого лишь одной вершиной; х! заменяется на х"+1: хп+1 = 2п-1 (х° 4- ... 4- х!~1 4- xl+l ... 4-х") — х1 (18) (т. е. х"+1 симметрично с х1 относительно грани, противолежа- щей х1). Если окажется, что в новом симплексе максимум дости- гается в х"+1, то возвращаемся к исходному симплексу, заменив х1 на вершину, в которой значение f(x) максимально среди
§ 4. ПРЯМЫЕ МЕТОДЫ 91 оставшихся вершин и т. д. Если какая-либо точка сохраняется в п + 1 последовательном симплексе, то последний симплекс сокращается вдвое подобным преобразованием с центром в этой вершине (рис. 8). Рис. 8. Симплексный метод. Мы описали лишь простейший вариант метода. Существует много его модификаций, в которых симплекс не обязательно правильный, а величина шага и условия дробления могут быть иными. С теоретической точки зрения подобные методы слабо исследованы. Практика показывает их работоспособность для не слишком плохо обусловленных задач. 4. Квадратичная аппроксимация. Вычислив значения f(x) в достаточном числе точек, можно построить квадратичную ап- проксимацию f(x). Удобно это сделать, например, следующим образом (метод барицентрических координат). Выбирается (как и в симплексном методе) п + 1 базисных точек х°, ..., хп. Вы- числяются значения функции во всех этих точках и серединах соединяющих их отрезков (обозначим f ((xl-)-x/)/2) =ftj, f(xl) = = fn, i, j~0, n). После этого решается система линейных (относительно X, Хо, .... %„) уравнений 4 X — fa, i — (19) Е Л, = 1 /=*0 и строится точка Хл+1 = Е <-8 (20)
02 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Нетрудно проверить, что если / квадратична, то хп+1 = х* ~ — А~{Ь при любых х°, .... хп таких, что хп — х°.....х1—х° линейно независимы. Далее (для неквадратичной Дх)) точка хп+1 включается в число базисных, а одна из прежних базисных точек (точка х° или та, в которой Дх) максимальна) удаляется. На следующей итерации достаточно вычислить Дх) в «4-1 точках (в хп+1 и серединах отрезков, соединяющих xn+I с остальными базисными точками). Новая система уравнений для Д будет отличаться от (19) лишь одной строкой, так что можно использовать резуль- тат леммы 4 § 3 для построения решения. Аналогичным образом процесс продолжается дальше. Удобство метода в том, что сама квадратичная аппроксима- ция функции не выписывается явно, строится лишь точка мини- мума этой аппроксимации. По сравнению с конечно-разностным аналогом метода Ньютона здесь существенно меньше вычисле- ний Дх) на каждом шаге («4-1 вместо п(«4-1)/2). Для при- дания устойчивости процессу в нем нужно ввести регулировку длины шага, принять меры для предотвращения вырождения системы базисных точек, проверять условие выпуклости fi, <(М + Л/)/2 и т. п. Другая группа методов прямого поиска использует идеи ме- тода сопряженных направлений и сводит исходную задачу к последовательности одномер- ных минимизаций. В отличие от метода покоординатного спуска, где система направле- ний спуска жестко фиксиру- ется (этой системой являются координатные орты), в данных методах направления спуска Рис/ 9. Метод сопряженных направ- строятся в процессе минимиза- лений. ции. Принцип их построения — сделать их (для задачи ми- нимизации квадратичной функции) сопряженными; тогда, как мы знаем (см. § 2) процесс минимизации конечен в квадра- тичном случае. Основная идея методов этой группы иллю- стрируется рис. 9 — три последовательные одномерные мини- мизации приводят в точку минимума. В многомерном простран- стве верен аналогичный результат. Лемма 2. Пусть f(x) = (Ax, х)/2 — (Ь, х), А > 0, xeRn, р1, ..., рк — сопряженные векторы-. (Ар1, р/) = 0, / #=/, k < «, Ьй = 5 х: х = х° 4- X ^iPl (> х1 s L°, L1 = s x: x = x14- X ^iP‘ f > k i = i ) k i — 1) y° == argmin f (x), = argmin f(x). Тогда вектор pk+1 = у1 — y° Х<^1Л xeL' является сопряженным с pl, p .
§ 4. ПРЯМЫЕ МЕТОДЫ 93 Этот результат следует из условия минимума [(х) на под- пространстве (см. замечание после теоремы 2 § 2). ▲ На этой основе можно построить метод минимизации, напри- мер, следующим образом. Пусть хк— полученное на k-й итера- ции приближение к решению, р°, ..., рк — найденные направ- ления (,г° и р° произвольны). Построим xh — xk-\rhk, где hk — произвольный вектор, не являющийся линейной комбинацией р°, ..., рк. Проведем цикл последовательных одномерных мини- мизаций по направлениям р°, ..., рк, начиная из точки хк; обо- значим полученную в результате точку хк+1. В качестве возьмем минимум f(x) на прямой, соединяющей хк+1 с хк, а в качестве рк+1— вектор хк+'— хк. Для квадратичной функции в R" такой метод Пауэлла приводит к минимуму не более чем за п шагов. Существует и много других модификаций, основанных на по- добной идее. Всего для отыскания минимума в квадратичном случае требуется /г(«+1)/2 одномерных минимизаций. Если считать, что каждая из них включает три вычисления функции, то видно, что метод менее экономен, чем (19), (20) (где нужно «(« + 1)/2 вычислений для той же цели). Однако в неквадра- тичном случае метод работоспособен даже для плохого началь- ного приближения (если принять меры против вырождения системы р‘)> тогда как метод барицентрических координат по- добно методу Ньютона требует хорошего начального прибли- жения.
Глава 4 ВЛИЯНИЕ ПОМЕХ Цель этой главы — выяснять поведение методов безусловной минимизации дифференцируемых функций при наличии помех. Оказывается, что чувствительность методов к помехам различна. Грубо говоря, чем эффективнее метод в идеальном случае (без помех), тем более чувствителен он к разного рода ошибкам. Можно модифицировать методы, сделав их работоспособными в условиях помех. При этом априорная информация о помехах (их уровень, закон распределения и т. д.) может быть эффек- тивно использована. § 1. Источники и типы помех 1. Источники помех. В реальных задачах применить методы гл. 1 и 3 «в чистом виде» нельзя — ситуация неизбежно ослож- няется наличием разного рода ошибок и погрешностей. Пере- числим некоторые из причин их возникновения. В простейшем случае, когда минимизируемая функция и ее градиент заданы формулами, ошибки возникают вследствие по- грешностей вычисления, связанных с округлением при выполне- нии арифметических действий на ЭВМ. В результате Цх*), Vf(xft) и т. д. вычисляются с некоторой ошибкой, т. е. вместо вектора Vf(xft) мы получаем вектор sk — V/(x*) + гк. Здесь по- меха гк является детерминированной (ошибки округления в ЭВМ не носят случайного характера) и можно оценить ее уро- вень ||г*|| е, так как законы образования погрешностей округ- ления хорошо изучены. Величину е обычно можно считать по- стоянной (не зависящей от хк) и, как правило, не слишком боль- шой. В случае необходимости е можно уменьшить, производя вычисления с двойной точностью. В ряде задач значения )(х&) и Vf(xft) получаются не с по- мощью вычислений, а в результате измерений. Такова ситуа- ция при оптимизации на реальном объекте (экстремальное ре- гулирование, планирование эксперимента). Тогда помехи носят случайный характер, свойственный погрешностям измерений. При этом обычно бывает доступна информация об уровне и статистической природе помехи. Нередко (особенно в задачах адаптации, обучения, распозна- вания и т. д.) проблема оптимизации ставится следующим обра- зом, Нужно минимизировать детерминированную функцию f(x)
§ I. ИСТОЧНИКИ и ТИПЫ ПОМЕХ 95 типа среднего риска'. f (х) = MQ (х, ®) = J Q (х, ®) dP (®), (1) где функция Q(x, ®) известна, однако распределение Р(и) не задано. Дана лишь выборка ®i, и* из этого распределения. Тогда точное вычисление f(x) и Vf(x) в принципе невозможно. В качестве приближенного значения этих величин можно взять k k Q (х, ®z) и ~ £ VXQ (х, и,), (2) z=i i=i или более просто Q (х, ®fe) и VXQ (х, ®ft). (3) В этом случае значения функции и градиента содержат случай- ную помеху. Если брать в качестве приближений для f(x*) и V/(xft) величины Q(xft, о*) и V*Q(x\ и*), то помехи будут не- зависимы в различных точках. Аналогичная ситуация возникает в методе Монте-Карло, когда задача заключается в минимизации /(х) вида (1) и рас- пределение Р(и) известно, однако вычисление интеграла (1) слишком трудоемко. Тогда можно точные значения )(х) и Vf(x) заменить выборочными значениями, как и выше. В ряде задач ошибки возникают из-за того, что значения функции и градиента вычисляются по упрощенным или при- ближенным формулам. Нередко точное вычисление требует громоздкого расчета функций влияния, решения сложных вспо- могательных задач, учета взаимодействия всех параметров и т. д. Все эти вычисления нецелесообразно (а иногда и невоз- можно) проводить полностью. Их упрощение и огрубление при- водят к погрешностям в определении функции и градиента. Это так называемые неустранимые погрешности. Наконец, во многих методах ошибки возникают не из-за при- ближенного вычисления функции или градиента, а из-за необ- ходимости решения вспомогательных задач, которое не может быть осуществлено точно. Например, в методе Ньютона на каж- дом шаге нужно решать систему линейных уравнений, что не- избежно сопряжено с ошибками; в методе сопряженных гради- ентов требуется проводить одномерную минимизацию, что также может быть сделано лишь приближенно и т. д. В таком случае говорят о погрешностях метода. 2. Типы помех. Как мы видели выше, ошибки при вычисле- нии функции и градиента могут иметь различное происхождение и различную природу. Несколько упрощая реальную ситуацию, можно выделить следующие основные типы помех. Всюду ниже
96 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ речь идет о вычислении градиента, когда вместо точного значе- ния Vf(xA) нам доступен вектор sk = Vf (хк) + rk, (4) где rk — помехи. Случай приближенного вычисления f(x) иссле- дуется аналогично (см. § 4). а) Абсолютные детерминированные помехи удовлетворяют условию II II <8, (5) т. е. градиент вычисляется с заданной абсолютной ошибкой. Предполагается, что про помехи не известно ничего, кроме этого условия. В частности, вектор гк может не являться случайным, либо он может быть коррелирован с предыдущими помехами и т. д. Такая ситуация характерна для погрешностей вычисле- ний и систематических ошибок измерений. б) Относительные детерминированные помехи удовлетво- ряют условию II rk ||< 81| V/ (xk) If. (6) Иначе говоря, градиент вычисляется с относительной ошибкой. В остальном, как и выше, о природе гк ничего не известно. Та- кие помехи возникают, например, при использовании прибли- женных формул, дающих фиксированную относительную ошибку. в) Абсолютные случайные помехи. Предположим, что по- мехи гк случайны, независимы при различных х, центрированы и имеют ограниченную дисперсию: Mr" = 0, М || гк ||2 < о2. (7) Помехи такого типа характерны для задач, в которых градиент отыскивается в результате измерений на реальном объекте (экстремальное регулирование, планирование эксперимента), а также для задач с функцией типа среднего риска (1). г) Относительные случайные помехи обладают теми же свойствами, что и в п. в), однако их дисперсия убывает по мере приближения к точке минимума: Mrfe = 0, М || г*II2 II WK) II2- (8) Разумеется, на практике часто встречаются и другие типы помех например случайные помехи с систематической ошибкой (‘ II С 8) или случайные ограниченные помехи (Мг^ = 0, || ik О)- Однако их можно рассматривать как комбинацию основных типов, описанных выше. Поэтому мы ограничимся этими наиболее важными классами помех. Иногда (особенно в теоретических работах) предполагают, что уровень помех 8* зависит от номера итерации и 8>;->-0 при k-^oo, Такое предпо-
§ 2. ГРАДИЕНТНЫЙ МЕТОД ПРИ НАЛИЧИИ ПОМЕХ Й? ложение представляется не очень реалистическим. Впрочем, в некоторых случаях можно добиться его выполнения путем по- вышения точности вычислений и уменьшения погрешности ме- тода. § 2. Градиентный метод при наличии помех 1. Постановка задачи. Рассмотрим градиентный метод мини- мизации дифференцируемой функции f(x) на R" в ситуации, ко- гда градиент вычисляется с ошибкой: хк+1 = xk ~VkSk, sk = yf (хк) + rk. (1) Относительно помех rk будут делаться предположения об их принадлежности одному из классов, описанных в § 1. Функция /(х) будет предполагаться сильно выпуклой (с константой Z) и с градиентом, удовлетворяющим условию Липшица (с кон- стантой L) — этот класс функций наиболее важен (см. гл. 1 и 3). Нас будет интересовать поведение обычного градиентного ме- тода с у к s у при наличии помех, а также вопрос о целесообраз- ном выборе длины шага в условиях помех. Обоснование мето- дов будет вестись с помощью общих теорем § 2 гл. 2. 2. Абсолютные детерминированные помехи. Теорема 1. Пусть ||r*|| s, yk ss у. Тогда найдется у>0 такое, что при 0 < у < у в методе (1) будет Их*-х1<р + <7*Цх0-х*||, (2) где 0^<7< 1, р = р (е) —> О при s —> О, х* — точка минимума f(х). Доказательство. Введем функцию Ляпунова V(x) = 1(||х-х*||-1в)2+. (3) Используя результат упражнения 1, получаем (VV М, s') - (I х- - X- II - X в)+ > > (|| Xk ~ X* (I - у s) (/ II xk - х* II - 8) = 21V (х4), IIS* II2 = IIVf (х4) + Гк II2 С (А II Хк - х* II + 8)2 С < а + bV (xk) < а + (/7/(2/)) (VK (х4), s4), где а, b — некоторые константы, причем а->0 при е->0. Приме- няя теорему 4 § 2 гл. 2, получаем требуемый результат. ▲ Как нетрудно проверить на примерах (упр. 2), оценка (2) не является завышенной. Таким образом, наличие аддитивных помех приводит к тому, что градиентный метод с постоян- ным у перестает сходиться к точке минимума. Он дает лишь
98 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ возможность попасть в некоторую окрестность минимума, разме- ры которой тем меньше, чем меньше уровень помех. Сходимость к этой окрестности происходит со скоростью геометрической прогрессии. Мы не выписывали выше точных значений констант (величин р, у, q), интересуясь лишь качественной картиной процесса. В упражнении 2 эти значения указаны для случая квадратич- ной функции. Упражнения. 1. Докажите, что V (х) вида (3) дифференцируема, VV (х) = (||х — х*||— — e/Z) || х — х* Г1 (х — х*), W (х) удовлетворяет условию Липшица с кон- стантой 1. Нарисуйте график V (х) для xeR’. 2. Пусть f (х) — (Ах, х)/2 — (b, х), II А LI, Z > 0, || гк || е, 0 < у < < 2/Д. Покажите, что тогда в методе (1) будет || xs+1 — х* || q || xk — х* || + + ye, q = max {11 — у/1, | 1 — уД |}. Используя лемму 1 § 2 гл. 2, получите оценку || xk — х* || ^ уе/( 1 — q) + qk (|| х° — х* || — уе/( 1 — q)). В частности, при у = 2/(Д + /) отсюда следует ||xk — х*||<~ + (||х° — х*|| — у) ( j . Проверьте на примере, что эта оценка не является завышенной. Исследуйте предельный случай е = 0. 3. Относительные детерминированные помехи. Теорема 2. Пусть ||rft|| allVf(xs)||, a < 1, Тогда найдется у>0 такое, что при 0 < у < у метод (1) сходится к х* со скоростью геометрической прогрессии. Доказательство. Возьмем в качестве функции Ляпу- нова V(x) = f(x) — Тогда (см. леммы 1 и 3 § 4 гл. 1) (W (xs), ss) = (V/ (xk), Vf (xs) + rs) >(1 - a)|| Vf (xs)II2> >(1 -a)2Z]Z (xs), II sk ||2 < || Vf (xs) II2 (1 + a)2 < 2 (1 + a)2 LV (xs). Остается применить теорему 4 § 2 гл. 2. A Таким образом, градиентный метод устойчив к относитель- ным ошибкам, если их уровень менее 100%. Причина этого оче- видна— всякое направление, составляющее с антиградиентом острый угол, является направлением убывания f (х) и может быть использовано в качестве направления движения вместо градиента. 4. Абсолютные случайные помехи. Пусть помехи rk случайны, независимы, Mrs — 0 и М[|г&||2 d о2. Теорема 3. Найдется у> 0 такое, что при ук ~ у, 0 < у < у в методе (1) м (f (Xs) - Г) < Р (v) + м (f (х°) - П q\ (4) где q < 1, р(у)-*0 при у->0. Если оо Ys-*0> Eya = °o, ьо
§ 2. ГРАДИЕНТНЫЙ МЕТОД ПРИ НАЛИЧИИ ПОМЕХ 99 то М || хк — х* ||2 —> 0. Если же оо оо SYfe=o°. (6) fe=»0 k^O то хк—>х* п. н. Наконец, если yh — y/k, у > (2Z)-1, то MCfM-nCjf^T+od). Р) Доказательство. Возьмем V (х) = f (х) — f*. Тогда (W (хк), Ms*) — (Vf (хк), Vf (x*)) > 2/V (xk), M || sk ||2 = || Vf (xk) ||2 + M || г* Ц2 C o2 + (W (xk), Ms*). Теперь остается воспользоваться теоремами 2—5 § 2 гл. 2. А Мы увидим далее (теорема 4), что вышеприведенные оценки не завышены, поэтому теорема 3 дает основания для следую- щих выводов. Во-первых, обычный вариант градиентного ме- тода (с yk = у) при наличии аддитивных случайных помех не сходится к точке минимума, а приводит лишь в окрестность ми- нимума. Размеры этой области тем меньше, чем меньше у. Во- вторых, выбирая убывающие у*, можно сделать метод сходя- щимся в том или ином вероятностном смысле (в среднем при оо ys->0 и почти наверное при У у^ < оо). В-третьих, скорость сходимости при этом довольно медленна (порядка 0(1/6)). Как мы увидим в дальнейшем, более высокой скорости сходимости нельзя добиться ни при каком выборе -у*. Уточним теорему 3 для квадратичной функции и помех по- стоянного уровня. Итак, пусть f(x) = (Ax, x)/2-(b, х), H^A^LI, Z > 0, Mr* = 0, Mr* (гк)т = о2/. (8) Будем считать, что начальное приближение х° случайно и сим- метрично распределено вокруг х*: М(х°— х*) (х°— х*)т — al. Теорема 4. При любом 0 < у < 2/L, у* = у в методе (1) при условиях (8) для величины /4 = М(х* - х*)(х* - х*)т (9) справедливы соотношения ^-^{/оо = уо2Л-1(2/-уЛ)-1, (10) II || <|| Uo - U„ || qk, «у = max {(1 - у/)2, (1 - у/.)2} <1.(11) Если yk~y/k, у > (2/)-1, то ^-|в(у) + о(|), В(у)=уа2(2Л-|/)'‘. (12)
100 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ Величина || В (у) || минимальна при у = 1/1, fl Uk II = у -уг + о (-0. ▲ (13) 5. Относительные случайные помехи. Пусть помехи rk такие же, как в предыдущем пункте, но их дисперсия удовлетворяет условию М || rk II2 < а II Vf (х) ||2. (14) Теорема 5. При любом а существует у такое, что при yfe==y, 0<у<ув методе (1) будет М || xk — х* ||2 < cqk, q < 1. ▲ (15) Мы видим, что наличие случайных относительных помех лю- бого уровня не приводит к нарушению сходимости.. Итак, в зависимости от типа помех их присутствие может либо сохранять, либо нарушать сходимость градиентного ме- тода. Иногда сходимость можно восстановить за счет регули- ровки длины шага. § 3. Другие методы минимизации при наличии помех 1. Метод Ньютона. Вопрос о поведении метода Ньютона при наличии помех значительно более сложен, чем тот же во- прос для градиентного метода. Дело в том, что в этом методе может быть несколько источников помех (вычисление Vf(x), V2f(x), обращение V2/(x)) и их природа может быть различна (например, случайные ошибки в вычислении градиента и си- стематические в обращении матрицы). Мы не будем стараться рассмотреть все возможные ситуации, а остановимся на не- скольких характерных примерах, интересуясь лишь качествен- ным анализом процесса. Пусть в результате всех вычислений (градиента, гессиана, решения системы линейных уравнений) получается вектор, от- личающийся от истинного: ?=[VW‘vf(xW, (1) где rk — помеха, и делается шаг xw = xk— git. (2) Предположим, что помеха может содержать систематическую ошибку: || Гк || < 8. (3) Как мы знаем, метод Ньютона сходится локально в некоторой области U. Ясно, что если 8 больше диаметра U, то сходимости заведомо нет — при любом х°, сколь угодно близком к х*, про-
$ 3. ДРУГИЕ МЕТОДЫ МИНИМИЗАЦИИ ПРИ НАЛИЧИИ ПОМЕХ 101 цесс выходит из U. Таким образом, возникает ситуация, кото- рой не было в градиентном методе: при достаточно высоком уровне абсолютных помех метод Ньютона может вести себя бессмысленным образом (например, ||xfe — х*|| может возра- стать) при любом х°. Возникновение систематических ошибок в методе Ньютона неизбежно, даже если Vf(x) и V2/(x) вычисляются точно. Дело в том, что если число обусловленности ц точки минимума (§ 3 гл. 1) велико (а именно тогда применение метода Ньютона наи- более целесообразно), то матрица \72/(л?) оказывается плохо обусловленной. Поэтому результат решения системы линейных уравнений V2f(x*)z — Vf(xfe) для определения шага метода от- личается от точного решения вследствие ошибок округления в ЭВМ. Это отличие (для плохо обусловленных систем) может быть значительным и приводит к развалу метода Ньютона. Присутствие случайных или относительных ошибок не столь катастрофично, но может повлечь существенное замедление метода Ньютона. Пусть, например, требуется минимизировать квадратичную функцию f (х) = (Ах, х)/2 — (Ь, х), А > 0, (4) причем матрицы А и А-1 вычисляются точно, а градиент содер- жит случайную ошибку: sk — Vf (xk) + rk — Axk — b + r\ Mr1' = 0, M || rk1|2 — a2. (5) Рассмотрим метод xk+x = хч ~-ykA~xsk, (6) являющийся обобщением метода Ньютона за счет введения па- раметра Как мы увидим в дальнейшем (теорема 1 § 5), этот метод ни при каком способе выбора ук не может сходиться быстрее чем 0(1/6). Но скорость сходимости такого же по- рядка может обеспечить гораздо более простой градиентный метод. Таким образом, здесь теряется основное преимущество метода Ньютона —его высокая скорость сходимости. Аналогич- ная ситуация возникает при наличии относительной ошибки. Если, например, градиент вычисляется с относительной ошиб- кой, то метод Ньютона может сходиться лишь со скоростью геометрической прогрессии. Лишь при высокой точности вычислений метод Ньютона со- храняет свои преимущества (см. упр. 1). Упражнение. 1. Докажите следующий результат. Пусть г* в (1) удовлетворяет усло- вию II II < с || V? (xk) р, - (7) а к f(x) применима теорема 1 § 5 гл. 1. Тогда при достаточно малом с ме« тод (2) локально сходится с квадратичной скоростью
102 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ 2. Многошаговые методы. Ограничимся вновь анализом неко- торых характерных частных случаев. Начнем с метода тяжелого шарика. Можно показать, что при наличии абсолютных детер- минированных помех в определении градиента он сходится в область вокруг минимума. Громоздкая выкладка показывает, что для квадратичной функции размер этой области, вообще говоря, больше, чем для градиентного метода. Приведем анало- гичный результат, относящийся к абсолютным случайным поме- хам. Пусть / (х) == (Лх, х)/2 — (6, х), П А LI, Z > 0, sk — yf (xk) + rk = Axk — bA~rk, Mr'; = 0, (rk)r = u2I, причем помехи rk взаимно независимы. Как можно показать, метод тяжелого шарика с постоянными коэффицентами xs+1 = xk— asft + P(xfe — х^”1) (9) в такой ситуации не сходится к ? = А~ХЬ, а приводит лишь в область вокруг х*. Поэтому рассмотрим метод с переменными коэффициентами, который удобно записать в форме хк+1 = xk — akyk, yk+i = yk — {Н (yk — sk). (10) Наряду с ним рассмотрим градиентный метод xk+i = xk — yksk. (11) Ограничимся коэффициентами вида ak = ^a, = Y* = TY- (12) Теорема 1. При любом выборе а, |3 метод (10), (12) схо- дится асимптотически не быстрее (в смысле величины || М (xk — х*) (xk — х*)т ||), чем метод (11) с yk = А Таким образом, метод тяжелого шарика, превосходящий гра- диентный метод по скорости сходимости для задач без помех, является относительно менее эффективным при наличии помех. Этот вывод относится только к асимптотическому поведению метода. На начальных итерациях, когда относительная величина помех мала, двухшаговый метод может превосходить одношаго- вый, как и для задач без помех. Примерно такова же ситуация с методом сопряженных гра- диентов. Полный анализ его поведения при наличии помех очень сложен. При этом разные его 'варианты по-разному реагируют на ошибки. По-видимому, наиболее устойчивы к погрешностям формулы (13), (14) из § 2 гл. 3, несколько менее — формулы (23) и (24) § 2 гл. 3. Можно показать, что при абсолютных и относительных помехах метод сопряженных градиентов вблизи минимума теряет преимущества перед градиентным. Лишь если
§ 4, ПРЯМЫЕ МЕТОДЫ 103 помехи удовлетворяют условию типа (7), то метод сопряженных градиентов сохраняет свои достоинства. 3. Другие методы. Квазиныотоновские методы очень чувстви- тельны к ошибкам вычисления градиента. Действительно, в них восстанавливается матрица А — V2f(x) по измерениям гра- диента: Ар1 — у1, р1 = xi+l — х1, у1 — Vf (xi+1) — V/ (х!), i = 0, ..., k — 1. (13) Если шаги малы (х‘+1 близко к х1), а измерения Vf(x!') содер- жат ошибки, то матрица восстанавливается плохо. Для задач со случайными аддитивными помехами с этим эффектом можно бороться путем увеличения числа измерений — нужно восстанав- ливать не по п значениям V/(x), как в детерминированном слу- чае, а по N > п замерам. При этом можно выписать рекуррент- ные формулы, аналогичные приведенным в § 3 гл. 3. Для не- случайных помех такой прием, вообще говоря, не приводит к повышению точности. Совершенно аналогичные замечания относятся и к методу секущих — чтобы сделать его работоспособным при наличии случайных помех, нужно брать число базисных точек заметно большее, чем размерность пространства. Однако нужно помнить, что возможности всех методов, осно- ванных на квадратичной аппроксимации, весьма ограничены в задачах с помехами — даже знание точной матрицы вторых про- изводных не спасает положения (см. анализ для метода Ньюто- на в § 2). § 4. Прямые методы 1. Постановка задачи. Пусть в произвольной точке xk изме- ряется значение f(xk) с ошибкой т)*. По-прежнему будем гово- рить об абсолютной (относительной) детерминированной ошиб- ке, если |л/г|^е (|ти| a.(f(xk)— f(x*))), и об абсолютной (относительной) случайной ошибке, если т|й случайны, незави- симы, Мт],г = 0 и (Mnl (f (xk) — f (х Задача за- ключается в изучении влияния разного рода ошибок на прямые методы минимизации (§ 4 гл. 3) и в модификации этих методов для преодоления влияния помех. 2. Разностные методы при случайных помехах. Рассмотрим методы типа приведенных в § 4 гл. 3 в ситуации со случайными помехами. Начнем с наиболее типичного примера — метода Ки- фера— Вольфовица (метода разностной аппроксимации гра- диента) : п xk+' = xk — yksk, sk=YJ~^~(f + akei) ~f(xk~ akei))e{, (I)
104 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ е, -- координатные орты. Здесь и далее- f (х) = /(д) -Ь л, (2) причем случайные, ошибки ц независимы в различных точках и Mi] — 0, Мгу ст2. (3) Обсудим вопрос о выборе пробных и рабочих шагов а/е, у/(. Обозначим sk-\f (xfe) = gft + ^, где gk — систематическая, а — случайная ошибки. Если f(x) дважды дифференцируема, a V2f(x) удовлетворяет условию Липшица, то в соответствии с леммой 1 § 4 гл. 3 || g* || < са2. (4) Для случайной составляющей погрешности оценки градиента имеем М^ = 0, М ||^fe II2 < ст2/(2а2). (5) Таким образом, при уменьшении а* убывает систематическая погрешность, но растет случайная. Покажем, прежде всего, что можно так регулировать ak, yk, чтобы обеспечить сходимость. Теорема 1. Пусть f(x) сильно выпукла и дважды диффе- ренцируема, V2/(x) удовлетворяет условию Липшица, выпол- нено (3) и для ук, ak справедливы соотношения >2ya=°°, Sy1«2<oo, Еу2а-2<оо. (6) k -0 &«=0 fe=«0 Тогда в методе (1) хк-^х* п. н. и М || xk — х* ||2 0. Если при этом \k = Y/&, ak ~ ct^ '1/8 и у достаточно велико, то М || xk — х’||2-— = О(^2/3). А Можно получить аналогичный результат для несимметрич- ной разностной аппроксимации градиента при менее жестких предположениях о гладкости f(x) (см. упр. 2). Таким образом, при наличии аддитивных случайных помех в измерении функции для сходимости следует и пробные, и ра- бочие шаги стремить к 0, причем пробные шаги следует умень- шать медленнее. Асимптотическая скорость сходимости зависит от выбора ай, уь, гладкости f(x) и вида разностной аппроксима- ции, однако она не превосходит O(k~s), s< 1. Эти же выводы справедливы и для более общих алгоритмов из § 4 гл. 3. Приведем более точные оценки скорости сходимости для квадратичной функции при постоянных аддитивных помехах: f (х) = (Ах, х)/2 - (Ь, х), А^И>0, хе R", f (*) ==/(*)+ л, Мп = 0, Мп2 “О'2,
§ 4. ПРЯМЫЕ МЕТОДЫ 105 где помехи т] независимы в различных точках. Сопоставим ме- тод Кифера — Волъфовица (градиентный) хй+' = хк — sk = У U (х& + ~ F (хк — ойе;)] е.: и метод случайного поиска xk+\ = xk — yksk, sk = (2a4)-1 [f (xk -j- afe/i'1) — f (xk — akhk)] h\ где hk — случайный вектор, равномерно распределенный на еди- ничной сфере (и не зависящий от р). Поскольку для квадра- тичной функции систематическая ошибка в разностной аппрок- симации градиента равна 0 при любом ak (лемма 1 § 4 гл. 3), здесь не нужно стремить к 0. Будем считать, что в (8) и (9) ср, == с. > 0. Используя теорему 4 § 2, нетрудно доказать, что в методе (8) при ук — y/k, у > 1 / (21) М (хк - х*) (хк - хУ = 1 (2Л - 1 /)~‘ + о (|) , (10) а в методе (9) при у*=-у/й, у > п/(2/) М(^-^)^-.гТ = 1.^(2Л-^/)-1+ о(|). (11) Отсюда следует, что если брать yk в (8) в п раз большим, чем в (9), то п шагов метода (9) будут асимптотически экви- валентны одному шагу метода (8). Учитывая, что трудоемкость мотода (8) в п раз больше, чем метода (9), получаем, что в данной ситуации методы (8) и (9) эквивалентны по их асимпто- тической эффективности. Любопытно, что этот вывод не зависит от обусловленности или каких-либо других свойств А (ср. с иной ситуацией в задачах без помех в § 4 гл. 3). Отметим в заключение, что к асимптотическим оценкам типа приведенных в теореме 1, следует относиться с большой осто- рожностью. Например, выбор а* = означает, что нужно сделать миллион итераций, чтобы уменьшить пробный шаг в 10 раз. Поэтому практически счет будет происходить при по- стоянном (Xfe. Упражнения.. 1. Покажите, что среди ал, вида ал = akP, yk = ykr в условиях тео- ремы 1 наилучшим в смысле асимптотических оценок скорости сходимости выбором является приведенный в теореме: г — —1, р = —’/з- 2. Сформулируйте аналог теоремы 1 для несимметричной разностной аппроксимации градиента и в предположении, что Vf(.v) удовлетворяет усло- вию Липшица. Покажите, что в этом случае наилучшпй выбор параметров таков: yk = y/k, os При атом М Их4 — х*||2 — О(1/.%1/2).
106 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ 3. Другие методы. Для задач с помехами перестают быть работоспособными все методы, построенные на одномерных ми- нимизациях (например, методы сопряженных направлений § 4 гл. 3), поскольку такую минимизацию нельзя осуществить. Бо- лее перспективными являются методы, ,в которых строится не- локальная аппроксимация функции по ее значениям в ряде то- чек (типа симплексного поиска или метода барицентрических координат, см. § 4 гл. 3). Влияние помех сказывается в том, что эти методы перестают работать в окрестности минимума, где уровень помех сравним с приращениями функции. Если помехи случайны и центрированы, то методы можно модифицировать так, что они останутся работоспособными и в указанной обла- сти. Общая идея такой модификации — использовать большее число точек для построения аппроксимации функции, чем в де- терминированном случае. Это позволяет усреднять помехи и по- лучать все более точную аппроксимацию. Например, в симп- лексном методе можно многократно проводить вычисления функции в каждой вершине симплекса, сопоставляя точность оценки значений функции с их разностью в различных вер- шинах. Более экономный способ заключается в пересчете аппрокси- мации после каждого нового измерения. Опишем лишь схему подобных методов на упрощенной модели. Пусть можно предпо- лагать, что функция f(x), хе R", аффинна в некоторой области: f(x)»(a, х)+₽, и уже вычислены ее значения с помехой в k (k 2г п + 1) точках: у, — (а, х') + ₽ + гр, г" — 1, • • •, к, где гр — случайные независимые помехи, МЛг = О, Мл2 — ff2- Рассмотрим («+ 1)-мерные векторы zl — {хг, 1}, с* = {а, р} и запишем из- мерения в виде yt = (с*, г‘) + тр. Найдем оценку для с* методом наименьших квадратов, т. е. ck = argmin X (У; ~ (c> z'))2 = X z' (zf)r ) ( X zlyt) = c i — 1 \ i = 1 / \ i — 1 / k / k ч"1 = rfe = (Sz'(zy) . (12) ;=i \i=i / Этому методу можно придать рекуррентную форму — новое измерение в точке хА+1: z/ft+i = (c*, гА+’) + т1*+ь гА+1 = {xA+1, 1}, может быть учтено с помощью следующей формулы: смл = — rfe+1zfe+1 ((с\ г*+1) — ук+1), Г zfe+I (Г Tfe+1 “Г/. (rfezft+1, zs+1) 1 п > (13) /п+1
§ 5. ОПТИМАЛЬНЫЕ МЕТОДЫ ПРИ НАЛИЧИИ ПОМЕХ 107 Таким образом, на каждом шаге не нужно заново вычислять оценку для аппроксимирующей функции, решая систему линей- ных уравнений (12), а достаточно использовать простую рекур- рентную формулу (13). Оценка ск может быть использована для реализации шага спуска: xA+1 = xk — ykak, ck — {aft, (3/J, и npo- верки согласованности линейной модели функции с измере- ниями. Разумеется, в реальных задачах линейная модель функ- ции правомерна лишь локально, и метод минимизации должен включать «забывание» информации, полученной на ранних ите- рациях. Совершенно аналогичные способы могут быть применены для восстановления квадратичной аппроксимации функции по ре- зультатам измерений, содержащих случайную ошибку. § 5. Оптимальные методы при наличии помех 1. Потенциальные возможности итеративных методов при на- личии помех. Для детерминированных «невозмущенных» задач, как мы видели, существует множество методов, каждому из которых присуща своя скорость сходимости. Так, для гладких сильно выпуклых функций метод тяжелого шарика сходится быстрее градиентного, метод сопряженных градиентов — быст- рее метода тяжелого шарика, метод Ньютона — еще более быстро и т. д. Вопрос об оптимальном в смысле скорости схо- димости методе здесь весьма сложен. Оказывается, наличие по- мех в определенном смысле упрощает ситуацию — оно ограничи- вает возможности любых методов минимизации. В этом случае существует некая предельная скорость сходимости, которая не может быть превзойдена. Тот метод, для которого эта предель- ная скорость достигается, естест§енно считать оптимальным. Начнем с результатов, устанавливающих потенциальные возможности по скорости сходимости произвольных итератив- ных алгоритмов (не обязательно связанных с минимизацией) при наличии случайных помех. Рассмотрим итерационный про- цесс в R": xk+l — хк ~ yksk, sk = Я (xk) + |/г, (1) где yk -~Э- 0 — детерминированные скалярные множители, Р(х)— некоторая функция, а — случайные помехи, предполагаю- щиеся независимыми и центрированными (M£s = 0). Начальное приближение х° может быть либо детерминированным, либо случайным, в последнем случае предполагается, что М||х°||2 < оо и х°, независимы. Предположим, что существует единственная точка х* такая, что /?(х*)=0 и /?(х) удовлетворяет условию линейного роста: IIR (х) || < L || х - х* ||. (2)
$ 8. ОПТИМАЛЬНЫЕ МЕТОДЫ ПРИ НАЛИЧИИ ПОМЕХ 100 (обратите внимание, что здесь знак неравенства для дисперсии помех изменен на обратный по сравнению с § 2). Предположим, что f(x) имеет точку минимума х*, а градиент Vf(x) удовлетво- ряет условию Липшица с константой L. Тогда мы находимся в условиях применимости теоремы 1, и из нее следует, что при любом выборе yk для метода (5) справедлива оценка МIIxk - х*II2 >(1/М || х° - х*II2 + ЬЬ2/<У2у\ (7) Иначе говоря, никакой вариант градиентного метода при наличии абсолютных случайных помех не может сходиться быстрее О (1/&) (точнее, М || xk — х* ||2 a2/(L2k) 4- о (1//?)). Заме- тим, что для градиентного метода с yk — y/k было М ||xs—-х*||2 = = О(1/&), т. е. он асимптотически оптимален по порядку ско- рости сходимости. Более точно вопрос об оптимальности гра- диентного метода будет исследован далее. Рассмотрим теперь метод Ньютона при наличии помех. Бу- дем считать, что матрица [V2f(xs)]-1 вычисляется точно, а гра- диент содержит аддитивную случайную помеху В этом слу- чае метод Ньютона (модифицированный за счет введения пара- метра, задающего длину шага) принимает вид xfe+i = xs - yk [V2f (xs)f‘ (V/ (xs) + gs). (8) Относительно помех gs будем считать, что они независимы и М^ = 0, (9) Можно показать, что в условиях теоремы 1 § 5 гл. 1 о сходимо- сти «невозмущенного» метода Ньютона детерминированная часть процесса (8) (т. е. /?(хА) = [V2f (xs) ]-1Vf (xs)) в окрестно- сти решения удовлетворяет условию Липшица, а случайная часть имеет дисперсию, ограниченную снизу. Таким образом, ме- тод (8) также не может сходиться быстрее, чем со скоростью Иначе говоря, наличие случайных помех уничтожает преимущества быстро сходящихся методов минимизации. Приведем результат, аналогичный теореме 1, но примени- тельно к относительным помехам. Теорема 2. Пусть выполнены предположения, сформули- рованные в начале параграфа, и для всех k M||^||2>t||xs-x*||2. (10) Тогда для любого метода (1) М || Xs - х* ||2 > МII х° - х* ||2 qk, q^=x/(L2 + x). ▲ (11) В качестве первого примера использования теоремы 2 рас- смотрим градиентный метод при случайных относительных по- мехах. Пусть f(x) дифференцируема, существует точка мини- мума х*, Vf(x) удовлетворяет условию Липшица с константой L, а помеха в определении градиента независима при различных k
108 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ Теорема 1. Пусть для всех k а2- (3) Тогда при сделанных выше предположениях для, любого ме- тода (1) М||х*-х*||2> 1/(а + ^), а == 1/M ||х° — х*||2, b = L2ja2. (4) Подчеркнем, что в этой теореме, в отличие от любых теорем сходимости, приводившихся ранее, даются оценки скорости схо- димости не сверху, а снизу. Теорема относится к любому спо- собу выбора ук — в частности, и такому, для которого сходи- мость не имеет места. Доказательство. Оценим условное математическое ожи- дание M(||xs+1 —х* II2 |х*): М (|| xk+l - х’ ||21 xk) = || xs - х’ - ykR (х*) ||2 + у2М || ||2, II xk - х* - ykR (xs) II >( II Xs - х* II - yft ||/? (xs) II)+ > XI|xs-xe||-Y^||xs-x*||)+, М (||xs+‘ - х*1|21 x*)>(1 - ykLf+ ||xfe - x*||2 + yK Отсюда M || xs+] - x‘ ||2 >( 1 - У/Л)+М IIxk ~ ГII2 + Yfe°2- Стоящая справа кусочно-квадратичная функция достигает ми- нимума по yk при yj = LM || xs -- x*||2/(L2M || Xs — х*||2 + ст2). От- сюда получаем М || х*+> - х* ||2 > (1 - у;Т)2+ М || Xs - х* ||2 + (yj)2 ст2 = = ст2М || Xs - х* ||2/(L2М || Xs - х* ||2 + ст2), или, обозначая ик = 1/(М ||xs — х*||2), uk+i < Т?/ст2 + ик. Таким образом, ик иа + kL2la2, т. е М || xk - х* ||2 > [ 1 / М || х° - х* ||2 + Ш/ст2] ~1. А Из теоремы 1 следует, что любой метод вида (1) при сделан- ных выше предположениях не может сходиться быстрее 1/ (а + bk), или асимптотически — быстрее O(\/k). Приведем некоторые примеры использования этого резуль- тата. Вновь, как и в § 2, рассмотрим градиентный метод мини- мизации f (х): xk+i = xk — yksk, sk = Vf (xfe) +14 (5) при абсолютных случайных помехах; М^ = 0, М||^||2>ст2 (6)
но ГЛ. 4. ВЛИЯНИЕ ПОМЕХ и удовлетворяет условиям = О, М || ||2 X т || хк — х* ||2. Тогда в методе (5) при любых у/, выполняется неравенство (11). Иными словами, градиентный метод при случайных относитель- ных помехах не может сходиться быстрее, чем со скоростью гео- метрической прогрессии. Вторым примером может служить метод случайного поиска. Пусть f(x)—квадратичная функция: f (х) = (Ах, х)/2 - (Ь, х), II^A^LI, / > 0. (12) Рассмотрим метод xk+1 — xk — (уй/(2а)) (f (xk + ahk) — f(xk — ahk)) hk, (13) где hk — случайный равномерно распределенный на единичной сфере вектор, с-: > О— фиксированная длина пробного шага. Метод может быть записан в виде (см. § 4 гл. 3) хк+} = xk — ykhk(hk)T Vf (xk) = xk — sk = hk (hk)T vf (xk). Используя результат упражнения 1, получаем 7?(xs) = Msfe = -^-Vf (xk), MII ¥ II2 = MII sk - R (xk) ||2 = 1| Vf (xk} ||2 > P || xk - x* II2. Из теоремы 2 следует, что при любом способе выбора ук метод случайного поиска не может сходиться быстрее, чем геометри- ческая прогрессия со знаменателем q = (n- 1)P/(L2 + (п- Щ2). (14) В частности, для f(x) = ||х||2/2, хе R", метод случайного поиска сходится не быстрее прогрессии со знаменателем (п— 1)/п. Теорему 2 можно несколько уточнить для случая, когда R(x) линейна, а для помехи известна оценка снизу не только для дисперсии, но и для матрицы ковариаций. Итак, расматривается метод х*+‘ = xk - (A (xk - х*) + lk), (15) где независимы, х° случайный вектор, Л-1 существует и М^ = 0, MW)r>B>0, М (х° — х*) (х° — х*)г > О, (16) а — детерминированные матрицы пХ«- Теорема 3. В методе (15) при любых Гй справедлива оценка М (хк ~ х*) (xk - х*)г > [(М (х° - х*) (х° - х*)г)’1+ЫгВ’1л]'1 = -4-Л-'вЫТ' + <>(4). А (17)
§ 5. ОПТИМАЛЬНЫЕ МЕТОДЫ ПРИ НАЛИЧИИ ПОМЕХ 111 В качестве приложения рассмотрим обобщение градиентного метода минимизации квадратичной функции f (х) = (Ах, х)/2 - (Ь, х), А > // > О при наличии помех: xft+1 = ris-rft(Vf(ris) + ^), М^ = 0, М^(^)г = о2/- (18) Применяя теорему 3, получаем, что при любых М (? - .*) (/ - > О1 + ± Л2) = 4 а-2 + о (1), (19) [/0==MU°-x*)(x0-xT, || М (xk -V) (х* - х*У И > 4 + о (1) , (20) причем равенство в (19), (20) достигается (см. упр. 2) при 1Д = (kA + = k~xA~l + о (1/k). (21) Сопоставляя (20) с оценкой (13) § 2 для градиентного метода, получаем, что при данных условиях выбор у* = 1/(^/) в гра- диентном методе является асимптотически оптимальным. Упражнения. 1. Пусть ft — случайный вектор, равномерно распределенный на единич- ной сфере в R’1. Докажите, что MhhT = п 11, и если а — произвольный век- тор, то М || hhTa — п~'а ||2 = (я-1 — я-2) ||а||2. 2. Покажите, что если (£k)T = В, то неравенство в (17) переходит в равенство при Г», задаваемом (21). 2. Оптимальные алгоритмы. До сих пор мы ограничивались весьма узким классом алгоритмов — линейными рекуррентными; Однако вопрос об оптимальности можно решать для гораздо бо- лее общего класса процедур. Оказывается, что в ряде случаев можно установить потенциальные возможности любых (не обя- зательно рекуррентных или линейных) методов минимизации при наличии случайных помех. Основным инструментом здесь является известное в статистике неравенство Крамера—-Рао (информационное неравенство). Пусть функция f(x) квадратична: f (х) = (Ах, х)/2 - (Ь, х), Л > 0, (22) а ее градиент вычисляется со случайной помехой £. Предполо- жим, что помехи | независимы и одинаково распределены (рань- ше мы такого предположения не делали). Пусть уже вычислены значения г1 = \lf(xl) + g1, ..., rk — ^f(xk)Jr в некоторых точ- ках x', ..., xk. Наконец, пусть матрицы А и A~! известны. Тогда xl— х* = А-'г1 — A-1V, i — 1> •••> Обозначим z‘ — х‘ — A~lr‘, ту = —А-1^. Тогда z‘ = х* -f- ту. Величины z‘ известны (так как
112 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ х‘, г1 и А-1 известны), а величины гр независимы и одинаково распределены (ибо такими являются £*)• Таким образом, за- дача свелась к следующей. Заданы векторы z‘ = х* + ц1’, где — реализации независимой, одинаково распределенной слу- чайной величины. Требуется по ним оценить х*. Это — классическая задача оценки параметров, рассматри- ваемая в статистике. Для нее справедливо неравенство Краме- ра— Рао, утверждающее, что если гр имеют плотность pn(z), эта плотность регулярна (т. е. справедливо равенство \ VPr] (z) dz — 0) и существует фишеровская информационная матрица С Vpn (2) (2) J = \----!---------dz J (*) 0 < J < ОО, (23) то для любой несмещенной оценки xk вектора х* по измерениям zl, i — 1, ..., k, имеет место неравенство М(?-х*)(?-х*)г^й-17-1. (24) Иными словами, существует нижняя граница точности произ- вольных несмещенных оценок. Используя (24) и результат упражнения 4, приходим к следующему результату. Теорема 4. Пусть помехи Q имеют плотность р (z), причем p(z) регулярна и 7 = \^—----dz существует, 0 < 7 < оо. Тогда для любой несмещенной оценки № точки минимума х* функции (22), построенной по измерениям гг = Vf (хг) + |г, г = 1> •••> k, в k точках, справедливо неравенство М (^ - х‘) (? - х‘)г ^k~'A~xJA~\ ▲ (25) Важно, что сюда не входят точки измерения х1, ..., xk. Та- ким образом, при любом способе выбора /г точек измерения гра- диента нельзя найти минимум с точностью, большей чем зада- ваемая неравенством (25). Остается построить метод, для которого указанная нижняя граница достигается. Если ограничиться линейными алгорит- мами xs+1 — xk — (Nf (xft) + |й), (26) где H > 0 — некоторая матрица, то получаем, что асимптоти- чески оптимальный выбор и Н таков: уй=1/й, Н = А~\ (27) при этом М(/-х*)(х%-х‘)7’</г-’А^ВА^ + о(й“’), В = (28)
§ 5. ОПТИМАЛЬНЫЕ МЕТОДЫ ПРИ НАЛИЧИИ ПОМЕХ 113 С учетом упражнения 3 отсюда получаем, что если распре- делены нормально, то правая часть (25) совпадает с правой частью (28). Таким образом, для случая нормальных помех алгоритм (26), (27) является асимптота чески оптимальным (не только среди линейных или рекуррентных алгоритмов). Для других распределений помехи алгоритм (26), (27), вообще го- воря, не оптимален. Более того, можно показать, что правая часть (25) строго меньше правой части (28) для любого распре- деления, отличного от нормального. В этом случае оптимальный алгоритм можно получить, введя нелинейность в итерационный процесс = xk — yferp (Vf (xfe) + £fe), (29) где функция ср: R”->Rn и у* выбираются следующим образом: ср (z) = /'‘A-‘v In р (z), yk=\/k. (30) Для нормальных помех метод (29), (30) переходит в (26), (27). Можно показать, что при. определенных условиях на p(z) распределение величины -yjk (хк — х*) для метода (29), (30) стремится к нормальному со средним 0 и матрицей ковариаций A~lJA~l. Сопоставляя это с правой частью (25), получаем, что метод (29), (30) является асимптотически оптимальным. Практическая реализация метода (29), (30) затруднительна, так как в нем нужно знать матрицу А-1, а также плотность рас- пределения помехи. Мы не будем останавливаться на способах преодоления этих трудностей. Здесь более важен принципиаль- ный факт — возможность построения асимптотически оптималь- ного алгоритма решения задачи минимизации при наличии слу- чайных помех, причем этот алгоритм оказывается рекуррентным. Подчеркнем еще, что все выводы здесь носили асимптотиче- ский характер. Оптимальный алгоритм для конечных k в случае нормальных помех дается выражением (21). Видно, что на на- чальных шагах (k С о2А-2£/о’’) Г* примерно постоянно: as та <j-2U0A, а для больших k убывает как £-*: Г;, — ф- + o(ZH). Отметим также, что оптимальные алгоритмы предполагают точное знание закона распределения помехи и неустойчивы к отклонению истинного распределения от предполагаемого. Су- ществуют способы преодоления этой трудности (так называемые робастные алгоритмы минимизации). Упражнения. 3. Пусть случайный вектор т] распределен нормально со средним 0 и ко- вариационной матрицей S. Покажите, что в этом случае информационная матрица (23) определяется формулой J *= S-*. 4. Пусть случайные векторы ?, и г| связаны зависимостью ц = Bg, где В — некоторая матрица. Докажите, что для соответствующих информацией- ВЫХ матриц справедливо соотношение BJ ^Вт,
Глава 5 МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Во многих случаях функции, которые нужно минимизиро- вать, оказываются недифференцируемыми. Примеры такого типа, связанные с декомпозицией, штрафными функциями, ис- пользованием теорем двойственности и т. д., будут неоднократ- но встречаться в дальнейшем. Негладкие функции возникают также в задачах наилучшего приближения, в статистике при оценке параметров по методу наименьших модулей, в задаче Штейнера и родственных ей. В приложениях типичны ситуации, когда оптимизируемый показатель — технический или экономи- ческий— недифференцируемым образом зависит от параметров (например, эта зависимость часто бывает кусочно-линейной). По указанным причинам при анализе задач оптимизации нельзя ограничиваться случаем гладких функций. Разумеется, в общем виде задача минимизации недифферен- цируемых функций чрезвычайно сложна. Эти функции могут быть столь «плохо устроены», что значения функции в любом конечном множестве точек не несут информации об ее пове- дении в других точках. Ясно, что такие функции минимизиро- вать безнадежно. Поэтому мы в основном ограничимся важ- ным частным случаем негладких функций — выпуклыми функ- циями. § 1. Сведения из выпуклого анализа Сравнительно недавно (в основном в 60-е годы нашего века) был создан простой и удобный аппарат для работы с выпуклыми функциями и множествами, получивший название выпуклого анализа. Мы неоднократно будем обращаться к технике выпук- лого анализа. Пока потребуются лишь простейшие результаты из этой области. 1. Выпуклые множества и проектирование. Напомним,' что множество Q в R" называется выпуклым, если оно содержит всякий отрезок, концы которого принадлежат Q, т. е. если для любых х , у sQ, 0 Л, ДО 1 X.V-4-(1 — X) г/Q. (1) Отсюда следует (по индукции), что в Q содержится и любая
§ I. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 115 выпуклая комбинация его точек, т. е. x'gQ, Е^ = 1, ^>0, 1=1,..., (2) i ®= 1 i — 1 Непосредственно из определения видно, что такие множе- ства, как шар, параллелепипед, линейное многообразие, много- гранное множество выпуклы, а сфера или конечный набор точек невыпуклы (рис. 10), Рис. 10. Примеры выпуклых (/—3) и невыпуклых {4—6) множеств. Для выпуклой функции f(x) множество Q — {х: f(x)^a}, очевидно, выпукло при любом а. Обратное, вообще говоря, не- верно— функция f (х) — д/ll х || не выпукла, но множества {х: f(x)^a} выпуклы (такие функции называются квазивыпук- лыми). Если множество Q невыпукло, то его можно «овыпуклить». Выпуклой оболочкой ConvQ множества Q называется наимень- шее выпуклое множество, содержащее Q, т. е. пересечение всех выпуклых множеств, содержащих Q. Такое множество сущест- вует и непусто для всех непустых Q. Например, выпуклой обо- лочкой сферы является шар, выпуклой оболочкой двух точек — соединяющий их отрезок. Нетрудно проверить, что выпуклую оболочку можно определить и иначе—как выпуклую комбина- цию конечного числа точек из Q, т. е. Conv Q = f т т ч = ) х = X АаХ1, х1 eQ, Л, > 0, 1 = 1,..., т, £ = 1 > (3) I 1=1 /=! J Лемма 1 (Каратеодори). Для Q с: R" в (3) можно взять т п -ф 1. А
116 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Для замкнутого Q множество Conv Q не обязательно зашс нуто (например, для Q = p;sP<: х2 = х}/2, х, 0} будет Conv Q = {х е R2: 0 < х2 х{12, х, > 0} (J {0, 0}). Лемма 2. Если Q замкнуто и ограничено, то таковым же будет и Conv Q. ▲ В дальнейшем нам часто будет нужна операция проектиро- вания. Проекцией точки х е R" на множество Q cz R" называ- ется точка из Q (обозначаемая Pq(x)), находящаяся на крат- чайшем расстоянии от х, т. е. Pq (х) = argmin || х — у\\. (4) yeQ Ясно, что если xeQ, то PQ(x)—х. Ис- пользуя теорему Вейерштрасса (§ 3 гл. 1) получаем, что для замкнутого Q проекция существует. Если Q выпукло, то проекция единственна, так как PQ (х) — — argmin <р (у), ср (у) ~ ||х — у||2 — строго У е Q выпуклая функция (теорема 3 § 3 гл. 1). Наконец, для выпуклого замкнутого Q проекция обладает следующими свойствами (рис. И): (х — Р^ (х), у — Pq (х)) < 0 для всех у е Q, (5) II Pq (х) — Pq (у) IK IIх — УII для любых х, у. (6) Рис. И. Проекция и ее свойства. Упражнения. 1. Докажите, что если Q выпукло, то множества aQ = {х = а.у, у е Q), AQ = {х — Ау, у е Q) выпуклы (здесь a е R1, А — матрица m \n), а если Qi и Q2 выпуклы, то и Qi П Q2 н Qi + Qz — {х — xt + Хг, xt е Qt, х2 е Q2) выпуклы. 2. Докажите, что функция pQ(х) = ||х—•Р<г(х) || непрерывна для замкну- того Q и выпукла для выпуклого Q, а функция (х) = Pq (х)/2 выпукла и дифференцируема для выпуклого замкнутого Q, причем Vcp(x) = = (х —PQ(x))pQ(x). 3. Пусть х — внутренняя точка выпуклого множества Q, у — его гранич- ная точка. Докажите, что точки (1—К)х-\-Ху являются внутренними точ- ками Q при 0 % < 1 и не принадлежат Q при л > 1. 2. Теоремы отделимости. В основе выпуклого анализа лежат так называемые теоремы отделимости (теоремы Хана — Бана- ха). Два множества Qi и Q2 в R" называются отделимыми, если найдется разделяющая их гиперплоскость (рис. 12), иначе го- воря, если найдется число а и вектор а е R'1, а 0, такие, что (а, х)^а для всех xeQ, и (а, х) Д для всех геО,. ’Они называются строго отделимыми, если найдутся a е R" и a1 > а2 такие, что (a, х) cq для х е Qi и (а, х) sC а2 для х е Q2. Теорема 1 (теорема отделимости). Пусть Qt, Q2 — выпук- лые замкнутые непересекающиеся множества в R", причем Q2 ограничено. Тогда Qi и Q2 строго отделимы.
§ !. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 117 Доказательство. Функция р, (х) — pQi (х) = ||х — PQ< (х) 1| в соответствии с упражнением 2 непрерывна. Следовательно, на ограниченном замкнутом множестве Q2 она достигает ми- нимума. Пусть ai = PQ,(«2), ^ — argminp! (х). Тогда а2 хе= Q,„ (так как Qj и Q2 не .пересекаются), ||«1 — а2 !1 = Р (Qi, Qz)~ = min {|| х — г/1|, xeQb y^Q2} и a2 = ^Q2(ai)- Из (5) следует, что (а,— а2, х)^(а1 — а2,а1)==а1 для xsQ,, (а\ — а2, х)< (й] — а2, а2) = а2 для .rsQ,, cq — a2 = ||aj — а2||2 > 0. Таким образом, мнржества Qi и Q2 строго отделимы. ▲ Рис. 12. Теорема отделимости: а) множества отделимы, б) множества строго отделимы. 13. Опорная гипер- плоскость. Геометрически это доказательство совершенно наглядно (рис. 12,6). Требование ограниченности Q2 в теореме отдели- мости нельзя отбросить: множества Q; = {х е R2, х2 сД 0), Q2 — = {xeR2, х2^хг‘, Xj > 0} не являются строго отделимыми. Теорема отделимости позволяет дока- зать приводимый ниже результат об опорной гиперплоскости. Гиперплоскость L — {х: (а, х) = а} называется опорной к множеству Q в точке х°, если х° е L, а все множество Q лежит в полупростран- стве, задаваемом L, т. е. (а, х) а для xeQ (рис. 13). Теорема 2 (об опорной гиперпло- скости). Пусть Q — выпуклое множество, х0'—граничная точка Q. Тогда существует гиперплоскость, опор- ная к Q в х°. А Упражнения. 4. Докажите следующие варианты теоремы отделимости: а) Пусть Qi, Qz — выпуклые множества, причем Qi и Q2 имеют внутрен- ние точки, ни одна из которых ие является общей для обоих множеств. Тогда Qi и Q2 отделимы.
118 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ б) Пусть Qj, Q2 — выпуклые непересекающиеся множества. Тогда они отделимы. 5. Убедитесь, что множества Qi = {х е R2: |xi| 1, Хг = 0} и Qz— — {х е R2: Xt — 0, | Xz | 1} выпуклы, не имеют общих внутренних точек, но неотделимы (ср. с упр. 4а)). 6. Докажите, что если х — граничная точка Conv Q, то в лемме 1 можно заменить п + 1 на п. 3. Выпуклые недифференцируемые функции. Определение выпуклой функции, данное в § 1 гл. 1, остается в силе и для не- дифференцируемых функций. Именно, скалярную функцию f(x), заданную на всем пространстве R", назовем выпуклой, если для любых х, у s R’ и любых 0 сД % 1 выполняется -неравенство fUx+(l-X)y)<V(x) + (l-K)f(y) (7) (см. рис. 1). Подчеркнем, что всюду в этой главе мы рассматри- ваем лишь функции, областью определения которых является все пространство. В дальнейшем (гл. 9) мы введем более общий класс выпуклых функций, заданных на некотором множестве. Для них многие утверждения данного параграфа (например, лемма 3) будут неверны. Нетрудно проверить, что операции сложения, умножения на неотрицательное число и взятия максимума не выводят из клас- са выпуклых функций. Выпуклые функции обладают и рядом других удобных свойств. В частности, оказывается, что выпук- лые функции на R" устроены достаточно просто. Лемма 3. Всякая выпуклая функция на R" непрерывна. Доказательство. Возьмем произвольные х ед Rn, б>0 и рассмотрим точки а’ = х + 6е1, а2 — х — беь ..., = ==x4-den, а2п = х — 6еп, где еь ..., еп—координатные орты. Пусть А (6) = max | f (а1) — f (х) |. Образуем многогранник Q (6) I < i < 2п с вершинами в этих точках: ( 2п 2п X Q (6) = 1 X > о, £ щ = 1 г = \ i = l i = l ) С п = ) *4-6 X YiO, lYf К 1 (• \ i — 1 ) Докажем, что sup | f (у) — f (х) | А (б). Действительно, пусть у & Q (б) У ~ X У-1а1> Р/ Д* 0, I., Ц; = 1, тогда по неравенству Йенсена м 1=1 2п (лемма 1 § 1 гл. 1) f (у)< У pj (а’)< max f (аг)< f (х) + А (5). J=i > С другой стороны, f (y')^2f (х) — f(y'), где у' ед Q (6) — точка,
§ !. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 11 9 п симметричная с у относительно х, т. е. если у — х + 6 X Ъе1, 1 = 1 то / = х — 6 S ViSi- Поэтому f (у) > 2f (х) — f (у') — A (6), 1 = 1 так как по доказанному f (у') <; f (х) + А (6). Итак, действительно I f (у) — f W К А (6) для всех у е= Q (6). Заметим теперь, что верен следующий факт: всякая одно- мерная выпуклая функция <р(т) непрерывна. Действительно, при е>0 ср (т-|-е) = ф ((1 — е) т + е (т + 1)) (1 — е) ф(т) + + еф(т + 1) = ф (т) -ф е (ф (т -ф 1) — ф (т)); с другой стороны, ф(т) = Ф (т^(^-1) + т4т(т + 8))<ТТТФ(т-1) + тТ7Х Хф(тфе), т. е. ф(т + е) ф(т) + е (ф(т)ф(т —- 1)). Отсюда Ф (т е) —> ф (т) при е—>-|-0. Совершенно аналогично рассма- тривается случай е < 0. Отметим попутно, что отсюда же сле- дует существование левой и правой производных <р(_ (т)=ф'(т; —1) и Ф+(т) = ф'(т; +1), причем ф(т) — ф(т— 1)<ф'(т; 1)<ф(т + 1) — ф(т). (8) В силу непрерывности Аг (d) = | f (аг) — f (х) |=Д f (х ± — — f(x)| стремится к 0 при б—>0. Поэтому и А(6) = тахДг(д) I стремятся к 0 при 6->0. Итак, sup | f (у) — f (х) | ->0 при yeQ(6) 6->0, откуда и следует искомое утверждение. А Следствие. Если f (х) —- выпуклая функция, то множество Q(a) = {x: f(x)^a) выпукло и замкнуто. В частности, мно- жество X* — Argmin f(x) выпукло и замкнуто. А Лемма 4. Выпуклая функция f(x) имеет в произвольной точке х одностороннюю производную по любому направлению, равномерно ограниченную по направлениям-. Г{х. у}== lim а->+0 а < f (х + у) — f (х)< max (f (х + г) — f (х)). А (9) II 2 || = || 1/11 4. Субградиент. Разумеется, выпуклая функция не обяза- тельно является дифференцируемой (рис. 14). Однако для нее можно ввести понятие, во многих отношениях аналогичное гра- диенту. Пусть.f(x)—выпуклая функция на R'1. Вектор а е R«, для которого выполняется неравенство f(x + y)>f (х) + (а, у) (10)
120 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИИ для всех у е R", называется субградиентом функции /(х) в точке х и обозначается df(x). Как видно из простейших приме- ров (рис. 14), субградиент определяется, вообще говоря, неодно- значно. Мы будем применять обозначение df(x) как для всего множества субградиентов, так и ; вителя (обычно по смыслу ясно, Рис. 14. Субградиент выпуклой функции. ство f(x + i/) = f(x) + (Vf(x), 1я его произвольного предста- что именно имеется в виду). Перейдем к исследованию свойств субградиента. Лемма 5. Если f(x) дифференцируема в точке х, то субградиент определен однозначно и совпадает с градиентом'. df(x) = V/ (х). Доказат ел ь ст в о. Так как градиент удовлетво- ряет неравенству (26) § 1 гл. 1: f(x 4- у) f(x) 4- 4-(V/(x), у), то он являет- ся субградиентом. Вычитая из неравенства (10) равен- 4-о (у), получаем (<5f (х) — — Vf(x), z/)^o(y), что возможно при всех у лишь если df(x)— — Vf (х) — 0. А Можно показать, что всякая выпуклая функция почти всюду (т. е. за исключением множества меры нуль) дифференцируема. Это — известная теорема Радемахера. Лемма 6. Множество субградиентов в любой точке не- пусто, выпукло, замкнуто и ограничено. Приведем схему доказательства. Рассмотрим множество Q = {х, a: a^f(x)} в пространстве Rn+i (эт0 множество на- зывается надграфиком или эпиграфом функции /(х)) (рис. 15). Множество Q, очевидно, выпукло, а из леммы 3 следует, что оно имеет внутренние точки. Точка {х, f(x)} является граничной точкой Q. По теореме 2 существует опорная гиперплоскость к Q в этой точке, задаваемая вектором {а, -1}. Тогда а является субградиентом f(x) в точке х. Выпуклость и замкнутость мно- жества субградиентов следует непосредственно из определения, ограниченность следует из леммы 4. ▲ Для негладких функций справедливо неравенство, аналогич- ное (29) § 1 гл. 1: для любых х, у (df (х) — df (у), х — у)^0, (Н) т. е. субградиент является монотонным оператором. Знание субградиента позволяет вычислять производную по направлению (9) с помощью формулы, являющейся обобщением (6) § 1 гл. 1.
§ 1. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 121 и я x Рис. 15. К доказательству суще- ствования субградиента. Лемма 7. Для любых х, у f' (х; у) — max (а, у). (12) а е df (Х‘ Наметим доказательство (12). Поскольку f (х -f-ey) — f (х) (а, у) для всех a^df(x), то f' (х; у)^ max {а, у). Пусть a&dffx'i найдется у° такое, что f'(x;y°)> шах (a, у°). Рассмотрим аез df(x) в Rft+1 луч В = {а, z: а = f (х) -ф kf' (х; у0), z = x + Ку°, Л > 0} и надграфик А = {a, z: а > f (г)}. Поскольку f (z) > f (х) -ф -фЛД(х; у°), то множества А и L не пересекаются. Применяя теорему отделимости, получим противоречие. А Отсюда и из (6) § 1 гл. 1 сле- дует результат, обратный лем- ме 5,— если df(x) состоит из од- ного элемента, то f(x) дифферен- цируема в этой точке. Леммы 3, 4 и 7 приводят к следующему результату. Лемма 8. Субграоиенты вы- пуклой функции f(x) ограничены на всяком ограниченном мно- жестве или множестве вида {х: f (х) -С а}. А В дальнейшем нам придется иногда оперировать с суммами множеств (например, с выражением aidfi (х) -ф a2df2(x) в при- водимой ниже лемме 10). Напомним, что если А, В, С —множе- ства в R”, |3, у е R1, то А = рВ -ф уС означает, что А = — {а — р& -ф ус, Ь<=В, сеСф Мы уже знаем (упр. 1), что сумма выпуклых множеств выпукла; В-\- С = 0, если В = 0. Лемма 9. Если В и С замкнуты и ограничены, то В -ф С замкнуто и ограничено. А. Предположение об ограниченности здесь существенно: на- пример, если В — [х s R2, х2 xf', х} > 0}, С — |х <= R2: хг == 0), то В и С замкнуты, но В-фС = {хеД2: х{ > 0} незамкнуто. Приведем три леммы, дающие возможность вычислять суб- градиенты сложных функций. Лемма 10. Если А(х), f2(x) выпуклы, f (х) = (х) -ф и а1> а2 0, то df (х) = Oj df{ (х) -ф а2 df3 (х). (13) Доказательство. Операция дифференцирования по направлению очевидным образом линейна: f'(x; y)!=a,lf'1(x; у) -ф + a2f2(x; у) для всех х, у. Воспользуемся формулой (12): max (а, у)== max (b, у)+ max (с, у)= max (а, у). at=df(x) bsaidfi (х) cesaidfaW aeai dfi (xj+aidfifx)
122 ГЛ, 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Множества df (х) и щ dft (х) + а2 df2 (х) в силу лемм 6,9 и уп- ражнения 1 выпуклы, замкнуты и ограничены. Но если для всех у е Rn max (а, у) = max (b, у) для выпуклых, замкнутых ие А Ь^В ограниченных множеств А и В, то А и В совпадают (это легко показать с помощью теоремы 1). Поэтому справедливо (13). Л Разумеется, формула (13) распространяется на сумму не- скольких выпуклых функций: Ст \ т. S aifi (х) ) = £ а; dfi (х), а; > 0. (14) =1 / г=1 Следующая лемма дает правило вычисления субградиента максимума нескольких функций. Лемма 11. Пусть f(x) = max 2t(x), где ft(x) выпуклы- 1 < i <tn Тогда df(x) = Conv [J dfi^c), / (x) — {г: (x) = f (x)}. (15) /е/ (x) Доказательство. В силу лемм 6, 2 множество А — = Conv U dfi(x) выпукло, замкнуто и ограничено^ таковым i е / (X) же является и множество df (х). Нетрудно видеть, что Д(х; у) — — max Е(х; у) для всех у. Но по лемме 7 и в силу опреде- 1 S I (X) ления ConvQ max f',(x; у) — max У, (х; у) = к. >0, £ х. = !/е/(х) i <Sl(X) — max (а, у). С другой стороны, f' (х; у) — max (а, у) (лемма 7). иеЛ aedffx) Если max (а, у) = max (а, у) для всех у, то (ср. с доказа- а е А а е df (х) тельством леммы 10) А = <Э/(х). А Лемма 12. Пусть А—-матрица т\п, ср (у) — выпуклая функция на Rm, f (х) = ср (Ах), xeR". Тогда df (х) = Ат<5ср(Ах). А (16) С помощью лемм 10—12 можно вычислять субградиенты различных функций столь же просто, как и градиенты гладких функций по обычным правилам дифференцирования. Упражнение. 7. Вычислите субградиенты следующих функций: а) /’ (х) = ||х||; б) f (х) = k = У | (а\ х) — 6. |; в) f (х) = max ((af, х) - b.). 1~ 1 1 г /г ( —— х Ф 0 k Ответы, a) df (х) = < ||х|Г ’ б) df (х) — £ sign ((о/, х) — t а„ ||д||1, х = 0: k . k —bfja1; в) df (х) = £ а;аг, ai = 0 при (аг, х) — < / (х), а; > 0, а; = 1. г=1 ' (-1
§ 1. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 123 5. е-субградиент. Понятие субградиента может быть обобще- но следующим образом. Вектор й е R'! называется е-субгра- диентом выпуклой функции f(x) в точке х, если f (х + у) f (х) + (а, у) — е (17) для всех j/e R”. Здесь е 0 — некоторое фиксированное число. Множество е-субградиентов и произвольный е-субградиент бу- дем обозначать def(x). Из определения следует, что df(x) = — dof(x), df (х) cz def (х) для всех 8 > 0 и, более того, df(x) — = П def (х). Геометрически е-субградиент соответствует гипер- Е>0 плоскостям в R"+I, разделяющим надграфик f(x) и точку {f(x)— е, х} (рис. 16). В отличие от субградиента, е-субградиент Рис. 16. е-субградиент. при е > 0 не определяется локальными свойствами f(x). Ясно, что е-субградиент не единствен даже для дифференцируемых функций; исключением является аффинная функция f(x) — = (с, х)4-а, тогда d8f(x)= с для всех е, х. Правила вычисления е-субградиентов не столь просты, как субградиентов. Мы приведем один важный частный случай, когда отыскание е-субградиента требует меньших вычислений, чем субградиента. Пусть f (х) — max ср (х, у), (18) у'.& Q где хе R”, Q — компактное множество, <р (х, у) непрерывна по у и выпукла по х. В частности, Q может состоять из конечного числа элементов (тогда получаем функцию из леммы 11). Оче- видно, что f(x) определена на R" и выпукла. Пусть у — у(х) — произвольная точка из Q такая, что ф(х, y)>f(x) — е. (19) Иначе говоря, у — произвольная точка, в которой приближенно (с точностью до е) достигается максимум <р(х, у) по у е Q.
124 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИИ Лемма 13. 5х<р(х, y)c:dzf(x). (20) Доказательство. Для любого г из определения субгра- диента и (18), (19) следует f (х + г) = max <р (х + z, у) > <р (х + z, £) > ф (х, у) + Q + (<Зх<р(х, у), г) > f (х)+ (<?/₽ (х, у), г) —е. А Таким образом, чтобы найти один из е-субградиентов f(x) вида (18), достаточно приближеннсг-отыскать максимум по у и взять субградиент соответствующей функции ф. Вычисление же субградиента /(х) требует точной максимизации ф по у. § 2. Условия экстремума, существование, единственность и устойчивость решения Для задачи minf(x), ,reR", (1) где /(х)—выпуклая недифференцируемая функция на R", про- ведем анализ, аналогичный осуществленному в §§ 2 и 3 гл. 1 для гладких функций. 1. Условия экстремума. Необходимые и достаточные условия минимума формулируются в терминах субградиентов чрезвы- чайно просто. Теорема 1. Условие O^df(x*) (2) необходимо и достаточно для того, чтобы точка х* являлась ре- шением (1). Доказательство. Необходимость. Пусть х* — точ- ка минимума /(х), тогда Дх* у) 4' Дх*) + (0, У) Для всех У- Это означает ((10) § 1), что 0 является субградиентом Дх) в точке х*. Достаточность. Если 0 является субградиентом в точке х*, то Дх* у) f(x*) 4- (0, y) — f(x*) при всех у, т. е. х* — ре- шение (1). А Разумеется, в точке минимума могут быть и ненулевые суб- градиенты (например, для Дх)= ||х||: 5/(0) — {а: ||а|| 1}, см. упр. 7 § 1), и этим условие (2) отличается от условия V/(x) = 0 для гладких функций. Иначе говоря, условия экстремума в не.’ гладком случае не сводятся к решению системы уравнений, В данном случае еще более отчетливым является утверждение, которое мы приводили в § 3 гл. 1,— условия экстремума вовсе не предназначены для конструктивного отыскания минимума.
S 2. УСЛОВИЯ ЭКСТРЕМУМА 125 С помощью понятия е-субградиента можно сформулировать необходимые и достаточные условия того, что точка хе является приближенным решением задачи (1), Теорема 2. Условие О €= dEf (хе) (3) выполняется тогда и только тогда, когда f(xe) zgdnf f(x) + е А. X Упражнения. 1. Убедитесь в справедливости следующих условий экстремума: m a) f М = У аг IIх ~ ai II’ at > °’ х' 0,1 е ТогДа W (х*) = °- если 1=1 б) f (х) = У, | (а1, х) — bt |. Существуют | Z* | < 1, i е= Г = {/: (а1, х*) = 1-1 = b J такие, что У + У а1 — У а1 = 0, 1+ = {/: {а1, х') > bA, isZ* i е Z_|_ i е Z_ /_ = {/: (а1, х’) < &J. в) f (х) = max f, (х), где f, (х) — выпуклые дифференцируемые функ- 1 < i < m цнн. Тогда существуют Zz>0, is! = р: f{ (x ) — f (x )}, У Z* — 1 ie/‘ такие, что У (x*) = 0. i e/* 2. Пусть f (x) ществуют та же, i s I e что и в упражнении 1в). Пусть для точки хЕ су- = {г- (fz(xe)>f(x8)-e}, £ &,= ! такие, что Z. > 0, S W(xE) = 0- fe/e § 1 и теорему 2. Тогда f (х„)< inf f (х) + е. Докажите, используя лемму 13 \ w/ v 2. Существование и единственность минимума. Теорема 3. Пусть функция f(x) выпукла на R”, а мно- жество Qa~ {х: непусто и ограничено для некото- рого а. Тогда f(x) достигает минимума на R". Действительно, по лемме 3 § 1 f(x) непрерывна, в силу чего применима теорема Вейерштрасса (§ 3 гл. 1). А Вопрос об единственности минимума просто решается для строго выпуклых функций. Напомним (§ 1 гл. 1), что функция называется строго выпуклой, если для любых х у, 0<;А.<1 f (Ух + (1 - М У) < и W + (1 - %) f (у). (4) Теорема 4. Точка минимума строго выпуклой функции единственна. Доказательство очевидно. А
126 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Упражнения. 3. Докажите, что для строго выпуклой функции выполняется при всех у ф 0 неравенство f (х + у) > f (х) + (df (х), у). (5) 4. Убедитесь, что функция f(x)=||x|| не является строго выпуклой, а т функция X az || х — a1 IL > 0, строго выпукла, если только точки а1 не i«l лежат на одной прямой. т 5. Докажите, что функция f (х) = У а; || х — а11|, а; > 0, достигает минн- >=1 мума на R’, причем единственного, если а1 не лежат на одной прямой. 3 . Устойчивость минимума. Теорема 5. Единственная точка минимума выпуклой функции глобально устойчива, т. е. к ней сходится любая мини- мизирующая последовательность. Ограниченное множество то- чек минимума X* слабо устойчиво, т. е. всякая минимизирующая последовательность имеет предельные точки и все они принадле- жат X*. А Эти утверждения немедленно следуют из непрерывности /(х) (лемма 3 § 1) и следующего легко проверяемого факта. Лемма 1. Если Qa— {х: f(x)^a} ограничено и не пусто при некотором а для выпуклой функции f (х), то Qa ограничено при всех а. А Количественные оценки устойчивости легко получить для класса сильно выпуклых функций. Напомним определение силь- ной выпуклости, данное в § 1 гл. 1 и относящееся как к глад- ким, так и негладким функциям Цх): найдется I > 0 такое, что f(U + (l -%)z/)CVW + (l— К)\\х ~ у\\2/2 (6) для любых х, у и 0 К 1. Такие функции обладают следую- щими свойствами. Лемма 2. Для сильно выпуклой функции f(x) справедливо неравенство f(y)>f(x) + (df(x), y-x) + l\\y-x\m (7) для всех х, у, при этом f(x) достигает единственного минимума х* и для всех х f(x)>f(x‘) + /||x-x*||2/2. (8) Доказательство. Из определения субградиента имеем f(Xx+ (l-^)i/) = Hx + (l-^(i/-x))>f(x) + (l-X)(^(x)I у-х).
§ 2. УСЛОВИЯ ЭКСТРЕМУМА 127 Подставляя это неравенство в (6) и сокращая на 1—к, полу- чаем (*) + (df (х), у — х) + IX || х — у Ц72. Это верно для всех А< 1; переходя к пределу при А->1, полу- чаем (7). Из (7) следует, что Q— {у: f(y)^f(x)} ограничено, и-из теорем 3 и 4 вытекает существование и единственность х*. Испольуя теорему 1 и (7), приходим к (8). А Неравенство (8) позволяет оценивать близость х к х* по бли- зости f(x) к f(x*). Частный случай оценки (8) для гладких функций мы уже приводили в § 3 гл. 1. Однако нужно отметить, что для негладких задач свой- ство сильной выпуклости, во- обще говоря, не характерно. Есть другой важный класс функций, для которого можно гарантировать устойчивость, причем, этот класс включает только негладкие функции. Бу- дем говорить, что х* — точка острого минимума f(x), если для всех х (рис. 17) f(x)>f(x*) + a||x-x*||, а > 0. Рис. 17. Острый минимум. Такое условие заведомо не может выполняться для гладких функций (упр. 8 § 3 гл. 1). Лемма 3. Следующие условия эквивалентны (9) для вы- пуклой функции f(x): a) f'(x*; у)^ а > 0 для всех у, б) 0 является внутренней точкой df(x*). А С помощью (9) можно оценивать близость х к х*, зная бли- зость f(x) к f(x*). Однако более интересно свойство «сверхустой- чивости» острого минимума,. которого нет для задач с сильно выпуклыми функциями. Оказывается, точка острого минимума не изменяется при малом возмущении функции. Теорема 6. Пусть f(x)—выпуклая функция на R", х* — точка ее острого минимума, g(x)— выпуклая функция. Тогда найдется ео > 0 такое, что при 0 Д7 е < е0 точка минимума функ- ции f(x)-ф eg'(x) единственна и совпадает с х*. Доказательство. По лемме 10 § 1 для ср8(х) = f(х)-|- + eg(x) имеем <Эср8(х) = <ЭДх)+ edg(x). Поскольку 0 — внутрен- няя точка df(x*) (лемма 3), a dg(x*) ограничено (лемма 6 § 1), то при достаточно малом е будет е dg(x*) с: — df(x*), т. е. 0 сд <=<Эфе(х*). По теореме 1 х* — точка минимума ср8(х). &
128 ГЛ. Г, МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ функций Упражнения. 6. Докажите следующее обобщение теоремы 6. Пусть / (х) — выпуклая функция, X* = Argmin j (х) 0 и выполняется условие / (х) 5s f* + ар (х, xi=r" X*), а > 0, где Д = f (х*), х* е X*, р (х, X*) == || х — Рх, (х) ||. Пусть g (х)—вы- пуклая функция, множество X = Argmin g (х) Х-- 0 и ограничено. Тогда Ха — Argmin [f (х) + eg (х)] при достаточно малых е > 0. а п JCeR" 7. Рассмотрите понятие обусловленности точки минимума (§ 3 гл. 1) при- п меиительно к негладким f(x). Чему равно ц для f (х) = ЛЛ xi |, Л/ > 0? I =» 1 § 3. Субградиентный метод 1. Идея метода. Основные алгоритмы минимизации гладких функций — градиентный и Ньютона — были построены на ис- пользовании линейной или квадратичной аппрок- симации функции, зада- ваемой первыми членами ряда Тейлора. Однако для недифференцируемой функции эта идея непри- менима— такая функция не может быть хорошо аппроксимирована ни ли- нейной, ни квадратичной функциями. Другие мето- ды минимизации гладких функций, описанные в гл. 3, также теряют рабо- тоспособность при пере- ходе к недифференцируе- мым функциям. Приведем Рис. 18. Трудности при минимизации не- несколько примеров. гладкой функции. Пусть f(x) = |xj—х2| +0,21 Xi -ф х2| — функция двух переменных. Тогда в точке {1, 1} ее значения по любой из координатных осей возрастают, однако эта точка не является точкой минимума (рис. 18). Поэтому метод покоординатного спуска неприменим для минимизации подобных недифференци- руемых функций. Можно было бы попытаться построить аналог метода ско- рейшего спуска. Назовем вектор s = s(x)e Rn, ||s|| — 1, направ- лением скорейшего спуска в точке х, если по этому направлению
§ 3. СУБГРАДИЕНТНЫЙ МЕТОД 129 функционал }(х) убывает наиболее быстро: s (х) — argmin f(x; у). (1) В силу формулы (12) § 1 для выпуклой функции направле- ние наискорейшего спуска существует и определяется формулой s = -P<5f(x)(O)/||P<5fW(O)||I (2) т. е. $ задается субградиентом с минимальной нормой. Однако можно построить пример выпуклой функции, для которой метод скорейшего спуска xfe+1 = хк + yks (xfc), = argmin f (xk -f- ys (xfe)) Y>0 «застревает», не дойдя до точки минимума. Поэтому разработка методов минимизации негладких функ- ций требует привлечения новых идей. Одна из них, принадлежа- щая Н. 3. Шору, выглядит несколько неожиданно. Пишется прямой аналог градиентного метода с заменой градиента на произвольный субградиент функции: xk+1 — xk— ykdf (хк). (3)' Рассмотрим снова функцию f(x) = |xi— хг |-f-0,21 Xj-f-хг |.. Тогда вектор {1,2; —0,8} является ее субградиентом в точке* {1; 1}, однако движение по нему приводит к возрастанию функ- ции при любом выборе длины шага ук (рис. 18). Таким образом,, значения функции в методе (3) не могут убывать монотонно.. Оказывается, однако, что при этом монотонно убывает другая: функция — расстояние до точки минимума, и в этом-то и заклю- чается основная идея субградиентного метода (3). Вторая осо- бенность метода заключается в правиле выбора длины шага. Ясно, что в (3) нельзя брать у, как в градиентном методе. Например, для функции }(х) = ||х|| имеем ||df(x)|| = 1 для всех х Ф 0, и тем самым будет ||xft+1 — х*|| у, поэтому метод не будет сходиться. С другой стороны, нельзя выбирать ук, как в методе скорейшего спуска — ведь }(х) не обязательно убывает по направлению —df(xft). В субградиентном методе можно уменьшать длину шага, либо используя близость значения функ- ции в текущей точке к минимальному, либо выбирая некоторую априори стремящуюся к 0 последовательность. Рассмотрим ниже оба эти способа. 2. Основные результаты. Пусть f (х)—выпуклая функция и в точке хк можно вычислить некоторый ее субградиент dj(xk). Рассмотрим субградиентный метод в следующей форме: оо Лип Vl~0' <“>
130 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Иначе говоря, из точки х'1 делается шаг фиксированной длины yk по направлению, противоположному субградиенту. Длина шага стремится к 0, а суммарная длина шагов бесконечна. При- мерами последовательностей у*, удовлетворяющих условиям (4), мо:ут служить Т/г = ~Г7“ ’ Y/г — - 0 < р < 1, ук = -~У-— . (5) k + с kx k In k Утверждение о сходимости в теореме 1 (и во многих случаях в дальнейшем) относится к величине Фй = min f (х‘) (6) — «рекордному» значению f(x) за k итераций. Теорема 1. В методе (4) для выпуклой f(x): <рк-+Г = — inf f (х). Подчеркнем, что здесь не требуется ни существования точки минимума, ни даже ограниченности f(x) снизу (возможно, что /*=—00). Доказательство. Предположим, что f (xk)^f для всех k и некоторого f > f*. Выберем точку х такую, что f (х) < f. В си- лу непрерывности f(x) (лемма 3 § 1) найдется р>0 такое, что f (х) < f при || х — х || < Р' В частности, для хр — х-)~ + Р df (х'г)/|| df (xk) || будет f(xp)^f. С другой стороны, f(xp)> >f(xft) + (<9f(x*), Xp-xs)>f+(df(xft), x — xk) + (df (xk), xp — ~ X) = f + (df (xft), x — xfe) + p II df (xfe) II, t. e. (df (xk), xk — - Wil df (Xй) || > p. Оценим теперь расстояние до x в процессе итераций: II 1 - XII2 = II xk - х II2 - 2V& (li-pjip ’ ? " *) + < 11 xk ~ ~ х И2 “ 2yftP + yl Поскольку yft->0, то найдется k0 такое, что Уй^Р при kf^k0. Поэтому при k kQ II xk+l - х||2 <11 xk - - х||2 - уАр. Суммируя эти неравенства по k, получаем р У, yk <||х^ — J?||2, 00 что противоречит условию У, уА = оо. Итак, неравенство f(xk)^ ^f>f* при всех k невозможно, что эквивалентно условию фй f •
§ 3. СУБГРАДИЕНТНЫЙ МЕТОД 131 Можно получить и утверждения относительно сходимости хк в случае непустоты множества точек минимума X* (упр. 1). Ясно, что метод (4) не может сходиться быстро — грубо го- воря, расстояние до точки минимума не может быть меньше длины шага а эта величина убывает медленно, так как со должно выполняться условие = В частности, можно А=0 показать, что в методе (4) заведомо не может быть сходимости со скоростью геометрической прогрессии. Кроме того, выбор у* оо из условий 2j Yfe —00 неудовлетворителен, так как су- fe=O ществует много таких последовательностей и совершенно не ясно, какую из них целесообразно выбрать. Поэтому опишем другие способы регулировки длины шага. В некоторых задачах бывает известно минимальное значение функции (обозначим его f*). Так, например, если систему сов- местных линейных уравнений (а{, x) = bt, f = .l, п, №R", свести к минимизации функции п f(x)=£|(az, х)-М или функции f(x)= max | {а1, х)— &<|, то в обоих случаях f* == 0. Значение f* позволяет построить следующий вариант субградиентного метода, не содержащий произвольных пара- метров: xk+i = xk (7) Геометрический смысл такого выбора длины шага показан на рис. 19. Теорема 2. Пусть f(x) — выпуклая функция на R'1, мно- жество точек минимума X* которой непусто. Тогда в методе (7) Оценка скорости сходимости следующая', для про- извольной функции f lim VfeW)-r)==0; (8) 66 для функции, имеющей острый минимум, можно утверждать сходимость со скоростью геометрической прогрессии.
132 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Доказательство. Пусть х — произвольная точка мини- мума. Тогда II „fe+1 г ||2 '|Г<Л _ ? 1р _ 2 ~ ~ t ) 4- ||Х -XII — ||Х XII 2 ||5f(xfe)||2 , . k |2 (f(xfe)~ Г)2 /А) + IJ^(xfe)[|2 " l|3f(xfe)||2 • ( ’ Отсюда следует, что (f (xk) — f*)/\\ df (xfe) || -> 0. Так как последо- вательность xk ограничена: || хй — х||^||х° — х||, то (лемма 8 § 1) || df (xfe)|| с. Поэтому f(xk)-+f*. Следовательно, найдется под- последовательность xfe«->x*, где х* — некоторая точка мини- мума. Заменяя в полученной г» я1 т° х Рис. 19. Способ выбора длины шага в субградиентном методе. выше оценке х на х*, получаем, что || xk — х* || монотонно убы- вает, а || xfe* — х*||—»0. Отсюда Ь ф X ->Х . Перейдем к оценке скорости сходимости. Из (9) V ~ < оо II df (xk) II2 а из ограниченности || df (xfe) || оо следует У, (f (xk) — f*)2 < оо. Если предположить, что lim д/k (f (xk) — f*) > 0, то f (xk) — f*>aj^Jk Й~>оо для достаточно больших k, что противоречит условию У (f (хк) Г)2 < оо. Итак, lim (f (хк) — f) = 0. Пусть теперь f(x) имеет острый минимум, т. е. f(x) — f* ~ х* Ц2 — (а2/с2) || xk - х* II2 = q || xfe - x* ||2, 9=1 — a2/c2, что и означает сходимость со скоростью геометрической про- грессии. А Знаменатель этой прогрессии может быть, однако, очень бли- зок к 1, если линии уровня функции /(х) сильно вытянуты (т. е. если задача минимизации плохо обусловлена). В случае, когда величина /* неизвестна, метод можно моди- фицировать. Так, можно применять итерационный процесс (10)
§ 3. СУБГРАДИЕНТНЫЙ /МЕТОД 133 где f—некоторая оценка для /*, и на основе поведения xk пере- считывать J. Ранее уже отмечалось, что итерационный процесс (7) можно применять и для минимизации гладких выпуклых функций, при- чем его скорость сходимости того же порядка, что и других «хороших» вариантов градиентного метода (см. (34) § 3 гл. 3). Упражнения. 1. Докажите следующий вариант теоремы 1. Если f (х) выпукла, X* =£= 0 ОО 9 . .. Ь * и Zu Y* < °°, то в методе (4) х -> х е X . fe=o 2. Что можно сказать о поведении следующих методов: a) xk+i = xk — — V df (rfe)/|| df (xfe) IL Y>0; 6) xk+l^xk — ykdf(xk), ^->0, £ Yfe = °°; fe=0 B) xfe+1==rfe — (xfe)/H^(rfe)IL y* = Yo^ <7 < 1: r) rfe+E == xk — — Y (f (xk) “ Г) df Ufe) II df (xk) || . Ответы, а) Метод «сходится с точно- стью до у», т. е. существует функция ф (у) > 0, ф (у) -> 0 при у -> 0, такая, что lim <pfe f* + 4 (у), фь = min f (xi)< б) если || df (х) || с для всех х, fe-»oo 1 <Z < k ' ' то справедливы утверждения теоремы 1; в) для случая острого минимума можно для данного х° так выбрать у0 и q, что метод будет сходиться со скоростью геометрической прогрессии; г) при 0<у<2 справедливы утвер- ждения теоремы 2. 3. е-субградиентный метод. Рассмотрим возможность замены субградиента на 8-субградиент в методах типа (3). Такая за- мена может быть целесообразна, так как в ряде задач вычисле- ние в-субградиента проще, чем градиента (см. лемму 13 в § 1). Наиболее прямолинейный подход связан с заменой <Э/(х) в методе (4) на произвольный 8-субградиент. Однако если е фикси- ровано, то такой метод может не сходиться — например, в соот- ветствии с теоремой 2 § 2 е-субградиент может обращаться в О в любой точке, где значение f(x) отличается от оптимума мень- ше, чем на е, поэтому метод остановится в любой такой точке. Значит, для сходимости нужно изменять е, устремляя его к О в процессе итераций. Таким образом, приходим к методу ь д f (xk) xk+i — xk — Vfe ii—k-i > K'b‘>l 00 Yfe-^O, S Yfe —°°. при k-^oo. (11) fe=o Теорема 3. В методе (11) для выпуклой функции f(х) имеем qpfe = min f (xk) -> inf f (x). i < i -r;, k Доказательство строится по той же схеме, что и в теоре- ме 1, А
134 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ § 4. Другие методы 1. Вводные замечания. Как мы видели выше, субградиентный метод чрезвычайно прост по форме и сходится при минималь- ных предположениях о функции. Однако скорость его сходи- мости может быть мала. Во-первых, для гладких функций он переходит в градиентный метод, отличаясь от его обычных ва- риантов лишь способами выбора длины шага. Но мы уже знаем, что градиентный метод неэффективен для плохо обусловленных функций. Во-вторых, субградиентный метод в форме (4) § 3, как уже отмечалось, не может сходиться быстро (даже со ско- ростью геометрической прогрессии) ни для каких функций. На- конец, вариант (7) субградиентного метода, как следует из до- казательства теоремы 2, также сходится медленно (как геоме- трическая прогрессия со знаменателем, близким к 1) для плохо обусловленных негладких функций. Итак, субградиентный метод не может считаться эффективным средством решения для вы- пуклых недифференцируемых задач, и возникает потребность в более мощных методах оптимизации. В гладком случае такие методы строились на базе метода Ньютона, т. е. на основе квадратичной аппроксимации миними- зируемой функции. Для негладких задач требуются иные идеи. Один возможный подход связан с кусочно-линейной аппрокси- мацией, являющейся естественной для недифференцируёмых функций. Однако множество негладких выпуклых функций слишком «разнообразно», чтобы его можно было хорошо при- близить довольно «бедным» классом кусочно-линейных функ- ций. Поэтому возможности такого подхода ограничены. Впрочем, оказывается, что задача минимизации произвольной выпуклой функции вообще слишком сложна, и в принципе невозможен метод, использующий только субградиенты и быстро сходя- щийся для всех функций данного класса. 2. Многошаговые методы. Простейший путь ускорения сходи- мости связан с использованием информации, полученной на пре- дыдущих итерациях. Пусть уже построены точки х°, ..., xk и в них вычислены субградиенты df(x°), ..., df(xk). В силу соот- ношений f(x*)>f(x‘) + (W), Х*-Х() можно утверждать, что точка минимума х* лежит в области, за- даваемой линейными неравенствами Qk = {х: (df (х!), х - х‘)< Г - f (хг), 1~0, (1) а в случае, если величина f* — f(x*) неизвестна, в более широ- кой области Qfc = {х: (df (хг), х — хг)<0, Z-= 0, ..., &}. (2)
§ 4. ДРУГИЕ МЕТОДЫ 135 Естественно добавить новую точку хАН так, чтобы в том или ином смысле максимально сократить эту область (рис. 20). Де- лается это различными способами. Ниже приводятся различные варианты подобных методов и результаты об их сходимости. Они, как правило, утверждают сходимость величины ср*— f* к 0 с той или иной скоростью, где f = min f (х), <₽/;= min f(x'). x s Rn о < i < k Во всех методах предполагается, что задан многогранник Qo, со- держащий х* — область априор- ной локализации минимума. Обычно в практических задачах легко указать, например, воз- можный диапазон изменения каждой переменной, и этот парал- Рис. 20. Общая схема методов от- сечения. лелепипед можно принять за Qo. В методе отсекающей гиперплоскости в качестве точки xfe+1 выбирается точка минимума кусочно-линейной аппроксимации f(x), определяемой значениями f(х‘) и df(x‘), i — 0, ..., k, на множестве Qo. Иначе гово- ря, хА+!—решение задачи ли- нейного программирования: min z, f (x‘) + (df (x1), x — x!) z, i = 0,..,,k, (3) xsQa. Здесь ге R1 — вспомога- тельная переменная — орди- ната аппроксимирующей функции (рис. 21). В этом методе мы впервые сталки- ваемся с ситуацией, когда в задаче безусловной мини- мизации на каждой итера- ции нужно решать вспомога- Рис. 21. Метод отседающей гиперпло- скости. тельную задачу линейного программирования, т. е. задачу условной минимизации. Та- кая ситуация типична именно для негладких задач, требую- щих кусочно-линейную аппроксимацию. Наоборот, для за- дач с ограничениями, как мы увидим далее, нередко приме- няются методы, основанные на сведении задачи к безусловной минимизации. В этом, вообще говоря, нет противоречия, если
136 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ получающиеся вспомогательные задачи проще исходных. Для оценки эффективности подобных подходов нужно аккуратно оценивать сложность решения вспомогательных задач. Теорема 1. Пусть f(x)—выпуклая функция на R", а мно- жество Qo ограничено и содержит точку минимума х*. Тогда в методе (3) Доказательство. Пусть zk+1, xk+1 — решение задачи (3) тогда zk+} sC max [f (x‘) + (df (x‘), x — x‘)] для всех x e Qo о < i c k - (см. рис. 21) и, в частности, zk+l -Д max^ [/(x‘) + (df (x‘), x* — xJ)]. В силу выпуклости f(x) имеем f (x*) f (x‘) 4- (df (x*), x* — x‘), t. e. f*f^ max [f (x'f 4- (df (xl), x* — хг)]. Сопоставляя полученные неравенства, получаем Zk+i^f*. С другой стороны, f(xft + 1)^r> т. е- 2k+i Г f (xfe+1). Предположим, что f(x®+1)— — zfe+1^e> 0 для всех k Д' k0. Тогда f (xf) f (xk+l) + (df (xft+1), xl — xk+x) f^zk+i + e 4- 4- (df (xk+l), xl — л4+‘) f (xl) 4- (df (xl(, xk+x — xf) 4" e + 4- (df (xk+v), x‘ — xft+1) 43 f (xl) 4- e — 2Л || x‘ — xk+x ||, где L = max || df (x) || (эта величина ограничена по лемме 8 § 1). Отсюда || xk+l — xl ||Дг e/2L для всех i = 0.k и всех k k0. Это противоречит компактности Qa. Поэтому lim (f (xk) — zk) = О, а так как О -Д f (xk) — Г ;Д f (xk) — zk, то lim f(xk) = f*. ▲ fe->OO Вопрос о скорости сходимости метода исследован мало. Для некоторых классов задач (например, задач с острым миниму- мом) он, по-видимому, сходится быстро. Так, для кусочно-ли- нейных задач этот метод конечен. В общем же случае он может сходиться очень медленно. Рассмотрим одномерную задачу minp~1xp, О Д х Д 1, х0 —О, %i — 1. Каждая вспомогательная задача (3) имеет неединственное решение; предполагается, что в качестве x*+i берется наиболь- шее из решений. Тогда Xk+i — xk — р~ххь = qxk, xk — qk~l, q = = 1 — p-1, и для больших p знаменатель прогрессии q близок к 1. Для многомерных задач, по-видимому, нельзя обеспечить линейной скорости сходимости даже для гладких сильно вы- пуклых функций. Недостатком метода является необходимость решать задачу линейного программирования, в которой число ограничений воз- растает. Можно модифицировать метод, устранив этот дефект — грубо говоря, нужно оставлять лишь те ограничения, которые удовлетворяются как равенства. Можно также при решении каждой новой задачи использовать решение предыдущей как
§ 4. ДРУГИЕ МЕТОДЫ 137 начальное приближение — для этого следует перейти к двойст- венной задаче. Другой способ выбора точки xft+1 применяется в методе че- бышевских центров. Здесь предлагается в качестве xk+1 брать чебышевский центр многогранника Q-,, вида (1) или (2), т. е. точку, максимум расстояния которой от граней многогранника минимален. Иными словами, xft+1 — решение либо задачи (4) .....k, x<=Qa, max z, x-x*)+z<0, i = 0 либо, если Г известно, задачи maxz, (пТТГДТ’ + z —0, x^Q0. 4 (5) Можно показать, что для (4) и (5) справедлив аналог теоре- мы 1. Относительно скорости сходимости метода отметим сле- дующее. Нетрудно видеть, что для одномерного случая метод Рис. 22. /Метод чебышевских центров: а) одномерный случай; б) двумерный случай. (4) превращается в метод дихотомии: в качестве xk+1 берется середина наименьшего отрезка с концами в точках х‘, для кото- рого df(x') имеет разные знаки на концах отрезка (рис. 22, а). Отсюда следует, что метод (4), в отличие от (3), не является конечным для кусочно-линейных f(x). Для многомерного слу- чая, как видно из рис. 22, б, скорость сходимости может быть достаточно медленной. Можно точку xk+I строить иначе. Выберем произвольное мно- жество индексов I из набора 0, ..., k. Например, может быть
138 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИИ / = {0, ..., k} или I = {&} или I = {k, k — 1} и т. п. В ка- честве xft+1 возьмем точку, ближайшую к хк и удовлетворяющую ограничениям вида (1) для набора I. Иначе говоря, лМ1— реше- ние задачи min 1| х — xft||2, , . f (х1) Ц- (df (x‘), x — x') Г, is/ (предполагается, что величина f* известна). Вспомогательная задача (6) является задачей квадратичного программирования с минимизируемой функцией вида ||х— а||2. Таким образом, она сводится к проектированию точки хк на многогранник, задавае- мый линейными ограничениями (6). От этой задачи удобно пе- рейти к двойственной — именно, искать решение в виде (см. § 4 гл. 10): ?+1 = ?- (П I / где лг — решение задачи min ГII X df (х() |12 - 4 £ Xj (df (х‘), xk — хг) — И its I i e I -4 £ Mf(x')-D]. (8) Эта задача минимизации квадратичной функции на неотрица- тельном ортанте решается достаточно просто (см. § 3 гл. 7). Ясно, что если 1 — {&}, то метод совпадает с субградиентным методом (7) § 2. Достоинством метода (6) по сравнению с ранее рассматри- вавшимися (3), (4) и (5) является то, что в нем множество / может содержать не все предыдущие индексы, так что вспомо- гательные задачи, решаемые на каждом шаге, могут быть не- большой размерности. К недостаткам его относится необходи- мость знания f*. Наконец, оригинальный подход к выбору xk+i предлагается в методе центров тяжести. Пусть Q,e = {х е= Qo; (df (xl), х — хг)< 0, z=l,...,/z}, (9) xfe+1— центр тяжести Qk. Такой выбор объясняется следующим результатом, относя- щимся к теории выпуклых тел. Лемма 1. Пусть Q — выпуклое тело (т. е. множество с не- пустой внутренностью) в R", а — его центр тяжести, L — гипер- плоскость, проходящая через a, щ и иг — объемы частей, на ко- торые L делит Q (рис. 23). Тогда V / п 1 С I - —гт ) 1----. г = 1, 2, v = V, + а», (10)
§ 4. ДРУГИЕ МЕТОДЫ 189 Для точек, отличных от а, правая часть в (10) может лишь уве- личиться. ▲ Иными словами, объем части, «отрезаемой» от Q гипер- плоскостью, проходящей через центр тяжести, составляет всегда не менее чем е-1 часть от объема Q. Для других точек объем «отрезаемой» части может оказаться меньше. Это и объясняет причину выбора центра тяжести Qk в качестве xk+\ Теорема 2. Пусть f(x)—выпуклая функция на R", Qo — ограниченное, замкнутое выпуклое множество. Тогда в мето- де (9) Ф.-Г < (1ЧГ = > Ч+Ч) с = max (/’ (х) — Г). (11) X е= Q3 Доказательство. В соответствии с леммой 1 объем Vk многогранника Qk удовлетворяет неравенству щр, р = = 1 ~ i J > т. е. vk Д иор*-Возьмем произвольную точку ми- нимума х*е Qi и построим множество S, получающееся из Qk подобным преобразо- ванием с центром в х* и коэффициентом растяжения а = p"i/n, т. е. S — {х: х* -ф ау, x*+yeQj. Тогда его объем v(S) — anVk^ anwopA = Vo- Поэтому множество Qo не может помещаться строго внутри, S и, сле- довательно, найдется г е= Qo, ге S0. Отсю- да следует, что и = (1 — а-1) х* + аЧ ё= Q& (так как г получается из и указанным выше растяжением). Но если то Рис. 23. Лемма о цен- тре тяжести. (в силу определения Qk) найдется I, 1 Д i -С k, такое, что (<ЭДх‘), и — x‘))2s0. Поэтому f (и) Д f(x‘) -ф (df (х‘), и — х‘)^ ^f(xl)^cpk- Используя выпуклость f(x), находим дд -Д f(u)= f((l — а-*)х* -ф а-1г) < (1 - а-1))* + a~lf(z) < f* -ф с/а, с — max (f (х) —• f*), причем с< оо в силу непрерыв- X е Qo ности f(x) и ограниченности Qo. Итак, Для п = 1 множество Qk — отрезок, и xk+x — его середина. Поэтому метод центра тяжести переходит в метод дихотомии. Для п = 2 можно построить способ отыскания центра тяжести, основываясь на том, что центром тяжести треугольника является точка пересечения его медиан, а центр тяжести объединения двух фигур вычисляется по формуле x = axi+(l — a)x2, где х, Xi, х2— центры тяжести И, Аг, А2 (причем А = At IM2), a — = s2/(si+s2), Si, s2 — площади Ль A2. Производя триангуляцию
140 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Qu для п — 2, можно таким образом найти х*+1. Для п > 2 отыскание центра тяжести многогранника превращается в чрез- вычайно громоздкую задачу, и метод вряд ли может быть реали- зован. Однако метод центров тяжести представляет большой теоре- тический интерес. Во-первых, для него удается получить оценку скорости сходимости, зависящую только от размерности пространства и «начальной неопределенности» — величины max f (х) — min f (х), но не от индивидуальных характеристик х г Qo х е Qo функции типа ее обусловленности. Все ранее приводившиеся оценки такими свойствами не обладали. При этом для задач небольшой размерности скорость сходимости достаточно велика. Действительно, из (11) видно, что за пе итераций можно увели- чить точность решения приблизительно в е раз. Таким образом, при п — 10, чтобы получить решение с точностью до 0,1% (т. е. добиться соотношения cpfe — f* С- max (f (х) — f*) 10-3) нужно x s Qo сделать порядка Hlnl03~190 итераций — сравнительно не- большое число. Во-вторых, как мы увидим далее, этот метод является в определенном смысле оптимальным. Упражнения. 1. Покажите, что если Дх)—кусочно-линейная функция, I = {k, ... ..., k — т), а т достаточно велико, то метод (6) конечен. 2. Покажите, что для любой функции Дх) метод центров тяжести не может сходиться слишком быстро — именно, vk е~‘4>о, где vk — объем Qi... 3. Оптимальные методы. Для задачи безусловной минимиза- ции выпуклой функции можно установить потенциальные воз- можности любого метода, использующего лишь субградиенты и значения функции. Имеет место следующий результат, который мы приведем в не совсем четкой, но наглядной формулировке. Теорема 3 (Немировский — Юдин). Для любого метода минимизации функции f(x), xeR”, использующего значения f(x) и df(x), найдется такая выпуклая функция, для которой данный метод сходится (по функции) не быстрее, чем геометри- ческая прогрессия со знаменателем 1 — с/п, или не быстрее чем O(\/^k) равномерно по размерности (здесь с — некоторая абсолютная константа). ▲ Мы не приводим доказательства этого утверждения, так как оно потребовало бы строгого (и достаточно громоздкого) опре- деления понятия «любой метод, использующий значения f(x) и д((х)», уточнения имеющейся априорной информации о функции (начальное приближение, область локализации минимума, гра- ницы для f(x) и df(x) и т. п.). Идея доказательства состоит в том, что при заданных х°, ..., xk, f(x°), ..., f(xk), df(x°), ... ..., dj(xk) строится кусочно-линейная выпуклая функция с ука- занными значениями функции и субградиента в данных точках,
§ 4. ДРУГИЕ МЕТОДЫ 141 йо у которой минимум по возможности сильно отличается от величин f(x‘). Сопоставляя этот результат с полученными выше оценками скорости сходимости, приходим к важному выводу: скорость сходимости метода центров тяжести не может быть по порядку превзойдена ни для какого метода оптимизации, использующего ту же информацию (т. е. значения f(x) и df(x)). Иными сло- вами, этот метод является в (определенном смысле оптимальным, и попытки создать более быстро сходящиеся методы заведомо безнадежны. Однако к этому выводу нужно относиться с осторожностью. Во-первых, он относится к широкому классу «всех выпуклых функций». В действительности редко приходится иметь дело с «произвольными» выпуклыми функциями. Обычно минимизируе- мая функция принадлежит к более узкому классу (например, сильно выпукла, или имеет острый минимум, или имеет вид max ft (х), где ft(x)—гладкие функции и т. д.). Для более узких классов могут существовать и более эффективные методы. Во-вторых, вывод имеет минимаксный характер — найдется функция, «плохая» для данного метода. Однако при минимиза- ции конкретной функции метод может сходиться и значительно более быстро, чем для «наихудшего» случая. В то же время ме- тод центра тяжести сходится одинаково как для «хороших», так и для «плохих» функций. Наконец, при оценке скорости сходи- мости в теореме Немировского — Юдина учитывается лишь чис- ло вычислений f(x‘) и Объем же вычислительной работы по решению возникающих вспомогательных задач не принима- ется во внимание. Поэтому, скажем, трудность отыскания центра тяжести многогранника не учитывается, так как она не связана с дополнительными вычислениями функции и субградиента. В действительности, конечно, метод центра тяжести не может быть рекомендован не только как оптимальный, но и как разум- ный метод оптимизации при п > 2. Все это показывает, что во- прос о выборе метода минимизации, даже при наличии теорети- ческих выводов об «оптимальном» в определенном смысле ме- тоде, остается весьма сложным. 4. Методы с растяжением пространства. Естественна попытка модифицировать метод центров тяжести, устранив его основные недостатки — трудоемкую операцию отыскания центра тяжести и необходимость запоминания df(x‘), полученных на всех пре- дыдущих итерациях, но сохранив скорость сходимости. Это можно сделать следующим образом (рис. 24). Если поместить многогранник Qk внутрь шара, то центр тяжести последнего, ко- нечно, найти легко — он совпадает с центром шара. Выбирая эту точку в качестве xk+i и вычисляя <Э/(х*+1), «отсекаем» поло- вину шара. Оставшуюся половину шара можно вписать в
142 ГЛ. Б. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ эллипсоид минимального объема. Делая линейное преобразова- пне пространства, превращаем этот эллипсоид в шар, после чего процедура повторяется. При таком подходе нет нужды запо- минать сам многогранник О/. и задающие его'ограничения, т. е. величины <Д(Д), г = 0, ..., k. Достаточно на А-м шаге помнить точку хк и линейное преобразование пространства, задаваемое матрицей Hk. При этом приходим к методу эллипсоидов-. x^ = xk — \’kHkdf(x!t), = —£—Г—7=^== Х + 1 \ л/п2 — 1 Yfe== 2 Hk д UK) д (хяГ Hk (12) Здесь р — радиус исходного шара с центром в х°, в котором ло- кализуется точка минимума. Теорема 4. Для метода (12) в пространстве R" справед- лива оценка — с~ max (f (х) — Д), НСр П-1 и+1 q — п (п — 1) 2,1 (п +1) 2п . (13) Рис. 24. /Метод эллипсоидов. Мы не будем приводить подробное доказательство теоремы. Оно основано на том легко проверяемом факте, что объем эл- липсоида минимального объ- ема, описанного вокруг полу- шара (рис. 24), в 2q'/n раз больше объема этого полуша- ра. Поэтому на каждом шаге объем области локализации минимума уменьшается в ql/n раз. Дальнейшая часть доказа- тельства строится так же, как и в теореме 1. ▲ Таким образом, поведение метода (12) сохраняет черты метода центра тяжести (сходи- мость со скоростью геометри- ческой прогрессии со знамена- телем, не зависящим от свойств минимизируемой функции, а лишь от размерности пространства). Однако знаменатель прогрессии здесь ближе к 1, именно, q ~ ~ 1 — 1/ (2п2) вместо q ~ 1 — 1/(еп) в методе (9). Для больших размерностей проигрыш в скорости сходимости значителен, и метод (12) становится малоэффективным. Например, при п — 10 нужно порядка 200 итераций, чтобы увеличить точность (по функции) в е раз, при п = 30— порядка 2000 итераций.
§ 4. ДРУГИЕ МЕТОДЫ 143 В своих работах Н. 3. Шор пришел к методам вида (12) из других соображений. Он предложил объединять субградиент- ный метод с процедурой растяжения пространства. Последняя проводится либо в направлении последнего субградиента, либо в направлении разности двух последних субградиентов. Вели- чина растяжения задается некоторым параметром, выбираемым эвристически. Таким образом (см. упр. 3 и 4) получаются ме- тоды вида xft+1 = xft — ykHk df (xk), С 1 A Hk+l = I 1 2" I Hksk(s!l)T ' ("/• T=) Яо = /, (И) где a*— коэффициент растяжения пространства на й-й итера- ции, определяет длину шага, sk — направление растяжения. Все эти величины могут выбираться различными способами. Например: = V.—a,= (15) (16) s* — df (xk) — df (x&_|), yk = argmin f (xk — yHk df (xh)), v aft = a, (17) где величина f* — minf(x) предполагается известной. Очевидна их связь с методами переменной метрики для ми- нимизации гладких функций, описанными в § 3 гл. 3. Методы пригодны как для гладкой, так и для негладкой оптимизации. Их сходимость для квадратичного случая утверждается следую- щей теоремой. Теорема 5. Пусть f(x) — (Ах, х)/2— (Ь, х), А > 0. Тогда методы (14), (15) и (14), (17) с а — оо конечны: хп = х* = = А-'Ь. А Относительно сходимости и скорости сходимости методов (14) в общем случае известно немного. На основе теоремы Не- мировского— Юдина можно утверждать, что для произвольной выпуклой функции эти методы не могут сходиться быстрее, чем геометрическая прогрессия со знаменателем 1 — 1/(си). Н. 3. Шор рассматривает иной класс функций, удовлетворяю- щих условию N (f (х) - Г) < ^f (х), х - х*) < М (f (х) - Г). (18) Такие функции естественно назвать приближенно-однородными (ср. с. (30) § 3 гл. 3). Для них можно доказать, что если aA^a = (M + M)/(M-M), Л = 2Л4М/(М + М (19)
144 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ то метод (14), (16) сходится со скоростью геометрической про- грессии со знаменателем а1/л: Ф& — /* «С с V ka~k'n. (20) Поэтому, чем ближе М к N (т. е. чем ближе функция к одно- родной), тем больше а и тем более быстро сходится метод, В пределе для однородной функции (М — А) можно взять а = — оо, и метод оказывается конечным — этот факт для квадра- тичной функции (Af = N = 2) уже отмечался в теореме 5. Упражнения. 3. Пусть для некоторого а>0 и seR", ||s|| = 1, Ra(s) —- линейный оператор в R", действующий по формуле Ra (s)x = х -f- (а — l)ssTx. Про- верьте, что Ra (s) — оператор растяжения в а раз в направлении з, т. е. Ra(s)s — as, Ra(s)x = х для (х, s) = 0 4. Покажите, что Hk в (14)—результат последовательного применения операторов растяжения, именно, Hk = PkP^, Pn — I, Р;+1 = PlRa~l(sl). 5. Убедитесь, что при а — 1 (т. е. когда растяжение не производится) метод (14), (16) с л = 1 переходит в субградиентный метод (7) из § 3. 6. Докажите теорему 5 и сопоставьте ее с результатами § 3 гл. 3. Что означает выбор ах, = оо? § 5. Влияние помех 1. Постановка задачи. Рассмотрим поведение субградиентного метода минимизации выпуклой функции f(x) на R” при наличии помех. Пусть xk+l — xk — yksk, sk — df (x!-) -f- rk. (1) Здесь rk — помехи, наложенные на субградиент. Их природа может быть различна — погрешности вычисления, ошибки изме- рений, приближенные формулы и т. д. С формальной точки зрения помехи могут быть абсолютными или относительными, де- терминированными или случайными. Проанализируем различ- ные типичные случаи. Нас будут интересовать вопросы сходи- мости, оценки скорости сходимости, а также разумные способы выбора т. е. те же задачи, которые в гл. 4 решались для гладкого случая. 2. Абсолютные детерминированные помехи. Пусть ошибки вычисления субградиента удовлетворяют условию (2) где е — абсолютный уровень помех. Как мы видели, в гладких задачах такие помехи приводили к нарушению сходимости — градиентный метод сходился лишь в некоторую окрестность ми- нимума, размеры которой зависели от е и от обусловленности задачи. Для негладких задач ситуация может оказаться иной — при низком уровне помех в случае острого минимума сходимость
§ 5. ВЛИЯНИЕ ПОМЕХ 145 может сохраниться при специальном способе выбора Это является следствием того, что df(x) не стремится к 0 при при- ближении к острому минимуму. Теорема 1. Пусть f(x)— выпуклая функция на R", х* — ее точка острого минимума, т. е. f(x)— f(x*) ос||х — х*||, а > 0. Пусть в (2) 8 < а. Тогда для всякого х° найдутся числа уо > 0, q < 1, такие, что в методе (1) при = yoqk будет || xk - х* II < II х° - х* II qk. ▲ (3) Чтобы воспользоваться приведенным в теореме 1 способом выбора длины шага, нужно располагать подробной информа- цией о задаче (иметь оценки для L, а, в, ]|х° — х*||). При отсут- ствии таковой неправильное назначение уо и q может привести к остановке метода не в точке минимума. Мы не будем обсуж- дать более реалистические способы регулировки длины шага — для нас важнее принципиальная возможность сходимости суб- градиентного метода для негладких задач при наличии абсолют- ных помех со скоростью геометрической прогрессии. 3. Относительные детерминированные помехи. Пусть задан относительный уровень помех: ||rft||<a||5f(xft)||. (4) В гладких задачах сходимость имеет место при любом a < 1 (теорема 2 § 2 гл. 4). Негладкие функции вновь вносят свои особенности. Приведем вкратце анализ сходимости. Условие псевдоградиентности алгоритма (1) относительно функции Ля- пунова V (х) = || х - х* ||2/2 (5) имеет вид (sft, xk — х*)^0. Но (sk, xk — х*) — (df (х/е) + rft, xfe — x*) (cos (fk — a) || df (xk) |||| xk — x* ||, где ср* — угол между df (xk) и xft — x‘, 0 л/2. Поэтому, если 0 ф < л/2, a cos <p, (6) то условие псевдоградиентности выполняется. Условие (6) су- щественно более ограничительно, чем условие a< 1. Чем хуже обусловленность функции, тем меньше cos <р и тем чувствитель- нее метод к относительным помехам. На рис. 18 видно, что даже малая ошибка в определении направления субградиента приводит к тому, что это направление не приближает к точке минимума. По этой причине кажущееся естественным обобще- ние субградиентного метода xk+} = xk — yhHdf (xk), (7) где Я>0—некоторая матрица, вообще говоря, может и не сходиться.
146 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ 4. Абсолютные стохастические помехи. Пусть помехи rk слу- чайны, взаимно независимы, центрированы и имеют ограничен- ную дисперсию: Mrft = 0, М || rk ||2 < <т2. (8) Теорема 2. Пусть f(x) —выпуклая функция, ||df(x)||^c для всех х, существует точка минимума х*, выполняется усло- вие (8) и оо оо (9) fe=0 k=0 Тогда в методе (1) min f(x')^/U*) («• я.). А О I << k Таким образом, здесь, как и для гладкого случая, при аддитив- ных случайных помехах любого уровня имеет место сходимость, если уь удовлетворяет условию (9). Различие гладкого и не- гладкого случаев заключается в том, что в первом наличие по- мех приводит к необходимости изменения способа регулировки длины шага (приходится выбирать у^->-0 вместо yft==y), во втором же нет столь сильной разницы между ситуациями с по- мехой и без помех (и в той, и в другой ситуациях следует брать уь~>0). Относительно скорости сходимости в условиях (8) не все ясно. Если f(x) сильно выпукла, то, выбирая — y/k при достаточно большом у, можно добиться сходимости порядка О(1/й); это доказывается по стандартной схеме. Однако в более типичной для негладких задач ситуации с острым минимумом скорость сходимости недостаточно исследована. Упражнение. 1. Покажите, что если f(x) имеет острый минимум с константой I, то для всех х из области S = {х: j| х — х* ||sgp} справедливо неравенство (df(x), х — х*) Щ (IIL) || <?f(x) || || х — х* ||, где Л—-max || df (х), т. е. выполняется (6) с cos <р = 1/L. § 6. Поисковые методы Рассмотрим задачу минимизации выпуклой функции f(x) в ситуации, когда единственной доступной информацией о f(x) являются ее значения в произвольной точке. 1. Одномерный случай. Поиск минимума одномерной выпук- лой функции f(x) на отрезке [a, fcjczR1 легко организовать на основе следующего геометрически очевидного соображения (рис. 25, а)). Если вычислены значения f(x) в двух точках xi, Хч, a х\ < х2 < Ь, то точка минимума х* не может находиться на отрезке [a, xj, если f(xi)> f(x2), и на отрезке [х2, Ь\, если f(x2)>f(xi) (если f(х,) = f(х2), то одна из точек минимума принадлежит (xi, х2]). Поэтому после вычисления двух значе-
§ 6. ПОИСКОВЫЕ МЕТОДЫ 147 ний функции область локализации минимума может быть сокра- щена. Простейший алгоритм, реализующий эту идею, расстав- ляет точки на каждом отрезке симметрично относительно его центра (рис. 25, б)): а0 = а, b0 = b, ek — a(bk — ak)/2, 0<а<1, П) _ Г ак, если f ((ak + bk)/2 — ek)<f ((ak + b^/2 + ek), G/i+1 ( (ak + bk)/2 — ek в противном случае, ( bk, если f ((ak + bk)/2 — ek) > f ((ak + bk)/2 + ek), ft+1 1 (flk + bk)/2 + в/i в противном случае, ak+i~(ak + bk)/2~ek, | 6t+i = fe + M/2 + 84, J еСЛИ ^^ + b^2' — f (tak + bk)/2 + Bfe). Очевидно, 0 h/,+! — aft+1 (1 + a) (bk— ak)/2, так что длина отрезка, на котором локализуется минимум, сокращается на а) Рис. 25. Одномерный поиск. каждой итерации примерно в 2 раза, если <х мало. Ясно, что (1) при а <С 1 есть просто разностный аналог метода дихото- мии (§ 3). Можно поступить более экономно, если использовать вычис- ленные ранее значения функции (одно из них на [as+i, b?e+i] за- ведомо найдено на предыдущей итерации). При этом, если вы- брать а из соотношения (1 + а)/2==₽, р2=1- ₽, p = (V5-l)/2 (2) (уравнение «золотого сечения» отрезка), то одна из точек (aft+i + bk+i)/2 ± efe+i будет совпадать со старой (ak + Ьк)/2 Ф Ък, т. е. каждая итерация будет требовать лишь одного вычис- ления функции. При этом в методе деления пополам ((1) с а< 1) за одно вычисление функции отрезок сокращается в
148 гл. s. Минимизация недифФеренцируёмых Функций д/2 1,41 раза, а в методе золотого сечения (1), (2) в 2/(1 + «) = (д/5 + 0/2 ~ 1,62 раза, что несколько лучше. Можно выиграть и чуть больше, если сделать а зависящим от k. Именно так поступают в методе Фибоначчи, подробно опи- сываемом во многих книгах (например, [0.2, 0.8, 0.18]). Не- трудно видеть, что все описанные выше методы отыскивают ми- нимум не только выпуклой, но и любой унимодальной функции (т. е. такой, для которой локальный минимум совпадает с гло- бальным). Про метод Фибоначчи можно показать, что он со- кращает длину отрезка локализации в расчете на одно вычис- ление функции наиболее быстро, именно, он является оптималь- ным в минимаксном смысле в классе унимодальных функций. Тем не менее методом Фибоначчи редко пользуются на практике по следующим причинам. Во-первых, он дает совсем небольшой выигрыш по сравнению с методом золотого сечения. В то же время он связан с дополнительными вычислениями для построе- ния новых точек. Во-вторых, в нем требуется заранее выбрать число итераций, которые будут осуществлены. Поскольку есте- ственным критерием окончания процесса одномерной минимиза- ции является близость полученного значения функции к мини- мальному, а не размер области локализации минимума, то за- ранее определить нужное число шагов затруднительно. В-тре- тьих, он оптимален лишь в минимаксном смысле, т. е. в расчете на «наихудшую» унимодальную функцию. Для конкретных функций более быструю сходимость могут дать другие методы. Все это лишний раз показывает, сколь осторожно нужно от- носиться к теоретическим выводам об оптимальности методов (ср. выше п. 3 § 4). 2. Многомерный случай. Большинство идей, лежащих в ос- нове поисковых методов минимизации гладких функций (§ 4 гл. 3), не переносятся на негладкий случай. Так, методы после- довательной одномерной минимизации типа покоординатного спуска, как мы уже видели (см. рис. 18), могут не сходиться для недифференцируемых функций. Идеи локальной линейной или квадратичной аппроксимации минимизируемой функции также не работоспособны. С другой стороны, субградиентный метод (§ 2) и его обобщения (§ 3) нельзя применять, если за- менить субградиент на его конечно-разностную аппроксима- цию— мы уже отмечали (§ 4), что субградиентный метод, во- обще говоря, неустойчив по отношению к детерминированным погрешностям. Наконец, описанный выше одномерный поиско- вый метод не просто перенести на многомерный случай. Дело в том, что, вычислив функцию в нескольких точках, трудно ло- кализовать область минимума в многомерном случае. В силу указанных выше трудностей в настоящее время известно срав- нительно мало теоретически исследованных и обоснованных поисковых методов минимизации негладких функций.
§ 6. ПОИСКОВЫЕ МЕТОДЫ 149 Опишем один из них, идея которого весьма проста и перспек- тивна. Для задачи минимизации выпуклой функции f(x) на R" он имеет вид х&+1 = xk — Л гк sk=bk' [f (У + akgk + dA/ife) — f (xk + ctfe^)] hk, где gk, hk — независимые случайные векторы, равномерно рас- пределенные на кубе Q = {х: |х/| '' 1, i — 1, ..., п}, ак, б&, уй — некоторые числовые последовательности. Иначе говоря, делается шаг случайного поиска (по направлению hk), но не из точки xk, а из «рандомизированной» точки xk -ф a,kgk. Благодаря введению такой рандомизации происходит как бы сглаживание исходной функции. Можно показать, что М (sk | xk) = cVf (xk, ak) + || || < Cj (4) где f(x, a) — сглаженная функция, f(x, a) = 5 f(x + dlJ’ Q причем f(x, <x) является выпуклой дифференцируемой функцией, градиент которой удовлетворяет условию Липшица с константой сл/п!ак. Таким образом, (3) может рассматриваться как гра- диентный метод минимизации сглаженной функции (5) при на- личии помех. Регулируя коэффициент сглаживания aft, длину пробного шага и рабочего шага у,л, можно добиться сходимо- сти метода. Именно, если оо оо (6) a*->0, |a* — aA+I |/ys->0, то метод сходится с вероятностью 1 к множеству точек мини- мума (если последнее непусто). Аналогичным образом про- цедура сглаживания путем рандомизации может быть приме- нена для построения других методов. Разумеется, скорость сходимости метода (3) очень мала. За- дача построения эффективных поисковых методов минимизации негладких выпуклых функций в многомерном случае остается открытой.
Глава б ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ, НЕСТАЦИОНАРНОСТЬ В практических задачах редко приходится иметь дело с той идеализированной ситуацией, которая рассматривалась в гл'. 1 и 3. С двумя возможными осложнениями (наличие помех и от- сутствие дифференцируемости) мы уже познакомились в пре- дыдущих главах. Перейдем к анализу других причин, затруд- няющих решение задач безусловной оптимизации — вырожден- ности минимума, многоэкстремальности и нестационарности. Нас будет интересовать как поведение стандартных методов в подобных ситуациях, так и специальные приемы преодоления упомянутых трудностей. § 1. Вырожденный минимум В гл. 1 и 3 мы исследовали методы оптимизации, в основном для случая невырожденного минимума (т. е. в предположении, что в точке минимума х* Xzf (х*) > 0). Откажемся от этого пред- положения. 1. Поведение стандартных методов. Изучим поведение прос- тейшего градиентного метода безусловной минимизации диффе- ренцируемой функции f(x): xk+' — xk — yXf (xk) (1) в ситуации, когда невырожденность точки минимума не предпо- лагается, но зато f(x) выпукла. Мы уже знаем (теорема 1 § 4 гл. 1), что при минимальных предположениях Vf(xft)->0 для (1). Оказывается, для выпуклых функций справедлив более сильный результат. Теорема 1. Пусть f(x)—выпуклая дифференцируемая функция в R", градиент которой удовлетворяет условию Лип- шица с константой L, а множество точек минимума X* = = Arg min f (х) непусто. Тогда метод (1) с 0 < у < 2/L сходится х е Rn к некоторой точке х е Г, f (х) = /*, причем f(xk)_r==om (2) Доказательство. Используем неравенство (лемма 2 § 4 гл. 1) (Vf(x) — Xf(y), х — £/)> L_1||Vf(x) — Vf(i/)||2, справедли- вое для выпуклых функций, у которых градиент удовлетворяет условию Липшица с константой L. Отсюда (Vf(x), х — х);>
§ I. ВЫРОЖДЕННЫЙ МИНИМУМ 151 L_,||Vf(х) II2, где х — произвольная точка минимума. Поэтому || xft+1 — х ||2 = || xk — St ||2 — 2у (Vf (xfe), хк — + у21| Vf (xft) ||2 =C|| xfe — ||2 — у (2/A — y)|| Vf (x4) ||2. (3) Суммируя no k, получаем, что при 0 < у < 2/Л Е II Vf (х4) ||2 < оо, (4) fe=0 т. е. Vf(x4)->0. Последовательность хк ограничена, так как ||xft— х||^||х°— х||, поэтому можно выбрать сходящуюся под- последовательность xk‘ —>х. В силу непрерывности Vf(x) при этом Vf (х) = 0, т. е. х е X*. Заменяя в (3) х на St, получаем, что х4—>х. Оценим теперь скооость сходимости по функции. Имеем (см. (9) § 4 гл. 1) f(x4+’)<f(x4)- <z||V/(xfe)||2, а = у(1 — Ly/2) > 0. В силу выпуклости f(x): f(xk)—f* ^(Vf (xft), xft — x) <1 IIW (xk) ||||x* — x||. Поэтому для uk = f(xk)— f* получаем Uk+\ uk — a||x4— x ||~2ц2, и применение леммы 6 § 2 гл. 2 дает / k~l \-1 ku^\~^k+a/k~х'I~2) • Поскольку по доказанному ||х*— х||->0 при г->оо, то k—1 ||хг — X ||-2->ОО и k~ Е||хг-х|Г2->0° при k-^OO, поэтому i-0 правая часть последнего неравенства стремится к 0 при k-^oo. Это и означает, что ик = о(1/£). А Отметим, что точка хеХ*, к которой сходится xk, не может быть указана заранее. Так, она может быть различна для раз- ных у (при фиксированных х°) и не обязательно совпадает с х* — точкой из X*, ближайшей к х°. Однако х не может быть слишком далека от х*. Действительно, заменяя в (3) х на х*, получаем ||х& — х*|| ||х° — х*||, т. е. || х - х* || < || х° - х || = р (х°, X*). (5) Из теоремы 1 следует, что градиентный метод сходится (в выпуклом случае) без всяких предположений о невырожден- ности минимума. При этом по функции гарантируется скорость сходимости порядка о(1/£). Однако скорость сходимости по пе- ременным может быть существенно меньше. Пусть, например, f (х) = р-1 |х|р при |х|^1, f(x) = |x| при |х|> 1, р > 2, X S R1. Тогда f(x) удовлетворяет условиям теоремы 1, х‘ = 0и
152 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ из (1) имеем |х*+1| = |х*— у(х*)р-1| при |х°|^1. Используя результат упражнения 3 § 2 гл. 2, находим, что при 0 < у < 2 будет |х&| = О(/г~|/(Р-2)). Таким образом, выбирая достаточно большое р, получаем, что для любого а > 0 существует такая функция f(x), для которой градиентный метод сходится мед- леннее, чем k~a. Отметим, что для этого же примера f(xk) = = О (й-рАр-2)) , что согласуется с оценкой (2) и демонстрирует невозможность ее существенного улучшения. Рассмотрим более подробно вопрос о поведении градиент- ного метода для квадратичной функции: f (х) = (Ах, х)/2 — (Ь, х), Л > 0. (6) Хотя задача минимизации f(x) невырожденная (так как А > 0, то точка минимума х* существует, единственна, глобально устой- чива, a f(x) сильно выпукла), нас будет интересовать случай плохо обусловленной задачи, который в определенном смысле близок к вырожденному. Пусть L и I-— наибольшее и наимень- шее собственные значения А, p = 1. Как мы знаем (тео- рема 3 § 4 гл. 1), при выборе у = 2/(Л-|-/) (такой выбор яв- ляется наилучшим) для градиентного метода (1) справедлива оценка ||х* — х*|| ||х°— х*||^, q = (L— I)[(L + I) — (ц—1)/ /(ц + 1), и эта оценка неулучшаема (см. примеры после упомя- нутой теоремы). Поскольку 2(f(xk)— f*) — (A(xk—х*), хк—х*) ||Л||||х*— х*||2^Л||х°— x*\\2q2k, то можно гарантировать схо- димость по функции со скоростью геометрической прогрессии со знаменателем q\ == q2. Однако для плохо обусловленных задач 1, и Qi « 1—4/ц очень близко к 1. Оказывается, можно получить оценку скорости сходимости по функции, не зависящую от обусловленности. Теорема 2. Метод (1) для минимизации (6) при 0 < у < < 2/L сходится к х*, причем для достаточно больших k f _г< ii*0-**и2 (1__________!_УЙ< II*0-**II2 I (х ) I ^2у(2А+1)\1 2k+lJ 4уей ‘ у' Доказательство. xk — X* = (I — уЛ)й (х° — X*), 2 (f (xk) - П = (A(I — у Л)2* (х° - х*), х° - х‘) < < II х° - х* ||21| А (I - уЛ)2й || < || х° - х* ||2 max IА (1 - уЛ)ж | < ^||х° — х* II2 max <р (А,), где <р(А)= А(1—yZ)2ft. Поскольку корнями <р'(%) являются М — 1 /т и Х2 — 1/(у (2k + 1)) и <p(%i) = 0, ф(0) = 0, то макси- мум <р(Х) на [0, Л] может достигаться либо при Л, = %2, либо
§ 1. ВЫРОЖДЕННЫЙ МИНИМУМ 153 при 1 = L. Так как ф(М= y(2*+ 1) С1 — 2Й+ 1 ) 2yek ’ <p(L) = L(l — yL)2k, а |1—yL|<l, то для достаточно больших k будет max <р(Л) = <р(Л2), что 0<А,<Ь и дает (7). ▲ Таким образом, можно гарантировать оценку типа f(xft)— — f*^.c/k, где константа с не зависит от обусловленности. Что же касается скорости сходимости по аргументу, то здесь нельзя получить никакой «равномерной по обусловленности» оценки. Именно, для любого 0 < а < 1 и любого k можно по- строить такую квадратичную функцию вида (6) и такое началь- ное приближение х°, что будет ||х* — х*|| > а||х°— х*|| для ме- тода (1) при любом у. Более того, здесь достаточно брать п=2, а множество таких х° достаточно «обширно». Перейдем к анализу другого стандартного метода миними- зации— метода сопряженных градиентов (§ 2 гл. 3). Вопрос о его поведении для случая вырожденного минимума в общей си- туации не исследован; по-видимому, основное достоинство ме- тода— его быстрая сходимость — здесь теряется. Рассмотрим лишь случай квадратичной функции (6), причем будем предпо- лагать, что размерность задачи велика (так что мы не можем воспользоваться результатом о конечности метода). В (30) § 2 гл. 3 была найдена оценка скорости сходимости метода: 11^-%Ч<2(л/№°-Л1<А ? = (Vh- i)/(Vh+ 1). Здесь знаменатель прогрессии q зависит от обусловленности и близок к 1 для плохо обусловленных задач. Как и выше, полу- чим оценку скорости сходимости по функции, не зависящую от обусловленности. Теорема 3. В методе сопряженных градиентов для функ- ции (6) справедлива оценка Доказательство. В соответствии с (27) § 2 гл. 3 xk _ х* = pk (Д) (Хо _ х*); где РДХ)—полином /?-й степени, обладающий свойством 2 (f (хк) - П = (APk (Л)2 (х° - х), х* - х’) = = min (AR (А)2 (х° - х*), х° - х‘), (9)
104 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ где 5? — множество полиномов R(k) k-й степени, удовлетворяю- щих условию R (0) = 1. Возьмем (2* +1) (Vx/VD ’ (Ю) где Тк (х) — cos (k arccosx) — полином Чебышева. Поскольку ^2й+1(х) содержит только нечетные степени х, то R0(x) = — (Vx)/Vx является полиномом /г-й степени от х, Ra(0) — = Т'2к+1 (0) = 4k + 1. В соответствии с этим Итак, 2 (/ (xk) - Г) < (Л/?* (Л)2 (х° - х*), х° - х*) < ^||х° —х*||2 max | KR* (Л)21 = £||х° —х*||2 т ( L || х° — х* II2 1-1 ' шах л ob_Li I - I ) (2Й+1)2 0<ь<£, 2й+1\717 (2Й + 1)2 поскольку max | Тк (х) | = 1. ▲ 0<х<1 Мы видим, что независимо от обусловленности задачи метод сопряженных градиентов гарантирует достаточно высокую ско- рость сходимости по функции типа О (/г-2) вместо О (/г-1), как в градиентном методе. Оценку (8) усилить нельзя. Так, для вся- кого k можно построить такую квадратичную функцию в прост- ранстве Rn, п — k -ф 1, и указать такое х°, что f (хй) - f* = L ||х° - х* Ц2/(2 (2* + I)2). Более того, можно показать, что любой метод минимизации ква- дратичных функций, использующий лишь информацию о гра- диентах, не может дать скорости сходимости более высокой, чем в (8), равномерно по размерности п и по всему классу квадра- тичных функций f(x). Что же касается скорости сходимости по аргументу метода сопряженных градиентов, то здесь нельзя получить никаких оце- нок, не зависящих от обусловленности и размерности. Любопытно сопоставить с полученными результатами те оценки скорости сходимости по функции, которые мы имели ра- нее для негладкого случая. Для субградиентного метода в фор- ме (7) § 3 гл. 5 справедлив результат о сходимости (теорема 2 § 3 гл. 5), аналогичной теореме 1. Скорость сходимости, од- нако, более медленна, чем в гладком случае — в соответствии с (8) § 3 гл. 5 f(xk} — f* убывает как о(£~1/2). Для метода эл- липсоидов (12) § 4 гл. 5 была доказана линейная сходимость по функции (теорема 4 § 4 гл. 5). Знаменатель прогрессии при этом зависел от размерности, но не зависел от каких-либо
§ I. ВЫРОЖДЕННЫЙ МИНИМУМ 156 характеристик функции типа обусловленности. Поскольку для гладкого вырожденного случая мы нигде не имели ли- нейной скорости сходимости, то можно ожидать, что в зада- чах небольшой размерности целесообразно применять метод эллипсоидов и при минимизации гладких плохо обусловленных функций. В заключение этого пункта — несколько слов о поведении метода Ньютона в вырожденном, случае. Прежде всего, этот метод не всегда будет корректно определен, так как матрица Tf(xk) может оказаться вырожденной в сколь угодно малой ^йрестности х*. Поэтому метод неприменим для решения вы- рожденных задач. Существует более узкий класс задач, в кото- рых эта трудность отсутствует. Именно, пусть V2f(x)>0 для Всех точек % х* из окрестности х*, а в самой точке х* матрица (х*) О не имеет обратной. Тогда при некоторых дополни- тельных предположениях метод Ньютона будет сходиться. Од- йако скорость сходимости будет существенно ниже, чем в не- вырожденном случае. Пусть, например, f(x) = |x|p, р > 2, xeR1. Тогда f'(x) = p|x|p-‘ signx, f"(x) = p(p — 1) |x|p-2, f"(x)>0 при x =й= 0 и f"(x*) = f"(0) — 0. Метод Ньютона при Хо > 0 принимает вид x*+i = хк — (р — 1)-’хА = qxk, q — =г(р — 2)/(р — 1)< 1. Отсюда Хк == qkXo, т. е. в данном случае метод Ньютона сходится со скоростью геометрической прогрес- сии, знаменатель которой близок к 1 при больших р. Конечно, STO гораздо хуже, чем квадратичная сходимость, которая имела место в невырожденном случае. В других примерах (см. упр. 4) скорость сходимости может быть еще меньше. Подводя итог, можно сказать, что в основном стандартные методы минимизации остаются сходящимися при поиске вы- рожденного минимума гладкой выпуклой функции. Однако ско- рость сходимости падает, иногда существенно. Упражнения. 1. Для фиксированного числа шагов k укажите наилучшнй способ выбора параметра у в методе (1) для минимизации (6), исходя из оценок, получен- ных при доказательстве теоремы 2. Указание. Выберите у так, чтобы 'минимизировать- max Л (1 — уЛ)2Ьпри известных k, L. 0<X<L 2. Рассмотрите градиентный метод вида х‘+1 = хк — у/г V /(х‘) для мини- мизаций (6) и выберите (при фиксированном числе шагов k и известной кон- станте L) у/, —1, так, чтобы выполнялись те же оценки для /(х*)—jF», что и в методе сопряженных градиентов. Указание. Решите задачу минимизации по у/, 0 < i < k— 1, величины max 0 <?, < L 8. Рассмотрите случай квадратичной ((х) с Л >0 и непустым множе- ством точек мййимума. Покажите, что для нёго справедливы все: результаты б сходимости и скорости сходимости, полученные в ЗТОм параграфе для Л > 0. 4. Исследуйте скорость сходимости метода Ньютона для функции f(*) = exp (—х_|), х as R1, в окрестности точкй мйнимума х* «= 0. fe-1 ЛП(1-У/Л)2.
156 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ 2. Специальные методы решения вырожденных задач. 1°. Метод регуляризации. Пусть задача минимиза- ции выпуклой гладкой функции f(x)—«плохая», например имеет вырожденный минимум. Тогда можно немножко изменить задачу, добавив к7(х) «хорошую» функцию g(x) с малым «ве- сом». Найдя точку минимума «улучшенной» функции f(x)-f- -f-8g(x), можно устремить параметр 8 к 0. Естественно на- деяться, что последовательность найденных при этом точек ми- нимума будет сходиться к решению исходной задачи. В этом заключается идея метода регуляризации. Величина 8 называ- ется параметром регуляризации, функция g(x)— регулярную- щей функцией. Сначала рассмотрим метод регуляризации в «идеализирован- ном» варианте, когда минимум вспомогательной задачи отыски- вается точно. Теорема 4. Пусть f(x)'—выпуклая непрерывная функция в R", имеющая непустое множество точек минимума X*, a g(x)— сильно выпуклая непрерывная функция. Пусть х8 = argmin Ф8(х), Ф8 (х) = f (х) + eg (х), е > 0. (11) Тогда х8-*х* при s->-f-O, где х* — та из точек минимума f(x), для которой g(x) минимальна, т. е. х* = argmin g(x). х е X* Доказательство. Функция f -f- eg сильно выпуклая, по- этому точка х8 существует и единственна. Далее, из определе- ния х8 для произвольной точки х е X* получаем /(х8) + sg(x8) + f(x)^f(xs), т. е. g(xe)^g(x), а потому и g(xe) g(x*). Так как g(x) сильно выпукла, то множество {х: g(x)^a) ограничено, т. е. совокупность х8 ограничена. Вы- берем подпоследовательность хе., сходящуюся к некоторой точ- ке х. Так как f(x) и g(x) непрерывны, то lim g (хе.) — g (х), т. е. g (х) g (х*)> а переходя к пределу в неравенстве f (x8;) + + ezg(x8/)<f (х*) + eg (х*), получаем f(x)^f(x*). Таким обра- зом, хеХ*, и из неравенства g(x)^g(x*) и определения х* следует, что х = х*. Итак, х8. -» х*. Но Ze|]xe — х*||2 s(g(x*)— — g(x8)), т. е. вся последовательность х8 сходится к х*. ▲ Конечно, воспользоваться методом регуляризации в описан- ном выше виде, как правило, не удается из-за невозможности точного решения вспомогательной задачи. Один из немногих случаев, когда такое решение в принципе можно найти, связан с квадратичными функциями. Пусть f(x) = (Ax, x)/2 — (b, х), где А 5г 0, и пусть f(x) достигает минимума на R" на непустом множестве X*. Пусть g(x) = (Д(х— а\, х— а)/2, где Д>0. (12)
§ I. ВЫРОЖДЕННЫЙ МИНИМУМ 157 Тогда в методе регуляризации на каждом шаге минимизируется квадратичная функция, и поэтому хе = (Л+ еВ)'’(6 + еВа). (13) В силу (12) матрица А-\-еВ имеет обратную при любом е > 0. Из теоремы 4 следует, что хЁ-> х* еХ*, где х* — argrnin g (х). х <= X* В частности, когда 'В — 1, а = 0 (т. е. когда регуляризатор имеет вид g(x) = ||х]]2/2), то х* — точка минимума f(x) с наи- меньшей нормой (она называется нормальным решением за- дачи). В этом случае хе = (А + г1)'1Ь. (14) Метод регуляризации для квадратичной задачи тесно связан с понятием так называемой псевдообратной матрицы. Пусть С — произвольная матрица размерности т'Х.п (не обязательно квадратная). Тогда функция f(x) = ||Cx-af||2, хеГ, (15) достигает минимума на Rn (см. упр. 2 § 3 гл. 1). Точка мини- мума f(x) с наименьшей нормой (нормальное решение, обозна- чим его х*) единственна. Можно показать, что х* линейно зави- сит от d: x* = C+d, (16) где С+—некоторая матрица размерности п%т, называемая псевдообратной к С. Из теоремы 4 и равенства (14) следует, что С+ = lim (CrC + eZ)-,Cr. (17) s-»+ 0 Другие свойства операции псевдообращения приведены в упр. 6. Вернемся к методу регуляризации. Ясно, что чем меньше е, тем ближе хЁ к решению, так что, казалось бы, выгодно брать очень малые е. Однако мы увидим в дальнейшем, что из-за влияния погрешностей в вычислении функции и градиента, а также из-за ошибок округления при решении вспомогательной задачи выбирать слишком малые е нельзя. Поэтому возникает вопрос о точности решения, даваемого методом регуляризации, при конечных е. Приведем примеры, показывающие, что ||хЁ— х*|| может быть велика даже для малых е. Пусть f(х) = p~lxp, .reR1, р > 2, g(x) = (x—1)2/2. Тогда х*= 0, и нетрудно оценить, что |хе— х*| = |хЁ| « е'Лр"1). Поэто- му, если р велико, то |хЁ— х*| сравнительно велико даже для маленьких 8, Так, при р==7, е = 10~6 получаем |хЁ— х*|« « ю-1.
158 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ 2°. Проке-метод. Метод регуляризации для регуляризую- щей функции g(x)~ ||х— аЦ2/2 записывается в форме Xй = x8fe = argmin (f (х) + (eft/2) || х — а ||2), zk -> 0. Можно попытаться поступить иначе — на каждом шаге менять не параметр регуляризации ek, а точку а, заменяя ее на хк. Та- ким образом приходим к методу хй+1 = argmin (f (х) + -i-в[| х — Xй ||2) , е > 0. (18) Этот метод называется проксимационным (или прокс-методом), поскольку он тесно связан с так называемым проксимационным отображением. Пусть f(x)— выпуклая функция на R", &>0— некоторый параметр. Тогда оператор Prox а = argmin Q (х) + у в [| х — а ||2) называется проксимационным. Его свойства и явный вид для ряда примеров приведены в упражнениях 7 и 8. Во введенных обозначениях метод записывается таю хй+1 = Ргох хй. (19) Теорема 5. Пусть f(x) — выпуклая функция на R", имею- щая непустое множество точек^ минимума X*, в > 0. Тогда ме- тод (13) сходится к некоторой точке х* е X*. Доказательство. В соответствии с упр. 7 функция ф (а) = inin [f (х) + ‘/а е || х — а||2] выпукла, дифференцируема, X 7ф(а) = е(а — Ргох а) удовлетворяет условию Липшица с кон- стантой е и X* — Argmin ф(а)=/= 0. Применим для минимиза- а ции ф(а) градиентный метод с у = 1/г: ай+1 _ ak _ 8-1улф (ak) = ak — 8-18(ай — Ргох ай)== Ргохай. Иначе говоря, прокс-метод (19) может рассматриваться как градиентный метод минимизации ф(а). Применяя теорему 1 (все ее условия выполнены), получаем требуемый результат. ▲ Преимуществом прокс-метода перед методом регуляризации является то, что обусловленность вспомогательных задач мини- мизации в нем не ухудшается (параметр 8 остается постоян- ным). Однако прокс-метод (так же как и градиентный метод) не приводит, вообще говоря, к нормальному решению. Для квадратичной функции вида (6) прокс-метод может быть записан в явной форме: хй+1 = (А в/)-1 (Ь + гхк). (20)
§ 1. ВЫРОЖДЕННЫЙ МИНИМУМ 159 3°. Итеративная регуляризация. Во всех описан- ных выше методах предполагалось, что на каждом шаге ре- шается (точно или приближенно) некоторая вспомогательная задача безусловной минимизации. При этом мы никак не фик- сировали метод ее решения. Можно поступить иначе — задаться некоторым методом безусловной минимизации и делать не- сколько итераций этого метода для очередной вспомогательной задачи (число итераций может быть либо заранее определено, либо регулироваться в процессе вычислений). В простейшем ва- рианте методов такого типа делается один шаг градиентного спуска для минимизации регуляризованной функции, после чего изменяется параметр регуляризации. Таким образом, приходим к методу итеративной регуляризации: хй+,=хй — Yfe 0*7(хй) + efe Vg (хй)), (21) где g(x)— регуляризующая функция, е*— меняющийся на каж- дой итерации параметр регуляризации. Теорема 6. Пусть f(x), g(x)— дважды дифференцируе- мое выпуклые функции на R", причем || V2f (х) || L, II V2g(x) LI, 1> 0, для всех х, X* — Argmin f(x) =/= 0 и 0*С---s--->0, 0^е^~>0, ek п 2 Yft = Y, 0<У<7Г+7^Г- со Ее* = °°’ fe=0 (22) (23) Тогда в методе (21) хй->х*, где х‘еГ, х* — argmin g(x). х е х* Доказательство. Пусть ук = argmin Ф^(х), Фй(х) = хе R" = f (х) + eka (х), при сделанных предположениях ук существует, однозначно определена и ук-+х* (см. теорему 4). Функция ФА(х) сильно выпукла с константой Ze*, поэтому (см. (35) § 1 гл. 1) Фй(^й”1)5г Ф* (r/fe) Д-(Ze*/2) ||— yk~'||2. Аналогично, из сильной выпуклости Фй_1(х) получаем Ф*-1 (ук) 5г (ук~1) -ф + (Zeft—i/2) \\ук— г/й~Ч12. Складывая эти неравенства, имеем (efe - eft_,) (g(yk) -g(yk-^ + /(eft_, + eft) \\ук - yk~T/2 < 0. По- скольку {yk} ограничено, то найдется такая константа М, что llg(yft) — £(«/*-') И С М\\ук — i/MI. Поэтому , , 2Af(e. . — е.) ё, . — е, М II-yk~l II<4^-^) <N(24) Оценим теперь в методе (21) расстояние от хк+1 до ук: || х4-:-1 — ук || = || хй — ук — уУФй (хй) || = || хй — ук — у А (хй — ук) ||.
160 гл. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ' Здесь в соответствии с (13) § 1 гл, 1 и условием VO^(i/fe) = 0: 1 А = V2d>ft (yk + т (xk — yk)) dx. о В силу сделанных предположений 1гк1 < V2Ofe (х) < L (1 + efe) I < L (1 + ео) I, ПОЭТОМУ Л^Л(1 + 80) / и llx^'-^IKIIZ-yXIIIIx^-^IK < max | 1 — yA. HIxfe — yfe|| = (l — y/8ft)||xft — r/fe|l (25) (1 +e0) ДЛЯ достаточно больших k В силу условия 8ft->-0. Используя (24) и (25), получаем || Xk+} _ yk || (1 _ y/gfe) || дЛ _ yk || 0 _ у/е&) || Xk _ yk-\ || + (1 — уОг/* — yfe“'ll<(i — №ь)\\хк — + Применение леммы 3 § 2 гл. 2 для и, = ||х* — yk~41 с учетом условий (22) дает ик-+0. Но ||х* — х*|| ||х* — z/fe-Ili + 1 ~~ — х*||->0, так как ||xfe — -> 0 по доказанному выше, а ||yfe — х*|| -0 в силу теоремы 4. ▲ оо Что касается скорости сходимости, то в силуусловия Seft—°° fe=0 параметр гк нельзя устремлять к 0 слишком быстро. С дру- гой стороны, метод сходится не быстрее, чем метод регу- ляризации, а последний, как мы видели выше, может сходиться медленно. Упражнения. 5. Пусть f (х) — выпуклая функция в R", X* — Argmin / (х) 0, функ- xs=Rra ция g (х) строго выпукла и множество {х: g(x)^a} ограничено н непусто для некоторого а. Докажите (по той же схеме, что и теорему 4) сходи- мость метода регуляризации в этом случае. . 6. Используя определение С+ и-.формулу (7), докажите следующие свой- ства псевдообратных матриц: а) если т = п и С~' существует, то С+=С-1; б) дд+д = д, Д+ДА+=Д+; в) (Д+)+—А; г) (Д^)+ = (Д+Г. 7. Докажите следующие свойства оператора Ргох: а) он однозначно определен; б) он является нерастягивающим, т. е. И Ргох а — Ргох Ь [] |] а—& II;
§ 1. ВЫРОЖДЕННЫЙ МИНИМУМ 161 в) функция ф (а) = min (f (х) ф- (е/2) || х — а ||2) выпукла, дифференпиру- X ема, ее градиент удовлетворяет условию Липшица с константой е и равен уф (а) = в (а — Ргох а); г) если X* = Argmin / (х) ¥= 0, то X* = Argmin ф (а). X а 8. Вычислите Ргох а и ф (а) (упр, 7) для следующих примеров: a) f М = (Ах, х)/2 — (Ь, х), А > 0; б) f (х) 0; в) f W =||х||. Ответы, а) Ргох а = (А ф- е/)~ 1 (Ь ф- еа), ф (а) = (1 /2) [в || а ||2 — ((А ф- ф-8/)~ 1 (& + еа), (& ф- еа))]; б) Ргох а = а, ф (а) = а; в) Ргоха = [1~ — 2/(е И а ||)]+. а, ф (а) = е || а ||2/2 при |[а|К2/е, ф(а) = ||а|| при ||а||>2/в. 3. Методы при наличии помех. Анализ методов отыскания вы- рожденного минимума производился выше в идеализированной ситуации, когда значения градиента минимизируемой функции известны точно (в методах: градиентном, сопряженных градиен- тов, итеративной регуляризации) или когда вспомогательная задача минимизации на каждой итерации решается точно (в методах регуляризации и проксимационном). Рассмотрим влияние помех на поведение упомянутых методов, ограничи- ваясь наиболее характерными случаями. Г. Градиентный метод. Пусть имеются абсолютные детерминированные погрешности в определении градиента, т. е. в точке хк доступен вектор xk = yf(xk) + rk, ||? ||< 8. (26) В этой ситуации градиентный метод (1) принимает вид ?+' = хк - у?. (27) Как мы знаем (из теоремы Г § 2 гл. 4), для невырожденного, минимума можно гарантировать сходимость в некоторую об- ласть вокруг точки минимума х*. Радиус этой области (см. упр. 2 § 2 гл. 4) зависит от константы сильной выпуклости I и стремится к бесконечности при /->0. Поэтому из этих резуль- татов нельзя сделать выводы о поведении метода в вырожден- ном случае (кроме предположения о неработоспособности ме- тода). Действительно, при попадании в область малых значений градиента метод (27) начинает вести себя бессмысленным об- разом— направление движения становится практически произ- вольным. Поэтому метод (27) следует видоизменить — нужно прекращать итерации, как только величина ||sft|| станет доста- точно малой. В такой форме метод оказывается в определенном смысле работоспособным. Теорема 7. Пусть f(x) — выпуклая дифференцируемая функция в R", градиент которой удовлетворяет условию Липшица
162 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ с константой L, a .Y* = Argmin f(x) =/= 0. Пусть известны величины L, е (см. (26)) и р ||х°— х*||, где х* — Рх*(х°) — точка минимума, ближайшая к х°. Пусть итерации (27) с О < у < 2/L продолжаются до выполнения условия (28) и х& — та точка х, в которой это условие впервые выполняется. Тогда процесс закончится не более чем за р/(уе) + 1 итераций, при этом II vf ЮIK (Б + д/~г~—) « IK —**II<P- Доказательство. Из (26) и (27) II Xk+1 - х* || = II xk — х* — yvf К) — yrk II < II xk — x* — yvf (xft) || +ye. Из неравенства (3) (с заменой £ на х") II хк — х* — Yvf (хк) II2 < II хк — х* II2 — у (2/L — Y) II Vf К) II2- Поскольку для произвольных а b > 0 справедливо неравен- ство д/а2 - &2 - Ь2/(2а), то ||xft - х*-yvf К)|КН^-^*11 ~ — у (2 — Ау)|| Vf K)JI2 (2jL||x* ~ ** II) ’• Таким образом, ||xft+1 -x*||<||xft-x*||- у (2 — Лу) II vf (xfe) II2 2L |K-x*|| + Ye- (29) Предположим, что xk не является точкой остановки. Тогда 8+ 2д/т=т? vf(^)H + 8- Отсюда ||Vf(xA)||2^(4eLp)/(2— Ly). Подставляя это в (29), получаем II хк+1 - х* IK II хк — х* || — Y8 (---г2р- ,,, - 11 (30) \ II Xя — х* II J Поскольку ||х° — х*|| $7 р, то отсюда Цх1 — х*Ц р — уг и вооб- ще ||хА— х*Ц р — &уе для всех k до остановки процесса. По- этому число итераций до остановки процесса не превосходит р/(уе) + 1. Поскольку в точке остановки || vf (xft) || — е < || sk |К 8 + 2 Vе£р/(2 — Ly), то || vf K)ll<(e + VeLp/(2 — Ly)). A Обсудим полученный результат. Для выбранной модифика- ции градиентного метода гарантируется, во-первых, что будет получена точка с достаточно малой нормой градиента: IIVf(xe) || ф(е), где <р(е) = О (Vе ) ->0 при е->0, во-вторых, что эта точка не слишком далека от точки минимума, ближай- шей к начальному приближению. В силу неравенства f(xe) —
§ 1. ВЫРОЖДЕННЫЙ МИНИМУМ 163 — f(x*) ||Vf(xe)||||xe —х*|| можно гарантировать, что в точке хе значение функции также близко к минимальному: f(xe)-f(x*) = o(vr). (31) В этом смысле можно считать, что точка х8 дает приближен- ное решение задачи минимизации. Разумеется, дать какую-либо явную оценку близости хе к множеству X* нельзя. Для задач со случайными абсолютными помехами можно доказать результат о сходимости почти наверное градиентного метода, в котором шаг у* стремится к 0 (см. упр. 9). Если интенсивность помех зависит от номера итерации: 00 IIгА|| ъь, то при У ek < оо градиентный метод сходится в обычном смысле. 2°. Метод регуляризации. Вследствие неизбежных погрешностей при вычислении /(х), а также из-за невозможно- сти отыскания точного минимума неквадратичной функции, вспомогательная задача безусловной минимизации (11) в ме- тоде регуляризации может быть решена лишь приближенно, с точностью до некоторой величины б. Пусть (32) где Фе(х) = /(х) + eg(x), Ф* = 1тнпФ8(х). Теорема 8. Пусть выполнены условия теоремы 4. Тогда при е—>0, б/е -> 0 (33) будет х*->х*. Доказательство проводится точно так же, как и в тео- реме 4. Л Оценку близости ||х® — х*|| в явной форме для произволь- ного функционала /(х) дать нельзя (см. примеры, относящиеся к теореме 4). 3°. Д р у г и е методы. Аналогичному исследованию могут быть подвергнуты другие методы, описанные ранее, — в частно- сти, прокс-метод и метод итеративной регуляризации. Не будем на этом останавливаться подробнее, так как и техника исследо- вания, и получающиеся результаты подобны теоремам 7 и 8. Упражнение. 9. Пусть / (х) — выпуклая дифференцируемая функция в Rra, yf (х) удов- летворяет условию Липшица, X* = Argmin f (х) =/= 0. Пусть sk = yf (xft) + g*, xeRre где случайные помехи У независимы н Mgft = O, М || ||2 «С о2, Рассматрнва- оо оо ется градиентный метод xk+i — xk — при условиях У = оо, У у/ <
164 ГЛ, 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ < оо. Докажите, используя метод доказательства теоремы 1 этого параграфа и теоремы 1 § 2 гл. 2, что X е X*, где точка х может быть разной для различных реализаций процесса. 4. Заключительное обсуждение. Теперь настало время отве- тить на основной вопрос — можно ли практически решать задачи оптимизации с вырожденным минимумом? Ответ на этот вопрос не столь прост, как кажется, и он заставляет еще раз осмыслить соотношение теоретических результатов о сходимости и прак- тики вычислений, которое мы уже обсуждали в § 6 гл. 1. Нужно сказать, что сама постановка такого вопроса в математических работах нередко считается неуместной н ее избегают, ограничи- ваясь результатами о сходимости типа вышеприведенных. Од- нако отнюдь не очевидно, какие практические выводы можно сделать, например, из теоремы 8 — предлагаем читателю самому обдумать эту проблему в качестве упражнения. Прежде всего, нужно ясно понимать, что именно требуется от приближенного решения той или иной оптимизационной за- дачи. Ответ здесь зависит от того, как будет использоваться да- лее найденное решение. В некоторых случаях для нас основной интерес представляет сама точка минимума (будем говорить тогда об аргументных задачах минимизации). Например, оценка физических констант по результатам прямых или косвенных из- мерений сводится (путем применения метода максимального правдоподобия или наименьших квадратов, см. гл. 11) к мини- мизации некоторой функции. Здесь прямой физический смысл имеют сами аргументы минимума этой функции, а найденные их значения — оценки искомых параметров — будут использо- ваться в разнообразных задачах, не связанных непосредственно с исходной задачей минимизации. Поэтому в данном случае важно возможно точнее найти точку минимума, т. е. мы имеем аргументную задачу. Аналогичным образом обстоит дело в не- которых других задачах оценивания и идентификации. Однако в большинстве случаев сами координаты точки минимума не представляют интереса, а важно лишь обеспечить минимально возможное значение критерия оптимальности. Это соответствует критериальным задачам оптимизации. Например, в задачах наи- лучшего приближения требуется аппроксимировать заданную функцию a(t) некоторым более простым выражением, напри- п + 1 мер полиномом n-й степени £ х^1"'. После выбора соответ- ствующей нормы (Li, А2, Аоо и т. п.) задача сводится к миними- II n + 1 II зации функции f(x) = «(/)— Е */“* • Однако при этом ве- [| i ss» 1 || личины коэффициентов х*, минимизирующих f(x), не представ- ляют никакого самостоятельного интереса — важна лишь ма- лость Дх). Более того, вместо алгебраических полиномов мы
§ I. ВЫРОЖДЕННЫЙ МИНИМУМ 165 могли бы выбрать тригонометрические или искать приближение по какой-либо другой системе функций. Подобная же ситуация имеет место и во многих других задачах, в которых нужно наи- лучщим образом описать объект с помощью некоторой модели, выбор которой в достаточной мере произволен, а цель заклю- чается в минимизации «рассогласования» между выходами мо- дели и объекта. Другими примерами критериальных задач мо- гут служить оптимизационные экономические задачи, задачи оптимального проектирования и т. п. Для критериальных задач вырожденность минимума не представляет особой трудности, поскольку нам достаточно по- пасть в область малых значений минимизируемой функции f(x). Формальным подтверждением этому служат оценки (2), (10), (31) точности по функции приближенных решений, даваемых разными методами. Так, оценка (10) показывает, что при ми- нимизации без помех произвольной квадратичной функции (воз- можно, с вырожденным минимумом) независимо от размерности пространства метод сопряженных градиентов гарантирует оцен- ку f(xk) — f* — 0{k~2). Это означает, что за 100 итераций мож- но уменьшить значение функции приблизительно в 10 000 раз, что обычно достаточно для практических целей. При наличии помех оценка (31) дает гарантию, что если уровень помех мал, то градиентный метод с правилом остановки (28) дает возмож- ность найти достаточно хорошее приближение по функции не- зависимо от вырожденности минимума и от размерности про- странства. В целом можно считать, что для критериальных за- дач с вырожденным минимумом удается построить удовлетвори- тельно работающие алгоритмы. Значительно сложнее положение с аргументными задачами. Заметим, что даже при отсутствии помех мы имели лишь ре- зультаты о сходимости методов (теоремы 1—6), однако ни в одном случае не была получена оценка скорости сходимости. Как уже отмечалось, теоремы о сходимости без оценок скорости сходимости не могут считаться достаточным обоснованием ра- ботоспособности метода. Более того, мы видели на примерах, что скорость сходимости всех рассматривавшихся методов могла быть очень мала. Поэтому ни один из методов не может гарантировать отыскание вырожденного минимума (с заданной точностью по аргументам) за априори определенное число ите- раций. В практических задачах вычисления осложняются неиз- бежными погрешностями. Результаты о поведении методов при наличии помех (теоремы 7, 8) не содержат никаких оценок бли- зости получаемого приближенного решения к точному (по аргу- менту) . Теорема 8 дает некоторое асимптотическое утвержде- ние— если уровень помех стремится к 0, то приближенные ре- шения сходятся к точному. Однако на практике мы решаем задачу при одном фиксированном уровне помех, и этот асимпто-
166 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ тический результат (не сопровождающийся оценками точности), по существу, не несет никакой информации о гарантируемой точности решения. Приведенные выше пессимистические соображения не озна- чают, что аргументные вырожденные задачи во всех случаях нельзя решить. Часто мы обладаем обширной априорной инфор- мацией о решении, и она может быть эффективно использована. Так, если известна близость решения к некоторой точке а, то последняя может быть выбрана в качестве начального прибли- жения для итеративных методов (например, градиентного). В соответствии с теоремой 7 в градиентном методе гаранти- руется отыскание приближенного решения хе такого, что ||хЕ—х*|| С И« — х*||, a f(xe) тем меньше, чем меньше уровень помех. Другой способ учета априорной информации в данном случае связан с выбором регуляризующей функции вида ||х—а||2. Нередко имеется априорная информация о каких-либо свойствах решения. Такая информация может быть учтена в итеративных методах путем выбора подходящей нормы в методе регуляризации путем выбора g(x). Далее, в статистических за- дачах типа оценки параметров информация о решении обычно формулируется в терминах априорного распределения. Исполь- зуя байесовский подход, удается включить эту информацию в минимизируемую функцию и тем самым облегчить отыскание решения. Подводя итог, можно сказать, что возможность решения ар- гументных задач с вырожденным минимумом обычно опреде- ляется наличием априорной информации о решении. При отсут- ствии такой информации трудно рассчитывать на получение сколько-нибудь точного решения. § 2. Многоэкстремальность До сих пор мы в основном занимались задачами минимиза- ции выпуклых функций, для которых всякий локальный мини- мум совпадает с глобальным (теорема 2 § 2 гл. 1). В случае, когда функция многоэкстремальна (т. е. имеет много локальных минимумов), проблема отыскания глобального минимума очень сложна. К ее анализу мы и переходим. Всюду в этом параграфе речь будет идти о задаче rninf(x), xeR", (1) где функция f(x) гладкая, но не выпуклая. 1. Предварительные замечания. Мы знаем (теорема 1 §2 гл. 1), что всякая точка локального минимума х* в задаче (1) является стационарной, т. е. Vf(x*) = 0. Обратно, если в стационарной точке V2f(x*)>0, то х* является точкой локального (или гло- бального) минимума (теорема 4 § 2 гл. 1). Совершенно анало-
§ 2. МНОГОЭКСТРЕМАЛЬНОСТЬ 167 гично можно показать, что если Vf(x*) = 0 и V2f(x*)<0, то х* — точка локального максимума. Наконец, если матрица V2f(x*) в стационарной точке х* не является знакоопределенной, то найдутся как векторы у, для которых f (х* + еу) > f(x*) для достаточно малых е>0, так и векторы, для которых f(x*~i~ey) <Z <Zf(x*). Первые называются направлениями возрастания, вто- рые— направлениями убывания, а точка х* называется седло- вой. Сведем эти результаты в следующую теорему. Теорема 1. Пусть Vf(x*) = 0, матрица \/2f(x*) невырож- дена, X] Кп — ее собственные значения, е1,... ,еп — со- ответствующие им ортонормированные собственные векторы. Тогда, если Xi > 0, то х* — точка минимума, если < 0, то х* — точка максимума, а если М < 0 < то — седловая точка, причем векторы у L_ = [ £ уге‘1, у =/= О, являются |iA.<0 J направлениями убывания, a y^L+ = i £ Yz^‘1. У =/= 0, яв- ляются направлениями возрастания. При этом Rn = L_ ф L+, т. е. R”— прямая сумма подпространств L_ и L+. А Точка х* с \f(x*) = O и невырожденным гессианом назы- вается невырожденной стационарной точкой, размерность под- пространства L- называется индексом стационарной точки, так что индекс равен 0 тогда и только тогда, когда х* — точка ми- нимума. Перейдем к анализу поведения основных методов миними- зации к окрестности различных стационарных точек. Начнем с градиентного метода вида xft+1 = xk — yVf(xs). Мы знаем (тео- рема 4 § 4 гл. 1), что в окрестности невырожденного минимума градиентный метод при 0 < у < 2/||V2/(х*) || сходится к х*, не- зависимо от того, каким минимумом является х*, локальным или глобальным. Пусть теперь х* — невырожденная стационар- ная точка с индексом, отличным от 0. Тогда xfe+1 - х* = xk - х* - Y(xk) = = (/ - YV2/ (Л) (Xk - x*) + о (xfe - x*). (2) Если x* — точка максимума, то все собственные значения, матрицы / — yV2f(x*) больше 1 при любом у>0 (они равны 1 — г=1, ..., п, но все %<• < 0, см. теорему 1). Поэтому II (/— yV2f(x*))z|| y||z||, q > 1, для всех z. Отсюда следует, что для достаточно малых ||х* — х*Ц =/= 0 будет ||xs+1 — х*|| > > ||xft— х*||. Итак, если точка х° близка к х*, но не совпадает с х*, то итерации в градиентном методе будут удаляться от х*. Иначе говоря, точка максимума — точка отталкивания для гра- диентного процесса, и траектория, попавшая в окрестности та- кой точки, заведомо выйдет из нее (за исключением особого случая, когда х° = х*).
168 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ Для случая, когда х*— седловая точка, анализ прост, если f(х) — квадратичная функция. Тогда xft+1-x* = (/-yA)(xft-x'), xk — х*— (I — уА)к (х° — х*), (3) где Д = \72/(х). В обозначениях теоремы 1 (хк — х*, ef) — (l — — yKi)k (х° — х*, е1). Если > 0, 0 < у < 2/|| А ||, то |1— уЛД< < 1, и потому (хк — х*, е1) —> 0. Если же Д < 0, то (хк — х*, е1) — = qk (х° — х*, е‘), где qt — 1 — yZ, > 1, и поэтому (xfe — х*, -> -> оо при (х° —х*, е1) =И= 0. Поскольку || хк — х' ||2 = У, (хк — х*, ____________________________________________ ' е1)2, то получаем ||xft — оо, если х° — х' е L+. Итак, если начальное приближение не принадлежит подпространству L+, то траектория градиентного метода будет удаляться от седловой точки. Для неквадратичного случая анализ более сло- жен, но приводит к аналогичным выводам, —лишь для исклю- чительного множества начальных точек градиентные итерации приводят к седловой точке. Грубо говоря, градиентный метод «почти никогда» не схо- дится к точке максимума или седловой точке. В то же время он не различает точки локального и глобального минимума и сходится к произвольной из них. Несколько иначе ведет себя метод Ньютона. Из теоремы 3 § 5 гл. 1 следует, что для его сходимости не требуется положи- тельной определенности V2f(x*)—достаточна невырожденность этой матрицы. Поэтому метод Ньютона может сходиться к лю- бой стационарной точке, так как он не отличает максимумов от минимумов или от седловых точек. Не будем подвергать исследованию другие методы миними- зации, рассмотренные в предыдущих главах. Некоторые из них существенно опираются на предположение о выпуклости функ- ции и при невыполнении этого предположения теряют работо- способность (таковы почти все методы гл. 5). Другие могут схо- диться к любой стационарной точке (некоторые варианты ква- зиньютоновских методов). Наконец, большинство методов, как правило, сходится к произвольной точке локального минимума. Важно подчеркнуть, что при этом ни один метод не дает гаран- тии попадания в глобальный минимум. 2. Точные методы. Все методы многоэкстремальной оптими- зации можно условно разделить на две группы. Для первых су- ществуют какие-либо точные утверждения об их сходимости к глобальному минимуму, для вторых приходится ограничиваться некоторыми правдоподобными рассуждениями об их разумном поведении в многоэкстремальной ситуации. Будем говорить в первом случае о точных методах, во втором — об эвристических. Придумать точные методы нетрудно, однако их ценность, как правило, невелика. Приведем характерный пример.
§ 2. МИОГОЭКСТРЕМАЛЬНОСТЬ 169 Теорема 2. Пусть f(x)—непрерывная функция на мно- жестве Q = {а С х b} cz Rre, xk — последовательность незави- симых равномерно распределенных на Q случайных векторов. Тогда min f (xz) —> minf (x). Доказательство. По теореме Вейерштрасса (§ 3 гл. 1) существует точка х* глобального минимума f(x) на Q. Пусть е>0 произвольно, в силу непрерывности f(x) найдется окрест- ность U точки х*, для которой f(x) f(x*)+ е при те U. Пусть v — объем U П Q, V — объем Q, тогда и>0в силу открытости U. Вероятность попадания точки х‘ в U f) Q равна v/V; вероят- ность, что хотя бы одна из точек х1, ..., xk попадет в J7QQ, равна pk — 1—(1 — v/V)k. Очевидно, что при &->оо, т. е. Р { min f (х‘) > f (х*) + е}—>0 при k->oo. Это и означает сходимость по вероятности. А Теорема 2 столь же проста и универсальна, сколь и бессо- держательна. Оценим число вычислений функции, требуемое для отыскания решения с небольшой точностью, для одного примера. Пусть х = (хь ..., х10) е R10, f(x)= max х{, Q = {x) 0<х,<1, j=l, ..., 10}, и зададимся точностью 8 — 10~2. Тогда х* = 0, Дх*) = 0, v = (10~2)10 = 10~20, V=l, pk « Jfe-10-20, т. е., чтобы вероятность отыскания х* с точностью до 1% была равна хотя бы 10%, потребуется ~1019 итераций. Иначе го- воря, метод случайного поиска (в описанной в теореме 2 форме) абсолютно непригоден для нахождения глобального минимума уже для размерностей порядка 10. Мы вновь столкнулись с тем фактом, что сама по себе теорема о сходимости отнюдь не га- рантирует работоспособности метода. Тем не менее регулярно появляются работы, содержащие результаты типа теоремы 2 (это дало повод для появления уже упоминавшейся пародийной статьи Вульфа [1.11], в которой с полной серьезностью обсуж- дается детерминированный вариант теоремы 2). Конечно, авто- ры подобных работ обычно не столь откровенны, и предлагае- мые ими методы выглядят более солидно, однако математиче- ское обоснование бывает столь же «глубоким», как теорема 2. В то же время читателю должно быть ясно, что для произ- вольных непрерывных или даже гладких функций невозможен метод существенно лучший, чем в теореме 2. На рис. 26 при- ведены примеры функций, для которых глобальный минимум нельзя найти иначе, чем путем перебора ее значений на доста- точно мелкой сетке.. Поэтому нужно сузить класс рассматривае- мых функций. Рассмотрим функции, удовлетворяющие условию Липшица IfW-f(y) I<L||X-у\\, (4) причем будем предполагать, что константа L известна. При
170 ГЛ, 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ минимизации такого рода функций можно руководствоваться сле- дующим соображением. Пусть уже найдено рекордное значение f(x) по k—1 предыдущим итерациям: фА._1 = min f (х)1 — и вычислено f(xA). Тогда, если f (хк) < <р*_i, то улучшается значе- ние рекорда: <pft = f(x*), если же f (хк) > то в шаре {х: ||х —х*|| <Z L~l(f(xk)— Фа-i)} заведомо не может быть точки глобального минимума, что приводит к сокращению обла- сти возможной локализации минимума. Эту идею нетрудно реа- лизовать в вычислительный алгоритм для одномерного случая. _ f(X) WVW X Рис. 26. Функции, для которых трудно найти глобальный минимум, В многомерном случае возникают серьезные трудности, связан- ные со сложностью описания области локализации минимума и реализации правила выбора новой точки. Эффективность та- кого рода методов зависит от вида функции и расстановки точек. Например, если разница между f(xl) и f(x2) велика, то удается сразу отсечь область большого объема. Если же функ- ция имеет вид, изображенный на рис. 26, то при любых прави- лах выбора хк метод будет не лучше полного перебора. Кроме того, в реальных задачах константа L в (4) редко бывает из- вестна, а ее неправильное назначение может либо резко замед- лить метод, либо привести к потере глобального минимума. Аналогичная ситуация возникает, если известны оценки про- изводных минимизируемой функции. Например, если Vf(x) удов- летворяет условию Липшица IlvfW —VfG/)ll<Mx-y|| (5) и L известно, то сокращение области можно осуществлять, ис- пользуя неравенство I f(x) - f (xft) - (vf (XA), X - xk) I < (L/2) II x - хк II2. (6) Мы не будем на этом подробнее останавливаться, так как этому методу присущи те же недостатки, что и описанные выше,
§ 2. МНОГОЭКСТРЕМАЛЬНОСТЬ 171 Другие классы многоэкстремальных функций, которые были бы естественны и допускали бы простое описание, пока не при- думаны. В целом можно сказать, что существующие точные ме- тоды поиска глобального экстремума не могут рассматриваться как эффективные для решения многомерных задач. 3. Детерминированные эвристические методы. Один из воз- можных подходов к решению многоэкстремальных задач заклю- чается в сочетании методов локальной оптимизации с той или иной процедурой перебора начальных точек. Например, можно произвести спуск методом сопряженных градиентов из вершин грубой равномерной сетки, покрывающей область априорной ло- кализации минимума. Исходные «пробные точки» можно рас- ставлять и иначе. Так, существуют способы «более равномерно» распределять точки в многомерном параллелепипеде, чем в вер- шинах прямоугольной сетки, примером могут служить так на- зываемые ЛП-последовательности [6.14]. При этом число проб- ных точек может быть невелико (несколько десятков). Процесс Очередной локальной минимизации следует прекращать, если мы либо попадаем в уже обследованную зону локального ми- нимума, либо если значение функции в грубо найденном локаль- ном минимуме заметно больше уже достигнутого рекорда. Более интересны методы, в которых глобальный поиск пред- ставим как единый итеративный процесс. Для этого алгоритм должен обладать способностью «выходить» из локальных ми- нимумов. Простейшим примером является метод тяжелого ша- рика (§ 2 гл. 3), в котором приближения х* связаны формулами xfe+1 = xft-avf(xft) + p(x''-^-'). (7) Ясно, что если Vf (xft) = 0, но xk ф хк~', то будет xft+1 =/= хк, т. е. Метод не «застревает» в стационарной точке. Из механической аналогии (7) (движение тяжелого шарика по неровной поверх- ности) следует, что если скорость шарика достаточно велика, то он «проскакивает» неглубокие ямки. Можно проверить на при- мерах, что метод действительно обладает свойством выходить из небольших локальных минимумов. Однако он может «ска- титься» в более глубокий минимум и уже не выйти из него. Поэтому метод тяжелого шарика (7)—ненадежный способ оты- скания глобального минимума. Более перспективным является овражный метод И. М. Гель- фанда и М. Л. Цетлина. Авторы исходят из представления об !₽вражном строении минимизируемой функции, т. е. считается, Что функция слабо меняется по некоторым направлениям (обра- зующим дно оврага) и резко —по другим (направления склонов ©врага). Примером одноэкстремальной овражиой функции мо- жет служить квадратичная функция с плохо обусловленной Матрицей. Вообще, в окрестности локального минимума овраж- ные функции характеризуются большим числом обусловленно-
172 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ сти ц (см. § 3 гл. 1). Овражный метод состоит из шагов спуска, производящихся с помощью какого-либо локального метода (обычно градиентного) и осуществляющих спуск на дно оврага, и овражных шагов вдоль дна оврага. Структура метода видна из рис. 27, на нем х° и х1— два начальных приближения, тон- кими линиями обозначены шаги спуска, жирными — овражные шаги. Траектория в овражном методе проходит в основном по дну оврага, не задерживаясь в локальных минимумах (важно подчеркнуть, что овражные шаги делаются определенной длины независимо от возрастания или убывания функции в данном на- правлении). Овражный метод предназначен для грубого про- смотра всей области определения функции. Найденные в ре- зультате точки с малыми значениями f(x) следует далее уточ- нить с помощью более мощных локальных методов. Овражный метод не свободен от ряда недостатков. Во-первых, довольно трудной проблемой является подбор длины овражного шага, так как если она велика, то метод «перепрыгивает» многие ми- нимумы, если же мала, то метод не отслеживает направления дна оврага и движение становится хаотическим. Во-вторых, на- правление овражного шага не определено однозначно и зависит от многих обстоятельств (точность локальных спусков, распо- ложение предыдущей точки и т. д.). Вообще, наличие многих «свободных параметров» в овражном методе приводит к тому, что его использование требует большого опыта и обстоятельной предварительной «отладки». Идеи овражного метода используются в методе СПП (спуск- подъем-перевал). В нем весь процесс поиска глобального ми-
§ 2. МНОГОЭКСТРЕМАЛЬНОСТЬ 173 нимума разделен на три этапа, которые повторяются цикли- чески. На этапе спуска с помощью метода сопряженных гра- диентов отыскивается локальный минимум. На этапе подъема происходит выход из зоны минимума. Движение осуществляется по направлению «наимедленнейшего подъема», которое нахо- дится следующим образом. В точке хк строится функция fk(x) — = f(x)— (Vf(xk), х). Очевидно, что V/>(xfe) = 0, и если V2f(xk)> > 0, то хк— точка локального, минимума Д(х), если же \?2f(xk) не знакоопределена, то хк — седловая точка Д(х). Из точки z° — xk-]- Rdk-} (где dk~l— направление предыдущего движе- ния, е > 0 — параметр) делается несколько шагов градиентного метода для fk(x): z‘+1 — zl— y^fk(zl). Если точки z‘ стремятся к хк, то это признак знакоопределенности V2fk(хк) = V2f(xk) (см. исследование поведения градиентного минимума в п. 1 в окрестности локального минимума и седловой точки), и направ- ление dk = (z‘ — хк)/\\z{ — берется в качестве направления подъема. Легко проверить, что оно близко к собственному век- тору V2f(x*), отвечающему наименьшему собственному значению этой матрицы. Делается шаг хк+х = хк + Ъкйк, а градиентный шаг из хк+1 приводит к новой точке хк+1, где повторяется этап подъема. Если же точки zl удаляются от хА, то делается вывод о невыпуклости f(x) в окрестности хк и происходит переход к этапу перевала. При этом вектор dk = (zl— хк)/\\z* — хк\\ за- дает направление движения на перевал, которое сочетается с градиентным спуском после каждого шага. При прохождении перевала (критерием этого является перемена знака величины (Vf(xft+1), dft)) начинается спуск в новый локальный минимум. Типичная траектория метода СПП показана на рис. 28. Разде- ление поиска на этапы представляется более целесообразным по сравнению с единообразной процедурой движения в овраж- ном методе. Известны и многие другие эвристические методы глобальной оптимизации. К сожалению, какие-либо строгие результаты об их эффективности отсутствуют, а проверка на тестовых задачах недостаточно убедительна, да пока и не производилась доста- точно обстоятельно. 4. Стохастические эвристические методы. Здесь можно выде- лить два подхода. В первом случайность вносится в процесс ми- нимизации (методы случайного поиска), во втором строится та или иная стохастическая модель минимизируемой функции. Методы случайного поиска для локальной оптимизации уже описывались в § 4 гл. 3. Для придания им глобального харак- тера нужно, чтобы в этих методах были разрешены большие шаги, выводящие из окрестности локального минимума. Опи- шем простейший вариант такого метода. Пусть ищется глобаль- ный минимум f(x), х ^=. R", на единичном кубе Q = {х: О -С х, 1}. В точке хк выбирается вектор hk с независимыми компо-
174 ГЛ. S. ВЫРОЖДЕННОСТЬ, многЬэкстремальность центами, равномерно распределенными на [—1, 1], и если хк + + hk е Q и f (хк — hk) < f (хк), то берется хк^ = хк + hk. В про- тивном случае выбирается новая реализация hk. Метод выгля- дит вполне разумно, для него можно доказать теорему о сходи- мости к глобальному минимуму и т. д. Однако легко убедиться, что он (с точностью до обозначений) совпадает с методом пере- бора из теоремы 2, т. е. является, как мы видели, совершенно неэффективным. К сожалению, эта же опасность подстерегает Рис. 28. Метод СПП для глобальной минимизации: я — этап спуска, б — этап подъема, в — этап перевала; 1 — точки минимума, 2 — седловая точка, 5 — точка максимума. нас и в других методах случайного поиска, хотя она может быть и не столь обнажена, как в приведенном «наивном» варианте метода. Поэтому трудно разделить оптимизм энтузиастов слу- чайного поиска, считающих, что они обладают эффективным средством глобальной оптимизации. Читателя, желающего озна- комиться с разнообразными модификациями методов случайного поиска, мы отсылаем к обширной литературе по этой тематике. Упоминавшийся выше второй подход использования случай- ности в глобальной оптимизации основывается на идее, что после вычисления минимизируемой функции в k точках х\ ... ,х* можно говорить о вероятностях тех или иных ее значений в дру- гих точках. Понятию «вероятность» при этом иногда придается точный смысл — считается, что имеется ансамбль функций с за- данной на нем вероятностной мерой, а минимизируемая функция f(x) есть элемент этого ансамбля; тогда можно говорить об
§ 3. НЕСТАЦИОНАРНОСТЬ 175 условных вероятностях тех или иных событий при реализации значений fix'), f(xk). Чаще же ограничиваются нестрогой вероятностной моделью. Обычно считают, что реализация зна- чения f(xk) в точке хк «повышает вероятность» близких к f(xk) значений f(x) для точек из окрестности хк и не меняет их вдали от хк. Задаваясь тем или иным априорным распределением и достаточно произвольным правилом пересчета, получают апосте- риорное распределение значений f(x) для всех х. В качестве xk+i выбирается точка, где «математическое ожидание» f(x) минимально, и после вычисления f(x*+1) пересчет вероятностей производится заново. Известно много конкретных реализаций подобной идеи. Для всех методов такого типа трудности пред- ставляют способы записи апостериорных вероятностей и про- цедуры поиска «наиболее перспективной» точки. Кроме того, произвол в исходных предпосылках при построении подобных ме- тодов оставляет ощущение неудовлетворенности. Мы постарались дать лишь общую картину положения в об- ласти глобальной оптимизации. Как видит читатель, положение здесь далеко от благополучного. Требуются интенсивные даль- нейшие теоретические и численные исследования имеющихся методов. Однако больше всего ощущается потребность в новых идеях, прежде всего в классификации многоэкстремальных за- дач и выделении сравнительно узких классов задач, допускаю- щих специальные и достаточно эффективные методы их решения. § 3. Нестационарность В некоторых практических задачах, связанных с управле- нием объектами в реальном масштабе времени, критерий опти- мальности не остается постоянным, а изменяется с течением времени (например, вследствие дрейфа характеристик объекта). Четкая постановка подобных нестационарных задач оптимиза- ции может быть различной в зависимости от целей управления и доступной информации. Опишем кратко некоторые возмож- ные ситуации. 1. Известен вид f(x, t). Пусть минимизируемая функция за- висит от скалярного параметра t (не обязательно имеющего смысл реального времени), т. е. имеет вид f(x, f),xe R", t е R1. Обозначим точку локального или глобального минимума f(x, t) при фиксированном t — t0 через Xgt = argmin f(x, tQ). (1) x e Rn Тогда, в соответствии с необходимыми условиями минимума, х* является решением уравнения V4 (х,/о) = О,
176 ГЛ. 6 ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ Если предположить, что выполнено достаточное условие минимума /0)>0, матрица (х, /) непрерывна в {xj, /0}, Vxf(x, t) дифференцируем по t в {хо, /о} и Vx f(x, if) непрерывен в окрестности {xj, /0), то выполнены условия теоремы о неявной функции (теорема 2 § 3 гл. 2) и потому в окрестности /0 суще- ствует дифференцируемая функция х*(/), для которой vj (х* (f), /) = 0, и она определяется уравнением = —[Vxx/(X*(O, 0]-1 (х*(0, 0» х‘(/0) = х;. (2) В силу непрерывности УххЦх, /) в окрестности t0 выполняется условие vlvf (х* (/), /) > 0, являющееся достаточным условием экстремума, т. е. х*(/) — argmin f(x, /). (3) х е Rn Иными словами, зная точку минимума при одном t — t0, можно из (2) найти точку минимума и для близких значений if. Если f(x, /) сильно выпукла по х при каждом I, то глобальный ми- нимум х* (/) — argmin f(x, t) существует и единствен для всех t X и описывается уравнением (2), которое имеет решение, продол- жаемое на всей оси. Итак, если вид функции f(x, t) известен (достаточно, чтобы были доступны ее производные Vxxf (х, f) и V/xf (х, /)), то траекторию точек минимума х* (t) можно отсле- дить, решая дифференциальное уравнение (2), если точка ми- нимума известна в какой-либо момент /о. Конечно, такой подход имеет в основном принципиальное значение, так как, во-первых, дифференциальное уравнение (2) нельзя решить точно, во-вторых, точка минимума хо в момент /0 может быть найдена лищь приближенно, и, в-третьих, вид зависимости f от t обычно неизвестен. Чтобы преодолеть первые две трудности, можно перейти к дискретному времени, т. е. за- менить дифференциальное уравнение конечно-разностным, а в качестве начального приближения выбирать не обязательно точку минимума. 2. Вид f(x, t) неизвестен. Рассмотрим несколько иную ситуа- цию, в которой отсутствует какая-либо информация о законе изменения минимизируемой функции во времени. Пусть в k-й момент времени (речь идет о дискретном варианте задачи) имеется функция fk(x), причем можно вычислять ее значения и значения производных в произвольной точке. Тогда можно сде- лать несколько итераций какого-либо метода минимизации fft(x), а полученную точку взять в качестве начального прибли- жения для минимизации ffe+i(x). В простейшем варианте можно делать лишь один шаг градиентного метода xft+‘=х* —yVM**) (4)
§ 3, НЕСТАЦИОНАРНОСТЬ 177 или метода Ньютона Xk+' = Xk _ [v2f* (5) Нас будет интересовать вопрос о поведении подобных итераций. С другой точки зрения этот вопрос заключается в исследовании градиентного метода или метода Ньютона в нестационарной си- туации. В действительности мы уже занимались близкими задачами, когда изучали влияние помех на методы оптимизации. Напри- мер, если существует предельная функция f(x) такая, что fk(x)-+-f(x), Vfk(x)-+ Vf(x), то Vfk(xk) можно записать в виде Vffe(xft) = Vf(xft) + (Vfft(xfe)— Vf(xfe)) и последний член рассма- тривать как «помеху». Тогда (4) есть не что иное, как градиент- ный метод минимизации f(x) при наличии помех, и можно при- менять результаты § 2 гл. 4. Если предельной функции не су- ществует, то методы (4), (5) нужно исследовать непосредствен- но. Ограничимся одним характерным примером. Пусть все функции fk(x) дважды дифференцируемы, причем для всех х и k lI^V2fk(x)^LI, l>0. (6) Тогда каждая функция fk(x) имеет единственную точку ми- нимума x*k- Предположим, что эти точки минимума дрейфуют с ограниченной скоростью К-<7) Теорема 1. При сделанных выше предположениях для ме- тода (4) с 0 < у < 2/L справедлива оценка Пт \\хк — , <7 —тах{| 1 —у/ I, I 1 —Y^-l} < 1- (8) Доказательство. Так же как при доказательстве тео- ремы 3 § 4 гл. 1, имеем || - Ч || = || - Wh < || <Я || х* - II- Отсюда’Цх^1 - х;+11| <||xfe+‘ - х^Ц + ||x’ft+1 - хЦ <?|| х - х^Ц + а. Используя лемму 1 § 2 гл. 2 для uk = ^xk — х^||, получаем (8). ▲ Таким образом, градиентный метод (4) отслеживает неста- ционарный минимум с точностью до величин порядка а. Учиты- вая полное отсутствие информации о законе движения мини- мума, трудно рассчитывать на большее. В ряде случаев упомянутая информация может быть до- ступна. Например, может быть известно, что траектория опти- мумов описывается разностным уравнением xk+i== Sk(xk)> (9)
178 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ где неизвестно начальное условие х*0 (ср. с описанием непре- рывной траектории х*(/) с помощью уравнения (2)). В этом случае целесообразно ввести прогнозирование, даваемое (9), в методы минимизации. В частности, градиентный метод (4) при- нимает вид хк+' gk (хк) ~ NVfk (gk (xk)). (10) 3. Заключительные замечания. При анализе методов оптими- зации мы начали с наиболее простого случая — невырожден- ного безусловного минимума гладкой функции при полной ин- формации о задаче — и постепенно учитывали возможные усложнения этой ситуации (недоступность производных, нали- чие помех, негладкость функции, вырожденность минимума, мно- гоэкстремальность, нестационарность). Однако не нужно думать, что тем самым мы полностью исчерпали тематику безусловной минимизации. Многообразие практических задач оптимизации столь велико, что они не укладываются в рамки даже наиболее общих схем. В частности, мы совершенно не рассматривали методы, пригодные для минимизации функций специального вида. Некоторые из таких методов будут описаны позже, когда в части III мы познакомимся с конкретными примерами задач оптимизации.
ЧАСТЬ И УСЛОВНАЯ МИНИМИЗАЦИЯ Глава 7 МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ Изучение задач условной минимизации начнем с наиболее простых, имеющих вид min f (х), (А) X е Q с Rn где Q — множество «простой» структуры. В принципе условия на это множество в приводимых ниже теоремах являются са- мыми общими (выпуклость, замкнутость и т. д.). Однако содер- жательный характер эти результаты приобретают, лишь если для множества Q можно достаточно просто найти фигурирую- щие в теоремах объекты (опорную гиперплоскость, проекцию и т. п.). В этом смысле и понимается термин простое множество. В качестве примеров можно привести параллелепипед Q = = {х: а sC х sC Ь}, шар Q = {х: ||х|| sC а}, линейное многообра- зие Q = {х; Ах — Ь} и т. д. Ограничения, задаваемые такими множествами, часто обусловливаются либо физической приро- дой переменных (например, требованием неотрицательности), либо априорными знаниями о решении. § 1. Основы теории 1. Условия экстремума в гладком случае. Точка x*eQ назы- вается локальной точкой минимума (или просто точкой мини- мума) в задаче (А), если f(x)^ f(x*) для всех xeQ, ||х—х*||sC е при некотором е > 0. Если f(x)^ f(x*) для всех xgQ, то будем говорить о глобальном минимуме. Теорема 1 (необходимое условие минимума I порядка). Пусть f(x) дифференцируема в точке минимума х*, a Q — вы- пуклое множество. Тогда (Vf (х*), х — х*)^0 для всех xeQ. (1) Доказательство. Пусть (Vf(x*), х° — х*)<0 для не- которого х°е Q. Тогда х(а) = х* + а(х° —х*)<= Q при Osgasgl в силу выпуклости Q и f (х (а)) = f (х*) + а (Vf (х*), х° - х*) + о (а) < f (х*) при достаточно малых а > 0, что противоречит локальной опти- мальности х*. А Вектор asR'!, удовлетворяющий условию (а, х — х*) 0 для всех х Е Q, называется опорным к Q в точке х* s Q (если
180 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ а =# 0, то он задает опорную гиперплоскость (а, х— х*) == 0, см. § 1 гл. 5). Поэтому условие (1) может быть сформулиро- вано иначе: вектор —Vf(x*) является опорным к Q в точке ло- кального минимума х*. Далее, всякий вектор вида s = x — х*, х е Q, называется допустимым направлением в точке х* относи- тельно выпуклого множества Q. Это название объясняется тем, что х* -ф as s Q при всех 0 a 1. Вспомнив формулу (6) § 1 гл. 1 для производной по направлению f' (х; s) = (Vf(x), s), мо- жем условие экстремума сформулировать и так: производная по любому допустимому направлению в точке минимума не- отрицательна. Геометрический смысл (1) очень прост (рис. 29) — множество Q и множество S= {х: (Vf(x*), х — х*)<0}, образованное на- Рис. 29. Условия экстремума на множе- жестве Q. правлениями локального убывания f(x) в точке х*, не должны пересекаться. В отличие от задач без- условной минимизации, для (А) можно сформулировать достаточное условие экстре- мума в терминах первой производной для невыпук- лой f(x). Теорема 2 (достаточ- ное условие минимума I по- рядка). Пусть f(x) диффе- ренцируема в точке х* е Q, Q выпукло и выполняется условие (Vf (х*), х - х*) > а || х - х ||, a > 0, (2) для всех x<=Q, ||х — х*|| е, е > 0. Тогда х* — точка локаль- ного минимума f(x) на Q. Доказательство. Выберем ei >0, ei е, так что If (х* + у) - f (X*) - (vf (х*), у) I < a II у 11/2 при || у || Тогда для xeQ, || х — х*||^е1, имеем f (х) > f (х*) + (Vf (х*), х - х*) - а || х - х* ||/2 > f (х*) + а || х - х* ||/2, т. е. х* — точка локального минимума. ▲ Заметим, что (2) заведомо не выполняется, если х* — вну- тренняя точка Q, поэтому в условиях теоремы 2 минимум дости- гается обязательно в граничной точке Q (рис. 30). В терминах производной по направлению (2) может быть записано так: f (х*; s)>a||s||, a>0 (3) для всех допустимых s. Заметим, что кажущееся естественным достаточное условие экстремума вида «/'(«*; s) > 0 для всех допустимых s» в действительности неверно (упр. 1),
§ 1. ОСНОВЫ ТЕОРИИ 181 Конкретизируем полученные условия экстремума для не- скольких важнейших примеров множеств Q. Пусть Q = {xeR": a^x^b}. (4) Тогда из теорем 1 и 2 для f(x), дифференцируемой в х* е Q, по- лучаем, что если х* — точка минимума f(x) на Q, то 1 = 0, а( < х* < bt, ат । >0,. * хг = а;, (5) ‘ 1 1 <0, х: = б;, а если * или, х* = 6; для всех 1<Пг и cix, | > о, <0, х;=а;, х* = Ь., (6) па Q. В частности, если ищется условие то х*— точка минимума f(x) минимум f(x), xsR1, f'(0)^0 является необходимым, a f' (0) > 0 — достаточным для минимума в 0. С помощью (5) в принципе можно искать точки минимума на параллелепипеде Q путем перебора: разбиваем мно- жество индексов 1= {1, ..., п} на три подмножества I — /0 U О- U U полагаем xt = at при i е /+, Xi — bi при 1<=1- и решаем си- стему уравнений относительно Xi, df(x)/dxt = O, i^I0. Если в найденной точке х* окажется, чтоаг < х* < b., i^Iои df{x*)/dx > 0, i е= I+, df (x*)/dxt < 0, is / , то в х* выполнены необходимые при ограничении х О, то । I Q Рйс. 30. Острый минимум в зада- че с ограничениями. условия экстремума. Ра- зумеется, такой путь не может рассматриваться как реалисти- ческий метод решения задачи. В дальнейшем мы опишем гораз- до более эффективные способы минимизации, опирающиеся на условия экстремума. В качестве второго примера рассмотрим минимизацию на линейном многообразии: Q = {xeR": Ах — Ь], (7) где b Е Rm, А — матрица т X п. Из теоремы 1 следует, что (Vf(x*)> х — х*) 0 для всех х Е Q, т. е. (Vf(x*), s) 0 для всех s Е L = {s: 71s = 0}. Если бы нашлось s°eL такое, что (Vf(x*), s°)>0, то (Vf(x*), —s°)<0, что невозможно, так как — s°eZ,. Поэтому (Vf(x*), s)=0 для всех s е L. Отсюда
182 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ следует (лемма 1 § 1 гл. 8), что найдется у* е R"1 такое, что Vf(x*) = XV- (8) Итак, (8) является необходимым условием минимума f(x) на Q вида (7). Упражнение. 1. Рассмотрите пример в R2: min (у — у2), у > 0, у = х2 — *х2. Убеди- тесь в том, что для х* = 0 f'(x*; s) > О для любого допустимого s, одиако х* не является точкой локального минимума. 2. Условия экстремума в выпуклом случае. Мы будем ис- пользовать сведения из теории выпуклых функций, приведенные в § 1 гл. 5. Теорема 3. Пусть f(x)— выпуклая функция на R”, Q — выпуклое множество в Rre, х* е Q. Тогда условие: найдется суб- градиент df(х*) такой, что для всех x<=Q (df(x‘), х-х*)>0, (6) является необходимым и достаточным для того, чтобы х* был глобальным минимумом f(x) на Q. Доказательство. Необходимость. Пусть такого субградиента нет. Тогда множества S = df(x*) и К = — {У- (У> х — xeQ} не пересекаются. По лемме 6 § 1 гл. 5 S выпукло, замкнуто и ограничено. Без труда проверяется, что множество К выпукло и замкнуто. Поэтому применима тео- рема отделимости (теорема 1 § 1 гл. 5), т. е; найдутся csR'1, с 0 и а > 0 такие, что (а, с) —а для всех а е S и (с, у) >0 для всех у е К- Пусть Г — замыкание конуса, порожденного до- пустимыми направлениями, т. е. Г = {х: х — lim Kk (xk — х*), Kk> 0, xk sQ}. Если сё= Г, то вновь применим теорему отдели-, мости (это возможно, так как множество Г выпукло и замкнуто) и найдем b такое, что (Ь, х)^0, хе Г, и (6, с)<0. Тогда из определения К и Г следует, что b К, поэтому неравенство (6,с)<0 противоречит условию (с, г/)^0 для всех у е К. Итак, с е Г, следовательно, найдутся носледовательности X* > 0 и х* е Q такие, что Kk(xk — х*)->с. Выберем k так, чтобы было ||A,fe(xfe — х*) — с IKa/(2L), L — тах||а||. Тогда в соответствии с a s S леммой 6 § 1 гл. 5 f' (х*; Kk (xk — х*)) = max (a, Kk (xk — x*)) ~ a<= S — max (a, c) 4- max (Kk (xfe — x*) — c, a) — a + ~ a = — 4- a. Поэтому xk —х*)<0и для достаточно малых у > 0 будет f(x* y(xfe — х*)) < f (х*), что невозможно, если х* — точка ми- нимума.
§ 1. ОСНОВЫ ТЕОРИИ 183 Достаточность. Пусть (df(x*), х— х*)^0 для всех хе Q и некоторого субградиента df(x*). Тогда f(x) > f (х‘) + (df (х), x-x*)^f (Z) для любого х е Q, т. е. х* — точка глобального минимума f(x) на Q. ▲ Упражнение. 2. С помощью теоремы 3 покажите, что b =,Pq(a) тогда и только тогда, когда (& — а, х — Ь) 0 для всех х е Q (ср. с (5) § 1 гл. 5). (Указание. Pq (a) есть решение задачи min il х — а ||2, х е Q). 3. Существование, единственность и устойчивость минимума. Теорема существования мало меняется по сравнению с теоре- мой 1 § 3 гл. 1— условие ограниченности множества {х: f(x)^ заменяется на условие ограниченности множества {х е Q: f(x)^a), а доказательство остается прежним. Теорема 4 (Вейерштрасс). Пусть f{x)—непрерывная функ- ция на Q cz R”, множество Q замкнуто, а множество {х е Q: f(x)^a) ограничено и непусто для некоторого а. Тогда задача (А) имеет решение. ▲ Если выполняется достаточное условие минимума (2), то минимум единственный. Теорема 5. В условиях теоремы 2 х* — локально един- ственная точка минимума. Доказательство следует из неравенства f(x)>f(O + a||x- х*||/2, || х- х‘||<8, (10) полученного при доказательстве теоремы 2. ▲ Единственность решения по-прежнему можно гарантировать для строго выпуклой f(x). Однако можно наложить и некоторые условия на Q, приводящие к единственности минимума. Назо- вем множество Q строго выпуклым, если для любых Xi е Q, x2gQ, Xi =f= Хг, 0 < X < 1 точка Xxi +(1 — Х)х2 является вну- тренней точкой Q. Теорема 6. Пусть f(x)— выпуклая функция на R”, мно- жество Q строго выпукло и ||<3f(x) || ^ е > 0 для всех субгра- диентов и всех xsQ. Тогда точка минимума f(x) на Q един- ственна. ▲ Понятие устойчивости для задачи (А) можно ввести различ- ным образом. Как и ранее, будем называть задачу минимизации (глобально) устойчивой, если всякая минимизирующая последо- вательность сходится, т. е. если из xk sQ, f (xR)-+f* = inf f (x) X e Q следует, что xfe->x*, f(x*)= f*. Можно определить понятие обоб- щенно-минимизирующей последовательности:? (xk)-+f*~ ini f (х), X s Q p(xft, Q)->0, где p(x\ Q)= inf ||xft—-x|| и называть задачу
184 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ обобщенно-устойчивой, если всякая обобщенно-минимизирую- щая последовательность сходится к точке минимума. Теорема 7. Если f(x) непрерывна на Rn, Q замкнуто и под- множество {хе Q: f(x)^a} ограничено и непусто для некото- рого а, а точка глобального минимума х* единственна, то задача минимизации устойчива и обобщенно-устойчива. ▲ Можно получить количественные оценки устойчивости для сильно выпуклых функций — эти оценки совершенно аналогичны результатам леммы 2 § 2 гл. 5 для безусловного минимума (см. упр. 6). Более интересен случай острого минимума. Назовем х* точкой (глобального) острого минимума /(х) на Q, если для всех х е Q f(x)>f(x*) + a||x-x ||, а > О, (11) (ср. с (9) § 2 гл. 5). Можно дать аналогичное определение ло- кального острого минимума, а также рассмотреть более общий случай неединственного минимума,, но мы ограничимся наиболее простой ситуацией. Для задач с ограничениями острый мини- мум может достигаться и при гладких f(x) (см. рис. 30). Лемма 1. Следующие условия эквивалентны (11) для вы- пуклой f(x) и выпуклого Q: a) s) a||sl| для всех допустимых направлений s; б) множество —д[(х*) и множество опорных к Q в точке х* векторов имеют общую внутреннюю точку. ▲ Из а) следует, что условия (2) и (11) эквивалентны для гладких выпуклых функций. Для невыпуклых функций можно показать, что в условиях теоремы 2 х* — точка локального ост- рого минимума (см. неравенство (10)). Основное свойство «сверхустойчивости» острого минимума (см. теорему 6 § 2 гл. 5) сохраняется и для задач с ограниче- ниями. Теорема 8. Пусть [(х) — выпуклая функция на R”, Q — вы- пуклое замкнутое множество, х* —точка острого минимума f(x) на Q, g(x)— выпуклая функция. Тогда найдется е0 > 0 такое, что при 0 < е < е0 точка минимума функции f(x) + eg(x) на Q единственна и совпадает с х*. ▲ Упражнения. 3. Докажите, что шар — строго выпуклое множество, а параллелепипед и подпространство — нет. 4. Докажите, что если f(x)—строго выпуклая функция иа R", то мно- жество {х: f(x) sg а} строго выпукло при любом а. 5. Приведите пример выпуклой (но не строго) функции f (х), для которой множества {х: ((х) si а} строго выпуклы. 6. Пусть f(x) —сильно выпуклая функция на R", а множество Q выпукло и замкнуто. Докажите, что решение х* задачи (А) существует и единственно, и f(x) f(x*) + (Z/2) || х — х* ||2 для всех х е Q, где / — константа сильной выпуклости.
§ 2. ОСНОВНЫЕ МЕТОДЫ 185 1. Исследуйте, при каких с е R" в задаче min II х — с Ц2, а гД х tg. Ъ, до- стигается острый минимум. Ответ. Если с/ > &( или ci < аг для всех 1 i -Д п. 8. Покажите, что при условии (6) х* — точка острого минимума. § 2. Основные методы основных методов решения за- Переходим к исследованию дачи (А). Они аналогичны градиентному методу и методу Нью- тона для безусловной минимизации. 1. Метод проекции градиента. Этот метод является непосред- ственным обобщением градиентного метода. Поскольку послед- ний, вообще говоря, выво- дит за пределы множест- ва, можно, добавить опе- рацию проектирования на Q. Таким путем получаем метод (рис. 31): xk+1 — PQ (xk — yVf (xft)), (1) где Pq — проектор на Q (см. § 1 гл. 5). Теорема 1. Пусть f (х) — выпуклая диффе- ренцируемая функция в R", градиент которой удовлетворяет на Q условию Липшица с константой L. Пусть Q выпуклое и замкнутое, X* — Agrmin /(х) =/= 0 и 0 < у < 2/L. х е Q Тогда-. a) А'*; б) если f(x) сильно выпукла, то xk-+x* со скоростью геоме- трической прогрессии; в) если f(x) дважды дифференцируема и 11 ^Х2[(х) sC L1, х ^ Q, I > 0, то знаменатель прогрессии равен <7=niax{| 1 —у/|, г) если х* — точка острого минимума, то метод конечен: xk = х* для некоторого k. Доказательство. Пусть х — произвольная точка мини- мума. Тогда (упр. Y)x = Pq(x — yVf(x)); поскольку оператор проектирования является нерастягивающим ((6) § 1 гл. 5), имеем II- £ II2 = II Pq (xk - yVf И) - Pq (X -- yXf (£)) II2 < < || xk - It - у (V/ (xfe) - Xf U)) II2 = II xfe - It ||2 - - 2y (Vf (xft) - Xf ), xk - X) + у2 II Xf (xk) - Xf (£) ||2.
186 ГЛ. 7 МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ Используя лемму 2 § 4 гл. 1, получаем ||xk+' - £ ||2< ||хк - к ||2 - у (2 - yL) (Vf (xft) - Vf (х), xk - х)< < II Xk — XII2 — у (2 — yL) (Vf (xk), xk — x) < < || xk - к ||2 - у (2 - yL) (f (xft) - f (> Здесь мы применили условие экстремума (1) § 1. Сумми- руя полученные неравенства по k и учитывая, что у (2 — yL) > О, оо находим У, (f (xfe) — f (£)) < оо. Отсюда следует, что 1'im f (xk) — k-+<x> — f* ~ f (х). Последовательность xk ограничена, так как ||xft— х|| Цх°— х||, поэтому можно выбрать сходящуюся под- последовательность хк1—>х*. В силу непрерывности f(x) при этом f (xk‘) f (х*), т. е. f(x*) = f*. Заменяя х на х* и учитывая монотонность ||xft — х*||, получаем, что ?-+х*еГ. Пусть f (х) сильно выпукла, тогда из неравенства ||х*+1_ х*||2 sC llxft — х*||2 — у (2 — yL) (Vf(xft) — Vf(x*), xk — x*) с учетом (31) § 1 гл. 1 имеем ||xft+1 — х*||2 йС (1—у/(2 — — yL))||xft — х*||2, т. е. xfe->x* со скоростью геометрической про- грессии. Если f(x) дважды дифференцируема, то из полученного выше неравенства ||хй+1 — х*|| йС [|ха— х*— y(Vf(x*)—Vf(x*))|| оценка скорости сходимости выводится так же, как и при до- казательстве теоремы 3 § 4 гл. 1. Остается доказать конечность метода для острого минимума. Для произвольного xeQ, используя (2) § 1 (с учетом лем- мы 1 § 1), имеем (х'г — yVf (xk) — х*, х — х*) = = (xfe - х* - у (Vf (xk) - Vf (x*)), x - x‘) - у (Vf (x*), x - x*) < <(1 + yL)||xft — x*||||x — x*|| — y<x||x — x*|| = = ((1 + yL) || xk - x* || - ya) || x - x* || < 0 при |]xfe — x*|| «С ya/(l + yL). Так как xft->x*, то последнее не- равенство выполняется для достаточно больших k. Применяя результат упражнения 2 § 1, получаем, что x*=PQ(xfe—yVf(xft)), т. е. точка xfe+1 совпадает с х*. Л Рассмотрим несколько примеров. Пусть Q = {х: х^О}, xeR’. Тогда Pq(x)==x+ и метод проекции градиента прини- мает вид хк+} — (хк — yVf (xfe))+. (2)
§ 2. ОСНОВНЫЕ МЕТОДЫ 187 Пусть Q = {х: a^Lx^b}, xeR". Будем обозначать для скалярных величин т, а Р т, Р, . а, а т Р, г > Р, т < а, (3) Аналогичный смысл имеет обозначение (х)£ для вектора х, а^.Ь—это вектор, i-я компонента которого равна (xz)®‘. Тогда метод проекции градиента для данного Q выглядит так: xs+! _. (xft _ (xk))ba. (4) Далее, пусть Q — шар: Q= {х: ||х|| ^ р}. Тогда xft — yVf (xft), если || xk — yVf (xfe) ||=Cp, xfe+1 = -! xk-yVf(xk) „ k (5) “л" "* -vw(x)ii>p. Наконец, пусть Q — линейное многообразие, Q={xeR'1: Cx = d}, где C — матрица m X n, R"1. 4 Тогда x*+1 == (/ - G+C) (xfe - yVf (**)) + C+d. (6) Здесь C+—псевдообратная матрица к С (§ 1 гл. 6). Если при этом х° е Q, то xft+1 — х° = Т (хк — х° — yVf (xfe)), (7) где Т = 1 — С+С, а если С — матрица ранга tn < п, то7’ = / — -СГ(ССГ)~'С. Упражнения. 1. Докажите, что условие экстремума (1) § 1 можно записать в виде:- х* = Pq(x* — yW(x*)) для любого у > 0< 2. Пусть условие острого минимума в теореме 1 заменено на более об- щее: f (х) — f (х*) > а || х — Рх. (х) ||, а > 0. Докажите, что метод (1) оста-' ется конечным. 3. Покажите, что если не требовать выпуклости f (х), то сходимости xk к точке локального или глобального минимума может и не быть, однако можно доказать, что f(x*+t) f(xk) и || xk+l — xk || ->0. 4. Предложите конструктивное правило выбора длины шага в методе проекции градиента, аналогичное (10) § 1 гл. 3. 5. Приведите пример, показывающий, что метод x4+1=Pq(x*—Y^W(x4)) не сходится при Н I, Н > 0. 2. Метод проекции субградиента. Аналогом субградиентного метода безусловной минимизации негладких функций является метод проекции субградиента xfe+i _ — у df (xfe)), (8)
188 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ где, как и ранее, df(xk)— любой из субградиентов выпуклой функции f(x) в точке xk. Правила выбора yk аналогичны рас- смотренным в § 3 гл. 5, и мы упомянем лишь два важнейших: Yfe-*0, XVfe = o°, (9) /г = 0 <10> Теорема 2. Пусть f(x)—выпуклая функция на R”, Q — выпуклое замкнутое множество, множество К* точек минимума /(х) на Q непусто. Тогда метод (8), (10) сходится к х* е X*, а если ||df (х)|| с для всех х Q, то и метод (8), (9) сходится к х* <= X*. ▲ 3. Метод условного градиента. Вспомним, что в основе гради- ентного метода лежала идея линеаризации функции. Можно попытаться применить эту же идею для задачи с ограничениями: в очередной точке xk линеаризуем функцию f(x), затем решим задачу минимизации линейной функции на Q и найденную точку используем для выбора направления движения. Из этих сообра- жений приходим к методу условного градиента: хк = argmin (Vf (xfe), х), x = q (11) XS+1 _ xk _|_ (jk _ xky При этом, во-первых, предполагается, что задача минимизации линейной функции на Q имеет решение (для чего естественно потребовать ограниченность Q), во-вторых, что это решение может быть найдено достаточно просто, лучше всего — в явной форме (см. примеры в упражнении 7) и, в-третьих, нужно ука- зать правило выбора ук, 0 yt 1. Теорема 3. Пусть f(x)—дифференцируемая функция, гра- диент которой на Q удовлетворяет условию Липшица с констан- той L, a Q выпукло, замкнуто и ограничено. Пусть ук опреде- ляется из условия скорейшего спуска: YA = argmin f(xft + Y (xfe ~xfe)). (12) 0 < Y < 1 Тогда a) (V/(xft), xk — xk)-+0 и для всякой предельной точки по- следовательности xk удовлетворяется необходимое условие экстремума (1) § 1; б) если ffx) выпукла, то предельные точки — точки мини- мума f(x) на Q и справедлива оценка f(xk)~f*=Om, f* = minf(x), (13) f (Xk) >r>f (Xk) + (Vf (?), xk - xfe);
§ 2. ОСНОВНЫЕ МЕТОДЫ 189 в) если задача имеет острый минимум, то метод (11), (12) конечен. Доказательство. Прежде всего, метод определен, так как при сделанных предположениях точка xk существует. Вве- дем V(x) = f(x)— f*, sk = xk— Тогда в силу условия Лип- шица на VV(x) (см. (15) § 1 гл. 1) y(%fe+i)__ mjn v(xk — ysk)^ min ср (у), ср (Y) = V (xft) - у (Vf (xk), ?) + y2L || ? ||2/2. Обозначим у^ — • По определению xk: (yf (xk), sfe)^0, т. e. Yfc^O. Возможны два случая: 1) у£<£ 1, 2) у£ > 1. В первом V (Х^) < ср (у0 = V (xk) - < V (**) - - (14) где R — диаметр множества Q. Во втором L || sk ||2 < (Vf (xk), sk) и V (xft+>) < ср (1) < V (xk) - (Vf (xk), ?) + (L/2) || sk II2 < < V (xk) - (Vf (A sk)/2. (15) Итак, в обоих случаях V(xk) монотонно убывает, а так как V(x)^ О, то V(xk)—l/(xfe+1)->0. В соответствии с (14) и (15) это влечет сходимость (Vf(xfe), s*)->0. Пусть теперь х* — произвольная предельная точка последо- вательности xk (она заведомо существует, так как Q ограни- чено), хй(->х*. Тогда для любого xsQ (Vf (х*), х - х*) = (vf (х*) - Vf (xft0, x - x*) + + (vf (xfe0, X - xk‘) + (vf (xft0, xki - xft0 + (vf (xft0, xki - x’)_ Первый и четвертый члены правой части стремятся к 0 при i->oo, так как xft‘—>х*> второй Неотрицателен в силу определе- ния xfe, а третий стремится к 0 по доказанному. Поэтому (Vf(x*), х — х*);> 0, т. е. выполнено условие (1) § 1. Пусть f(x) выпукла, тогда х* — точка минимума, l/(xfe)->0 и V(xk) (Vf (xfe), xfe —- x*)sC(Vf(x/e), xk~xk), т. e. V(xft)=C ^(Vf(xfe), sfe). С другой стороны, из (14) и (15) получаем (Vf (xft), sft) < max {(2LR2 (V (xk) - V (xfe+'))'/2, 2 (V (xk)-V (xft+'))}< ^.2LR2 (V (xft) — V (xfe+1))l/2 для достаточно больших k, так как V (xft) —>0. Отсюда V (xft+1) V (xk) — (2Т^2)-1 V (xk)2. Используя лемму 6 § 2 гл. 2, получаем оценку (13). Наконец, пусть f(x) имеет острый минимум на Q в точке х*. Тогда для произвольного хе Q (Vf (xk), х* - х) = (Vf (х*), х* - х) + (Vf (xft) - Vf (x*), x* - x) < — a II x — x* II + LII xk — x* IIIIX — x* IK o
190 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ для xk, достаточно близких к х*. Поэтому для таких xk будет х* = х* (в соответствии с определением xk). Поскольку х*— единственная точка минимума, то будет = 1 (см. (12)) и х'г+1 — х*. А Покажем на примере, что оценка (13) не может быть улуч- шена даже для сильно выпуклых f(x). Пусть хе R2, f(x) = x2 + (l+x2)2, Q = {x: |х,|<1, 0<х2<1} (16) (рис. 32). Тогда х* = {0, 0}, xk = {1, 0}, если xf<0 и xk = =={— 1,0], если х\ > 0. При этом для всех k (14) обращается в (1/4) || sj|2 о2, || sfe ||2 -> 1, т. е. vk = 4/6 + о(1/А), где vk=f (xk) — f* = \\xk—х*||2. Эта ситуация является типичной: если Q — мно- гогранник, а минимум гладкой функции Дх) до- стигается не в вершине Q, то скорость сходимости столь же низка. Это и не удивительно, так как в качестве хк могут высту- пать лишь вершины Q; поэтому направления дви- жения хк—хк сильно от- личаются от направления на минимум х* — xk. С другой стороны, как мы видели, если в зада- Рис, 32. Медленная сходимость метода условного градиента. че имеется острый мини- мум, то метод условного градиента конечен. Таким образом, скорость сходимости метода зависит не только от свойств Дх) и Q (гладкость, выпуклость, сильная выпуклость и т. п.), но и от структуры решения. Параметр yk в методе условного градиента можно выбирать и иначе, чем в (12) (упр. 9). Однако наиболее простой способ xfe+> = xk (т. е. = 1) не годится. Далее, метод условного градиента не обобщается на неглад- кие задачи. Дело заключается в том, что точка минимума Дх) на Q не является неподвижной точкой метода вида (11), в ко- тором градиент заменен на произвольный субградиент. Упражнения. 6. Когда, существует решение задач: a) min (с, х), х Ss 0, xeR’; б) min(c, х), Ах = b, хе R"; в) minfc, х), (Ах, х) si 0, 0 > 0, А 0? Ответ, а) Если с >-= 0; б) если Атс = 0; в) если (с, е1) =0 для всех собственных векторов е1 матрицы А, отвечающих нулевым собственным зна- чениям.
§ 2. ОСНОВНЫЕ МЕТОДЫ 191 7. Убедитесь в правильности решения следующих элементарных задач минимизации: ' если с. > О, а) х* = argmin (с, х), х* = b если с, <0, а<х<& 1 ‘ , любому между а. и Ь., если сг = 0; б) х* = argmin (с, х) = — ||х||<р ||с|| в) х*= argmin (с, х), А > 0, а > 0, х* = A~l (b — Лс), где (1/2) (Ах, х)-(Ь, х)<а А находится из уравнения (Ах*, х*)/2 — (Ь, х*) = а. 8. Пусть х* — решение задачи min (с, х), хеО. Докажите, что х* = <=? lim Р<г(Лс) при оо. 9. Докажите, что все утверждения теоремы 3 остаются в силе, если шаг выбирать из условия ук — min{l, (Vf(xft), xk —xk)IL || xk —xk ||2}. 10. Назовем множество Q сильно выпуклым, если найдется [3 > 0 такое, что если хеО, i/eQ, то и zeQ при II г — (х + у)/2 || si |3 || х — у ||2. Пока- жите, что если Дх)—сильно выпуклая функция на Rn, то множество Qa = = {х: f(x) а} сильно выпукло. Докажите, что сильно выпуклое множество, отличное от Rn, ограничено. 11. Докажите, что если f(x) выпукла и ||Vf(x)|| 2а е > 0 для xeQ, а Q сильно выпукло, то метод условного градиента в условиях теоремы 3 схо- дится со скоростью геометрической прогрессии. 12. Введем функцию ф (х) — min [/ (х) + (V/ (х), у — х)]. Покажите, u<^Q что если Дх) выпукла, то ф(х) si Дх) для всех xeQ, причем равенство достигается тогда и только тогда, когда х = argmin f (х'). Попробуйте He- x' е Q следовать свойства функции ф(х) (выпуклость, дифференцируемость и т. п.). Подумайте, как можно интерпретировать метод условного градиента в тер- минах функции ф(х). 4. Метод Ньютона. Для построения метода Ньютона в за- даче (А) можно использовать ту же идею квадратичной аппрок- симации f (х), что и для безусловного минимума. Разница лишь в том, что нужно отыскивать минимум аппроксимации не на всем пространстве, а на множестве Q. Эти соображения приво- дят к методу xft+1 — argmin ffe (х), x = q (17) h W = f (xk) + (Vf (xft), x - xft) + (V2/ (xft) (x - xfe), x - xft)/2. Теорема 4. Пусть f(x) достигает минимума на выпуклом замкнутом множестве Q в точке х*, причем в окрестности х* f(x) дважды дифференцируема на Q, V2f(x) удовлетворяет усло- вию Липшица и V2f(x*)>0. (18) Тогда метод (17) локально сходится к х* с квадратичной ско- ростью. Доказательство. В точке xft+1 удовлетворяется необхо- димое условие минимума Д(х) на Q, т. е. (Vf* (xft+1), х — xfe+’) — (Vf (xft) + V2f (xfe) (хЛ+' — xk), x — xft+1) Да 0
192 ГЛ. 7 МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ для всех хе Q, в частности для х = %*. Поэтому О < (V/ (xft) + V2/ (xft) (х%+‘ - хк), х* - хк+1) = (V/ (х*), х* - х*+’) + + (V/ (хА) — V/ (х*) + V2f (хк) (xk+i — хк), х* — х'н‘)- Первый член неположителен в силу (1) § 1. Для Vf(x*) —Vf(x*) имеем оценку Vf(xft)—Vf (х*) = V2f(xk) (хк— х*) + г, ||r|| -С (L/2) ||xft— х*||2 (см. (15) § 1 гл. 1). Поэтому О < (V2/ (хк) {хк - х*) + г + V'7 (xft) (х*+' — xft), х* - xft+‘) < < -11| xft+! - x* ||2 + (L/2) || xk - x* ||21| x*+1 - x* ||. Здесь мы воспользовались тем, что V2/(xft) //, I > 0, для всех хк, достаточно близких к х*, в силу (18) и условия Липшица на гессиан. Отсюда либо xk+l = х*, либо || хк+1 - х* || < L || хк - х* li2/(2Z). (19) Если А||х° — х*||/(2/)< 1, то из (19) следует, что и все xk оста- нутся в той же окрестности х*, а оценка (19) означает квадра- тичную скорость сходимости. ▲ Для случая острого минимума нетрудно доказать конечность метода. Однако в этой ситуации вряд ли имеет смысл использо- вать метод Ньютона, так как гораздо более простые методы (проекции градиента и условного градиента) также обладают свойством конечности. Метод Ньютона можно применить лишь в случае, если за- дача минимизации квадратичной функции на Q легко решается. Если Q — многогранник, то (17) является общей задачей ква- дратичного программирования. Как мы увидим в гл. 10, для нее существуют конечные алгоритмы решения. Для частного случая, когда Q — параллелепипед, задача (17) может быть решена с помощью модификации метода сопряженных градиентов, описы- ваемого в следующем параграфе. Наконец, в .простейших слу- чаях, когда Q — шар или линейное многообразие, (17) имеет достаточно простое решение. Упражнения. 13. Покажите, что решением задачи min[(Ax. х)/2—(Ь, х)], А > 0, II х || si р является точка (А + М)-1К где к = 0, если || A~'b || si р, и X на- ходится из уравнения II (А +/./)-’& || = р в противном случае. 14. Рассмотрите модификации метода Ньютона, аналогичные описанным в § 1 гл. 3 для безусловной минимизации, и докажите их глобальную схо- димость. § 3. Другие методы 1. Квазиньютоновские методы. Отметим, что все методы ре- шения гладких задач, описанные в предыдущем параграфе, мо- гут быть получены с помощью общей схемы. Пусть х%+' = argnun ((Vf (xfe), х — хк)+ (Hk (х — xfe), х — xfe)} , (1) где Н/г 0 — некоторая матрица.
§ 3. ДРУГИЕ МЕТОДЫ 193 Очевидно, что при Н k = ^2f (xk') метод (1) переходит в ме- тод Ньютона, а при Hk — Y~lI — в метод проекции градиен- та (так как последний может быть записан в виде хк+1 = = arg min ||х — (хк — yVf (хД) ||2). Можно еще несколько расши- х г Q рить класс методов (1), введя в них процедуру одномерной ми- нимизации: хк = argmin ((V/ (хД, х — xk) + (Hk (х — xk), х — хД) , XSQ 2 7 (2) xft+1 = хк + sk = xk — xk, = argmin f (xk + ysfe). В частности, при Hk = 0 получаем из (2) метод условного градиента. Сходимость подобных методов требует специального анализа. Нельзя, например, воспользоваться результатами о схо- димости методов безусловной минимизации типа хк+1 = хк — — YkHk'Jffxb) с произвольной Hk > 0 (лемма 1 § 3 гл. 3) по- добно тому, как это было сделано в § 2 при доказательстве теоремы 1. Дело в том, что в лемме 1 § 3 гл. 3 в качестве функ- ций Ляпунова выбирается не расстояние до минимума, а Дх) — — f(x*), поэтому нельзя утверждать релаксационность опера- тора проектирования (упр. 1). Однако можно вести доказатель- ство по той же схеме, что и для теоремы 4 § 2. Приведем ха- рактерный результат.- Теорема 1. Пусть f(x) дважды дифференцируема и I! V2f(x) LI, 1~>§, для всех x<=Q, Q выпукло, замкнуто и №-VWft)ll<e<Z/2. (3) Тогда в методе (1) хк локально сходится к х* = argmin Дх) xsQ со скоростью геометрической прогрессии, а если II#* —v2f дД||-^о, (4) то скорость сходимости сверхлинейна. Доказательство. Из определения xfe+I О (Vf ДД + Нк (xs+‘ — xk), х* — xfe+‘) < (Vf ДД - Vf (хД + Hk (xfe+‘ - xk), x* - x4+‘). Ho vf(xfe)-vf (r) = v2f ДДД'-Л + g 1ИК~А||хй-х*11Д поэтому О < ((V2f (хД - Нк) (xk - x*) + Hk (xfe+1 - x*) + r, x* - x%+‘) < < 8 || Xk - X* Illi Xfe+> - X* II - (Z - 8) II XS+> - X* II2 + 4-(Z,/2)||xft — x*||2||xfe+1 — x*||, || Xk+l - X* IK ~ • II Xk - X* ||.
194 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ Отсюда следует, что если' (L/2) ||х°— х*|| < / — 2s, то xk-+x* со скоростью геометрической прогрессии, знаменатель которой тем меньше, чем меньше 8. Аналогичным образом при условии (4) получаем ||xfe+1— х*|| qk\\xk— х*||, <7*-^-О при k-+<x>, что и означает сверхлинейную сходимость. ▲ Теорема 1 показывает, что в задачах, где вычисление матри- цы ¥2f(xk) невозможно или слишком трудоемко, желательно в качестве Hk брать аппроксимацию к гессиану. Это можно сде- лать так же, как в квазиньютоновских методах безусловной ми- нимизации, используя информацию, полученную на предыдущих итерациях. Именно, если доступны градиенты в предыдущих точках, то можно восстановить Н из приближенных равенств V/(x!'+1) — V/'(xz) Н (xz+‘ — xz), i ~ k, .. ., k — n -f- 1, (5) если только xz не лежат в одном подпространстве. Мы не будем подробно останавливаться на подобных мето- дах, так как они в основном используют ту же технику, что и для безусловной минимизации. Разница здесь лишь в том, что в задаче с ограничениями вектор ¥f(xk+l), вообще говоря, не ортогонален направлению движения xk+1 — xk. Упражнения. 1. Приведите пример функции f(x) и матрицы Н > 0, для которых метод хк+1 = хк— HVf(xk) сходится, ио || хк — х* || не убывает монотонно (х* — точка минимума f(x)). С его помощью постройте пример расходимости ме- тода (1) с Н. 2. Докажите результат о глобальной сходимости метода (1) для случая, когда матрица Hk достаточно близка к у~Ч, 0 < у < 2/Z,. 3. Покажите, что метод xft+I=Pl3(x*—(V2f(xk))~lVf(хк)), вообще го- воря, не сходится. В частности, если f(x) квадратична, то при любом х° ме- тод останавливается в точке xi (одинаковой для всех х°), вообще говоря, не являющейся решением. 2. Метод сопряженных градиентов. Начнем со случая, когда' f(x)— квадратичная функция, a Q — подпространство в R", Q — = {х: Сх = 0}, С—матрица тХ« ранга т. Как мы знаем, проекция вектора на это подпространство задается формулой PQ (Х) ===(/- с+с) х = (/ - СТ (ССГУУ с) х. Запишем метод сопряженных градиентов, в котором вектор Vf(x) заменен на его проекцию на Q: xk+l = хк + akpk, aft = argmin/:(-l(;fe + aPft)> x°sQ, a —PQV/!(xft) + ₽ftpfe-1, p° = — PQVf (x°), (6) Можно доказать (упр. 4), что если f(x)—квадратичная функция f(x) = (Ах, х)/2 — (Ь, х), причем (Ах, x)^a||x||2, a > 0, при всех xsQ, то метод (6) заканчивается не более чем за п — т шагов.
§ 3. ДРУГИЕ МЕТОДЫ 195 Таким образом, метод сопряженных градиентов остается конечным при минимизации квадратичной функции на подпро- странстве, причем число шагов тем меньше, чем больше ограни- ничений. Правда, каждая итерация метода связана с дополни- тельными вычислениями — проектированием на подпространство. Пусть теперь Q — положительный ортант в R", т. е. Q = = {х: х^О}, a f(x)—по-прежнему квадратичная функция. Тогда ее минимизацию на Q можно свести к последовательной минимизации на гранях Q. Эти грани имеют вид {х, = 0, ie/, X/> 0, is/}, где / — некоторый набор индексов из множества I, .... п. Минимизация на подпространстве L = {х: X; = 0, i е 1} проводится просто — надо проводить вычисления, как в методе сопряженных градиентов, заменяя нулевыми компоненты из множества / как у векторов xk, так и у градиентов Vf(xfe) (см. (6) и упр. 5). С учетом этих соображений приходим к ме- тоду минимизации f(x) на Q, который мы запишем в координат- ной форме: xft+1 = xk _|_ akpk^ ak _ argmjn f (xk _|_ apk), (7) a > 0 Pl I o, ie=Ik, X (WWE (vf^-1)/)2, 0, если — если k = 0 или ' {«: xf = 0, V/ (xk)t > 0}, h = < если k = 0 или V/ (xk)i = 0 для всех ie/fe_1, в остальных случаях. Иными словами, ведется процесс минимизации методом со- пряженных градиентов f(x) на множестве Lk = {х: х, = 0, X/> 0, гё/ф Он заканчивается либо когда одна из компонент (не принадлежащих Ik) вектора хк обращается в 0 (тогда в множество Ik добавляется номер этой компоненты), либо когда найден минимум на Lk (в этом случае «обновляется» множество Ik). Можно показать, что если f(x) = (Ax, х)/2 — — (Ь, х), А > 0, то описанный метод конечен. Таким образом, мы получили конечный метод решения за- дачи минимизации квадратичной функции при ограничениях х 0. Можно придумать и другие конечные варианты метода сопряженных градиентов, а также обобщить его на случай, когда ограничения имеют вид а х Ь. Для минимизации неквадратичной f(x) на ортанте или па- раллелепипеде можно использовать те же идеи. При этом нужно
196 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ регулировать точность решения задачи минимизации на грани. Разумеется, такие методы не будут конечными. Упражнения. 4. Пусть Q — подпространство в R", /(х)—дифференцируемая -функция на R'*. Рассмотрим fq(x) —ее сужение на Q. Тогда градиент VIq(x) в точке х <= Q определяется равенством fQ(x -f- у} = fo(x) + (VfQ(x),y) + о(у) для всех у е Q, где Докажите, что vfq(x) = PqVi(x). Используя этот результат, покажите, что (6) представляет собой метод сопряженных градиентов для безусловной минимизации fq(x). Отсюда следует, что если fq(x) квадратична, то .метод конечен. 5. Покажите, что если Q = {х: Xi = 0, i е /}, то Pq(x)i = 0, если i <= /, и PqWi = xi, если i ё= /. 3. Минимизация негладких функций. При описании методов безусловной минимизации выпуклых негладких функций в § 4 гл. 5 мы предполагали, что задана область локализации мини- мума. Если в качестве такой области взять множество Q, то окажется, что все эти методы пригодны и для задач с ограниче- ниями. Таким образом, методы отсекающей гиперплоскости, че- бышевских центров, центра тяжести и т. д. дословно переносятся на задачи (А). При этом в них на каждом шаге решается за- дача минимизации линейной или квадратичной функции на мно- жестве Qk, которое задается с помощью условия х е Q и неко- торых дополнительных линейных ограничений. Если Q — много- гранник, то получаем задачу линейного или квадратичного программирования, которая может быть решена стандартными методами. Все результаты о сходимости и скорости сходимости, приведенные в § 4 гл. 5, остаются справедливыми и для задач с ограничениями. Отметим, что наличие острого минимума в не- гладком случае не приводит, вообще говоря, к конечности ме- тодов. § 4. Влияние помех Не будем рассматривать здесь все ситуации столь же по- дробно, как в задачах безусловной минимизации (гл. 4). Нас будут интересовать главным образом новые эффекты, связан- ные с наличием ограничений. 1. Абсолютные детерминированные помехи. Пусть вместо гра- диента Vf(xk) (или субградиента df(xk)) известны лишь их приближенные значения Vf(xft) (df(xk)), причем llW)-W(xft)ll<e (|| df (х*) -df (xk) ||C в). (1) Пусть мы применяем методы § 2 в этой ситуации, т. е. в ме- тодах Vf(xft) и df(xk) заменены на Vf(xk) и df(xk). При этом, вообще говоря, методы проекции градиента и проекции субгра- диента перестают сходиться, а приводят к попаданию в некото- рую окрестность минимума, размеры которой зависят от е. Не- сколько иначе обстоит дело с методом условного градиента.
§ 4. ВЛИЯНИЕ ПОМЕХ 197 Прежде всего, он включает операцию одномерной минимиза- ции, которая не может быть выполнена точно.- Кроме того, точка xk может сильно измениться при замене Vf(xft) на Vf(xft). По- этому метод условного градиента вряд ли целесообразен для за- дач с помехами. Новая ситуация возникает в случае острого минимума. Теорема 1. Пусть х* — точка острого минимума диффе- ренцируемой выпуклой функции f(x) на выпуклом множестве Q. Предположим, что проектирование на Q осуществляется точно. Тогда при условиях теоремы 1 § 2 метод проекции градиента остается конечным, если в нем Vf(xk) заменен на 4f(xk), а е > 0 достаточно мало. Доказательство проводится так же, как в теореме 1 § 2. А Таким образом, задачи с гладкой f(x) и острым минимумом обладают свойством сверхустойчивости некоторых методов — последние дают точное решение даже при наличии абсолютных (но достаточно малых) помех. 2. Абсолютные случайные помехи. Пусть помехи lk = Vf(xk)-Vf(xk) = df (xft) - df (х*)) (2) случайны, независимы, центрированы и имеют ограниченную дисперсию: МГ = 0, Mll^lPCo2. (3) Теорема 2. Пусть f(x)—выпуклая функция на R", Q — ограниченное замкнутое выпуклое множество. Тогда в методе xk+i=pQ(xk — xkdf(xk)), = (4) при выполнении условий (2), (3) будет хк->х* (п. н), где х* — некоторая точка минимума f (х) на Q. Если f (х) сильно выпукла, (со условие S у? < °° можно при этом заме- 6=0 нить на Уб^-О), а если \k = yfk и у достаточно велико, то М[|х*-х*||2 = 0(1/6). ▲ Для задач с острым минимумом, по-видимому, нет необходи- мости устремлять ys к 0. Можно предположить, что при пра- вильной регулировке длины шага метод проекции градиента при наличии случайных помех будет почти наверное конечным в случае острого минимума. Однако вопрос этот не исследован. Для метода условного градиента на первый взгляд кажется естественным поступить так же, как в методе (4), т. е. заменить
198 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ точное значение градиента на приближенное и устремить шаг к 0: xk = argmin (V/ (xk), х), xeQ ~ (5) Xfe+1 == — xfe), ZYfe = °°- k=0 Однако такой метод, как правило, не сходится. Пусть, напри- мер, ищется минимум гладкой функции f(x), xeR1, на отрезке Q = [—а, р], а > 0, р > 0, а минимум достигается в х* = = 0 е Q. Тогда при хк — х* будет V/(xft) = 0 и xk — —а, если >0, хк — р, если Zk > 0. Для симметрично распределенной помехи М (xfe xk) — (р — а)/2=#=0 при р =0= а. Итак, в точке ми- нимума f(x) среднее значение направления движения отлично от 0, поэтому метод не может сходиться к этой точке. Сходимости в методе условного градиента можно добиться, если ввести процедуру усреднения градиентов: хк = argmin (yk, х), xeQ ОО z/fe = z/fe-'+.ufe(vf (xfe) —Pfe-^0, = (6) fe=0 oo xfe+1 = xft + — *ft), Yfe-^0, Eya^00- k=Q Здесь yk— усредненное по предыдущим итерациям значение гра- диента. 3. Относительные помехи. Пусть помехи удовлетворяют условию ||Vf(x)-Vf(x)||<a||Vf(x)||. (7) Мы видели (теорема 2 § 2 гл. 4), что градиентный метод устойчив к таким помехам, если их уровень меньше 100% (т. е. а < 1). В задачах с ограничениями дело обстоит не так: по- скольку в точке минимума х*, вообще говоря, Vf(x*)=?^O, то величина ||V/(x)—Vf(x) || не обязана стремиться к 0 при при- ближении х к х*. Поэтому здесь ситуации с абсолютными и от- носительными помехами мало различаются, и, например, нельзя гарантировать сходимости метода проекции градиента при де- терминированных относительных помехах любого уровня. Действительным аналогом относительных ошибок для задач с ограничениями являются условия типа IIV/ (xk) - V/ (xk) || < а || xk - х* ||, (8) II Vf (xk) - V/ (xk) || < a || xfe+1 - xk ||. (9) Однако такие условия выглядят довольно искусственно, и мы не будем заниматься их анализом..
Глава 8 ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Данная глава посвящена задаче вида minf(x), xeR", (х) = О, i = 1, ..., т, где f, gi — гладкие функции. Эта задача, являющаяся частным случаем общей задачи математического программирования (см. гл. 9), будет рассмотрена отдельно и достаточно подробно, так как идеи основных подходов и методов в данном случае наибо- лее наглядны. § 1. Основы теории 1. Правило множителей Лагранжа. Пусть Q= {х: g,(x) = О, г = 1, ..., т}. Точки xeQ называются допустимыми. Точка х* называется (локальным) минимумом в задаче (А), если она до- пустима и f(x*)^f(x) для всех допустимых х, достаточно близ- ких к х*. Теорема 1 (необходимое условие минимума I порядка). Пусть х* — точка минимума в задаче (А), функции f(x), gt(x) непрерывно дифференцируемы в окрестности х*. Тогда найдутся числа у*0, у*, ..., у’т, не все равные 0, такие, что m y^f^ + Zy^St{x)^Q. (I) i = l Будем называть х* регулярной точкой минимума, если f(x), gi(x) непрерывно дифференцируемы в ее окрестности и Vgt(x*), i— I, ..., m, линейно независимы. Теорема 2 (правило множителей Лагранжа). Если х* — регулярная точка минимума, то найдутся у\, ..., у*т такие, что m Vf(x*)+S//M(x*) = 0. (2) I to I Числа y\, ..., y*m в (2) называются множителями Лагранжа. То, что правило множителей Лагранжа справедливо, вообще го- воря, лишь при условии регулярности, можно увидеть из про- стейших примеров. Так, в задаче minx, х2 = 0, xeR1 точка х* = 0 является точкой минимума (но не регулярной), и равен-
200 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ ство (2) не выполняется ни при каком у*, так как g'(x*) = 0 (см. также упр. 1). Теорема 2 немедленно следует из теоремы 1. Действительно, / т в регулярном случае у*а¥=0 (иначе У, y*lVgl (х*) = 0, у*, у'т не все равны 0, что противоречит линейной независимости Vg/(x*)^. Разделив равенство (1) на уо, получаем (с точностью до обозначений) соотношение (2). Обратно, если доказана тео- рема 2, то верна и теорема 1. Действительно, если \gi(x*) т т линейно зависимы: У, Р- ДД (х*) = О, У, ц? =£0, то равенство i=i i=i (1) справедливо при у*о — О, y* = iii, Следова- тельно, достаточно доказать теорему 2. Ниже будут рассмотре- ны три различных доказательства. Это вызвано как важностью результата, так и использованием идей этих доказательств при построении методов минимизации. Рис. 33. Касательные векторы. Составим так называемую функцию Лагранжа т L (х, у) = f (х) + (у, g (X)) = f (х) + У gigi (*), (3) определенную на R”X Rm. Здесь и далее мы используем вектор- ную запись y = (yi, ..., Ут), g(x) = (gi(x), ..., gm(x)). Тогда правило множителей Лагранжа формулируется так: = L'y (х*,у*) = 0, (4) где L'x, L'y означают производные по соответствующим пере- менным. Запись в виде (4) удобна симметрией по переменным х и у, называемым соответственно прямыми и двойственными. Доказательство, основанное на теореме Лю- стерника. Пусть Q с R"—некоторое множество, х е Q. Век- тор se R" называется касательным к Q в точке х, если для всех достаточно малых т>0 найдутся точки x(r)eQ такие, что ||х(т)— (х + те) || — о(т) (рис. 33). Если Q выпукло, то всякое
§ 1. ОСНОВЫ ТЕОРИИ 201 допустимое направление (§ 1 гл. 7) является и касательным, но не наоборот (см. упр. 3). Очевидно, что касательные векторы образуют конус Sq(x) (т. е. если seS, то и ZseS при 7. 0). Обратите внимание на то, что если х — граничная точка шара, то конус S является полупространством, а не гиперплоскостью. Так что здесь термин «касательный вектор» имеет другой смысл, чем в геометрии. Теорема 3 (Люстерник). Пусть Q={xgR": g((x) = 0, Z=l, ..., m}, где gt(x)—непрерывно дифференцируемые в окрестности x*eQ функции, причем 4gi(x*), /= 1, .... пг, ли- нейно независимы. Тогда SQ(x*) = {s^Rn: (s, ygz(x*)) = 0, z = l, ..., пг}, (5) т. e. касательные к множеству Q в точке х* векторы обра- зуют подпространство, ортогональное векторам \gi (х*), .., ..., Vgm(x*). ▲ Для доказательства правила множителей Лагранжа нам по- надобится следующий результат. Лемма 1. Пусть А — матрица my(.n, L = {х е R": Ах = 0} и (с, х) 0 для всех х s L. Тогда с — Ату, z/ е Rm и (с, х) = 0 при хе L. Доказательство. Множество L\ — {х е Rra: х = Агу, у е R"1} выпукло и замкнуто, как подпространство в R". Если с ё= L\, то по теореме отделимости точка с может быть строго отделена от L\, т. е. найдется а е R", такое, что (а, с)<0и (а, х)^0, хе L\. Но тогда 0 <7 (а, х) = (а, Ату) — (Аа, у) для всех (/eR81. Это возможно лишь, если Аа = 0, а е L, что про- тиворечит условию (а, с)<0. Итак, се£ь ▲ Доказательство теоремы 2. Пусть s — касательный вектор к множеству Q — {х: gi(x) = 0, i = 1, ..., пг} в точке х*. Тогда найдутся х(т) такие, что £р(х(т))=0, i = 1, ..., пг, IIX* 4- TS — х (т) II = о (т). Поэтому f (х (т)) = f (х* + TS + о (т)) = f (х*) + т (Vf (х*), s) 4- о (т). Поскольку f (х(т)) f (х*) для достаточно малых т, то отсюда (Vf(x*), s)i>0. По теореме Люстерника (s, VgI(x*))=0, m i— I, ..., m. Используя лемму 1, получаем Vf (x*) = X HzVg(-(x*), <=i где щ — некоторые числа. Положив z/* =— Ц(-, £ == 1, ..., пг, приходим к (2). А 2°. Доказательство, основанное на исключе- нии переменных. Если Vg/(x*) линейно независимы, то ма- трица g'(x*), строками которой являются Vgi(x*), , ¥gm(x*), имеет ранг пг. Поэтому найдутся компоненты вектора х, число которых равно пг (их множество обозначим /), такие, что ма- трица с элементами dgf(x*)/dxi, /'==1, ..., m, i се I имеет
202 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ обратную. Запишем вектор xeR" в виде х— {и, v}, где и g R” — компоненты х с индексами из /, R"-"1 — остальные компоненты. Тогда матрица g'u(u*> v*) (где g(u> v)~g(x)’ х* = {и*, и*}) имеет обратную. Рассмотрим равенство g(u, v) = = 0. Поскольку g(u*, v*)—0, g непрерывно дифференцируема в окрестности {и*, п*} и матрица g'u(u*, v*) невырождена, то по теореме о неявной функции (теорема 2 § 3 гл. 2) найдется диф- ференцируемая в окрестности у* функция u(v) такая, что u(v*)= и*, g(u(v), v) =0и u'(v)=—[g'u(u(v), г1)]’ g'v (и (и), v). Рассмотрим теперь функцию <p(v) = f(u(v), v), где f(u, v) = — Функция ф(у) достигает локального безусловного минимума в v*. Действительно, при любом v, близком к к v*, g(u(v), v) = 0, т. е. точка х = (и(и), v) является допу- стимой, а потому <p(v*) — f(u(v*), — v*) = f(x*)^. Д f(x) — f(u(t>), и) = ф(и). Следовательно, Уф(ц*) = 0. Но по правилу дифференцирования сложной функции Уф(у) = = ц'(п)г f'u (u(v), v)r + f'o (u(v), v)r. Поэтому о = УФ (у*) = - g'v (и*, [g'u (и, цу]-1 f'u (и*, + f'o (if, vy. Обозначим = (6) Тогда f'u (и*, v*)T + g'u (u\ y*=0, f'o (if, v*Y+g'v (if, v*? /==0, что эквивалентно равенству (2). ▲ Это доказательство основывается на идее сведения задачи с ограничениями к задаче на безусловный минимум путем исключения переменных. Именно, переменные xeR’ разби- ваются на две группы ueR's, v е R"-m; из равенств g(x)=0 выражаем одну группу через другую: u — u(v) и рассматри- ваем задачу безусловной минимизации для <p(v) — f(u(v), v). Необходимое условие минимума для нее (Уф (и*) — 0) порож- дает условие экстремума для исходной задачи. При этом фор- мула (6) дает явное выражение для множителей Лагранжа. 3°. Доказательство, основанное на штрафных функциях. Пусть U — {х: ||х — х*|| е}, где величина е > 0 такова, что f, gi непрерывно дифференцируемы в U и х* — точка глобального минимума f на Qf] У- Рассмотрим задачу т min fk (х), fk (х) = f(x) + j К У £2 (х) + 41| х - х‘ ||2, (7) хе= U .. i ~ 1 где К — некоторый параметр. В силу непрерывности Д(х) за-
§ 1. ОСНОВЫ ТЕОРИИ 203 дача (7) имеет решение хк. Тогда Uxft)<fft(x*), f +4 * Е & +4 и %* - %* ip < t (х*), (=1 Е £ < i (j <**) - t - 4 iixk -х* ii2) • i=i Величина в правой части стремится к 0 при 7<->-со (так как ||х& — х*|| С; в), поэтому g(x%)->0. Выберем подпоследователь- ность xki-+x<=U, тогда g(x) = 0, f(x)+ IIх — х*||2/2 С f(x*), но с другой стороны, поскольку л* — точка минимума на Q, то f(x*)^f(x). Поэтому х = х*. Так как всякая предельная точка для xk совпадает с х*, то xk-^-x* при 7(-*-оо. Поэтому для доста- точно больших К > 0 точка хк лежит внутри U. Следовательно, условие минимума для нее приобретает вид vffe (х%) = 0, т. е. т Vf (Xft) + К Е gi (Xk) VSi (xfe) + xk - r = 0. (8) i — 1 Введем величины ,.fe Ksi (xfe) У‘ /------m------ д/1 + ^Е/Их") m. Равенство (8) можно записать в виде т yfif (xk) + Е ylvgt (xk) + (xk — x*) ук = 0. (9) tn Имеем E (^z)2 == 1 Для всех поэтому существует последо- m вательность ks-+co такая, что !/*/->«/*, г=0, ... Щ, Eq (^z)2 — 1 • Переходя к пределу в (9), получаем (1). ▲ В данном доказательстве эксплуатируется та же идея, что и в предыдущем, — использование необходимого условия экстре- мума в задаче без ограничений для получения необходимого условия в задаче с ограничениями. Однако способ сведения од- ной задачи к другой здесь совсем иной — строится последова- тельность (К-±оо) задач безусловной минимизации, отличаю-
204 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ щихся все большим «штрафом» за нарушение ограничений (член т -i- в решения которых в пределе стремятся к г = 1 решениям исходной задачи условной' минимизации. Приведенное в данном пункте доказательство наиболее про- стое по используемым в нем средствам (не применяется ни тео- рема Люстерника, ни теорема о неявной функции, ни аналогич- ные им утверждения). Упражнения. 1. Рассмотрите задачу (А) в R2 с f (х) = х2, (х) = (xi — I)2 + х% — 1, g (х) = (х + I)2 + х2 — 1 (рис. 34). Покажите, что х* = {0, 0} — не регуляр- ная точка минимума, и в ней не вы- полняется (2). 2. Убедитесь, что если gi(x) — = (а‘, х) — bi, i — 1, ..., т, то (2) совпадает с (8) § 1 гл. 7. 3. Покажите, что если Q выпукло, то касательный конус S является выпуклым и совпадает с Г — замы- канием конуса, порожденного допу- стимыми направлениями (см. дока- зательство теоремы 3 § 1 гл. 7). 4. Убедитесь, что для примера из упражнения 1 теорема Люстерника неприменима для х* = 0 и (5) не- Рис. 34. Задача с нерегулярным ми- нимумом. верно. 5. Покажите, что если точка х* — локально единственный минимум, то в функцию fk(x) (см. доказательство в п. 3°) можно не включать член ||х — х*||2/2. 6. Убедитесь, что если минимум регулярный, то для величин Kgt(xk') (см. доказательство в п. 3°) существует предел при К Kgt (xfe) -> уфу^. 2. Условия минимума II порядка. Теорема 4 (необходимое условие II порядка). Пусть х* — регулярная точка минимума в задаче (Д), f(x) и gi(x) дважды- непрерывно дифференцируемы в окрестности’х*, а у*{, i ~ 1, ... ..., tn,— множители Лагранжа. Тогда 7 m \ (.L"x (х*, /) S, $) = ((V2/ (х‘) + Е y*iV2gi (х)) s, s) > 0 (Ю) \ 1«=» 1 / для всех sgS = {s: (Vgz(x*), s) = 0, i — 1, ..., m}. Иными словами, матрица А"х(х*, у*) неотрицательно опреде- лена на касательном подпространстве S (см. (5)). Доказательство. Пусть seS. В соответствии с теоре- мой Люстерника найдутся допустимые х(т) такие, что
§ 1. ОСНОВЫ ТЕОРИИ 205 ||х* Ч-ts — х (т) || = о (т). Тогда, используя (4), получаем f(x'Xf(xW) = L(xW, /) = Т(х, У*)+(Ь'х(х\ у*), х(т)-х‘)+ + (L"xx (х*. у*) (х (т) - х*), х (т) - х‘)/2 + о (т2) = = f(x*) + (T2/2)(L^(x*, у*) s, 8) + о(т2), откуда (L"x(x*, t/*)s, s)>0. А Кажущееся на первый взгляд естественным более общее не- обходимое условие экстремума L"x(x*, у*)^0 на самом деле неверно (см. упр. 8). Прежде чем переходить к достаточным условиям экстре- мума, приведем некоторые вспомогательные результаты, относя- щиеся к матрицам специального вида. Эти результаты будут си- стематически использоваться в дальнейшем. Лемма 2. Пусть А — симметричная матрица п\п, С — ма- трица тХп ранга т и (Ах, х) > 0 для всех х =# 0 таких, что Сх — 0. Тогда блочная матрица B = (c^ о» размерности (m + n)X(m + п) имеет обратную. А Лемма 3. В условиях леммы 2 найдутся такие Ко > 0, а > 0, что А КСТС X о! при К Ко- А Лемма 4. В условиях леммы 2 для достаточно больших К || (А + КСТСГlCT II < щ/К, II с (А + КСТС)-' II < аг/К, 11 z -кс (А + кстсу{ст у аз/к< где o,i — некоторые константы. А Лемма 5. В условиях леммы 2 для матрицы Bk = ( АСТ. \ (12) Vе -Н при достаточно больших К существует В'Х\ причем || Bk 11| X X- А Вернемся к формулировке условий экстремума. Теорема 5 (достаточное условие II порядка). Пусть jgr/(x*) = 0, t = l, tn, функции f(x) и gi(x) дважды непре- рывно дифференцируемы в окрестности х*, Vgi(x*), i = \,... ,m, линейно независимы, выполнено необходимое условие минимума (4) и Lxx(x*, у*) s, s) > 0 (13) при всех s таких, что (Vgi(x*), s) = 0, i— 1, ..., m. Тогда x* — точка локального минимума в задаче (А). Иначе говоря, если в х* выполнено необходимое усло- вие экстремума I порядка и матрица Lxx (х*, у*) положительно
206 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ определена на касательном подпространстве S, то х*—-точка минимума. Точку х*, в которой выполняются условия теоремы 5, будем называть невырожденным минимумом. Доказательство. Введем функцию М (х, у, К) = f (х) + (у, g (х)) + (Z</2)|| g (х) ||2 = ==Z(x, y) + (A/2)||g(x)||2, (14) где К > 0 — некоторый параметр. Тогда М'х(х*, у\ К} = = L'x (Z, у*) = 0, М"х (х*. у*) = ГД (х*, /) + Kg' UT g' (Г). Для матриц A~LxX(x*,y*) и . С = g' (х*) применима лемма 3, по- этому для достаточно больших К > 0 будет М'Ж у*, К)>0. (15) Таким образом, выполнено достаточное условие локального минимума М(х, у*, К) (теорема 4 § 2 гл. 1), т. е. А4(х, у*, А) М(х*, у*, К) для всех х, достаточно близких к х*. Но для xgQ .(t. е. для допустимых х) имеем М (х, у*, К)=?(х), т. е. f(x)^/(x*) для хериз окрестности х*. ▲ Функция А4(х, у, К) (14) называется модифицированной функцией Лагранжа. Она играет важную роль в теории услов- ной оптимизации. Остановимся на некоторых ее свойствах. Прежде всего, она отличается от обычной функции Лагранжа (3) наличием «штрафного члена» (А/2) ||g(x) ||2 и совпадает с (3) при К = 0: М(х, у, 0) = L(x, у). Далее, если /eQ, то А4(х, у, K) — L(x, y) = f(x) и М'х(х, у, К) = [/Х(х, у), а М'и(х, у, K) — L'y(x, y) = g(x). Поэтому необходимое условие мини- мума I порядка имеет вид, аналогичный (4): М'х (х*, /, К) = о, М'у (х*, у*, К) = о, (16) где множители Лагранжа у* те же, что ив (4). Однако на уровне условий II порядка начинаются различия между М(х, у, К) и L(x, у). Мы убедились при доказательстве теоремы 5, что если х* — невырожденная точка минимума в за; даче с ограничениями (А), то х* — невырожденная точка безус- ловного минимума М(х, у*, К) при достаточно больших К- Для обычной функции Лагранжа аналогичное утверждение невер- но— точка х* является стационарной точкой L(x, у*), однако не обязательно точкой минимума (см. упр. 8). Указанное свой- ство модифицированной функции Лагранжа позволяет строить эффективные методы оптимизации с ее помощью (§ 2). Упражнения. 7. Покажите, что в задаче min f (х), Лх === b необходимые условия мини- мума имеют вид: V/ (х*) + Ату* = 0, (V2/ (х*) s, s) 0 для всех s таких, что Лз = 0.
§ 1. ОСНОВЫ ТЕОРИИ 207 8. В задаче min f (х), х е R2, g (х) — 0, f (х) = х^ — х%, g (х) = х9 реше- нием является х* — {0, 0}, при этом у* — 0. Проверьте, что матрица Lxx (х , у ) незнакоопределенна. 9. Пусть A, D — симметричные матрицы га X я и m Хи, С — матрица /Д £Г\ m X «> В = I £ q J — матрица (n + m) X (« + т). Докажите, что условие В|>0 эквивалентно условиям А 0, СА+СТ — D 0, а В > 0 — условиям А > 0, СА~гСт — D > 0 (обобщение критерия Сильвестра на матричный случай). 10. Докажите, что в условиях теоремы 5 х* = argmin В(х, у*). x<=.s 3. Использование условий экстремума. В обычных курсах ма- тематического анализа изучение задач условной минимизации заканчивается выводом условий экстремума. Считается, что они дают возможность найти решение. Разумеется, это не так. Пра- вило множителей Лагранжа задает систему уравнений (4) отно- сительно х*, у*. Эти уравнения нелинейны (за исключением слу- чая квадратичной f(x) и линейных gtix)), и их решение найти в явной форме обычно невозможно. Все приводимые в учебниках примеры, демонстрирующие возможность решения задач с по- мощью множителей Лагранжа, являются специально подобран- ными исключениями из правил типа приводимых в упражне- нии 11. Подлинное значение условий экстремума заключается в дру- гом (ср. аналогичные замечания в § 2 гл. 1). Во-первых, с их помощью строятся численные методы отыскания решения. Во- вторых, они дают возможность после того, как решение найдено, судить о его единственности, устойчивости и т. д. (см. ниже). Наконец, они задают те естественные требования к задаче, при которых ее удобно анализировать (например, исследовать схо- димость методов). Многочисленные примеры подобного использования условий экстремума будут постоянно встречаться нам далее. Упражнение. 11. Найдите решения следующих задач с помощью множителей Лагран- жа и докажите оптимальность ответов с помощью достаточных условий эк- стремума: п п б) min У х(-, У х] = 1; 1=1 i=I в) min (Лх, х), || х || = 1; г) .min || х ||?, (Ах, х) = 1. Ответы, a) Xj = 1/я, i = 1, . . . , п: б) х* = —\1л/~п, 7=1,..., я; в) х* = е1—нормированный собственный вектор, отвечающий наименьшему
208 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ собственному значению матрицы А; г) х* = еп — нормированный собственный вектор, отвечающий наибольшему собственному значению матрицы А, решение существует при 'хп 3> 0. 4. Существование, единственность и устойчивость решения. Вопрос о существовании решения вновь решается с помощью теоремы 4 § 1 гл. 7, и здесь специфика задачи (А) не играет роли. Что касается единственности решения, то воспользоваться теоремой о единственности минимума строго выпуклой функции на выпуклом множестве для задачи (А) обычно не удается, так как множество Q, задаваемое нелинейными ограничениями типа равенств, невыпукло (за исключением вырожденных случаев) (см. упр. 12). Однако здесь можно привести апостериорные условия единственности.^ Теорема 6. Н евырожденная точка минимума локально единственна. Действительно, при доказательстве теоремы 5 мы получили, что невырожденное решение х* задачи (А) является невырож- денной точкой безусловного минимума М(х, у*, К), поэтому най- дется />0 такое, что М(х, у*, К) — М(х*, у*, К)^/||х— х*||2 в некоторой окрестности х* (см. (2) § 3 гл. 1). Поскольку f(x) = = А4(х, у*, К) для хе Q, то f (х) - f (х*) > III х - х* IP (17) для xeQ из окрестности х*. ▲ Совершенно очевиден следующий результат о единственно- сти множителей Лагранжа, вытекающий из определения регу- лярной точки. Теорема 7. Для регулярного минимума множители Ла- гранжа определяются однозначно. А Переходя к анализу устойчивости, начнем с вопроса об устой- чивости решения по отношению к возмущениям в ограничениях. Наряду с исходной задачей (А) введем «возмущенную» задачу min f (х), / • 1 О8') ^(х) = ег, z= 1, ..., т, где е = (ei, ..., 8т) Б R,,! — некоторый вектор. Обозначим ее ре- шение (если таковое существует) через хе, и пусть <р(е) — /(хе). Нас будет интересовать, когда хе-»-х* при е-»-0 (х* — решение (А)), а также оценки близости хе к х* и поведение ф(е) для малых е. Теорема 8. Пусть х* — невырожденное решение задачи (А). Тогда при достаточно малых ||е|| существует хе, причем ||хе-х*|1=О(е), V<p(O) = —у*.
§ 1. ОСНОВЫ ТЕОРИИ 209 Доказательство. Пусть z — {х, у} xeR", у^ Rm, ВД — оператор в Rn+m, определяемый следующим обра- зом: R (z) — {L'x (х, у), L'y(x, у}}. Тогда система уравнений (4) может быть записана в виде Я(з) = 0. (20) Очевидно, что /?(г*) = 0, где z* — {х*, у*}, х* — решение задачи (Л), у* — соответствующие множители Лагранжа. Вычислим R'(z*). Имеем «'<*’)=(с со) Л = /), (21) Из леммы 2 следует, что матрица R'(z*) невырождена. В соот- ветствии с теоремой 3 § 3 гл. 2 система R(z) = a (22) имеет решение za при достаточно малых ||а||, причем za = z*-[R'(z*)V'a + o(a). (23) Возьмем а — {0, е}, aeR'1+m, eeR'1. При этом система (22) эквивалентна следующей: Vf (х) + g' (х)ту = 0, g (х) = е, (24) и у нее существует решение za = {хе, уЕ} при достаточно малых е. Тогда точка хЕ, во-первых, удовлетворяет ограничениям за- дачи (18). Во-вторых, в силу непрерывности ¥gi(x) и регулярности х* градиенты Vgi(xe) также линейно независимы при доста- точно малых ||е||. В-третьих, в хе выполнено (в силу (24)) необ- ходимое условие минимума в задаче (18) с множителями Ла- гранжа уе. Наконец, в силу непрерывности первых и вторых про- изводных и линейной независимости Vg,(x*) выполняется усло- вие LxX(xe, ys)>® на подпространстве S8 = {s: (ygi(xe), s)~ — 0, i= 1, ..., m}. Итак, в точке xs выполняется достаточное условие экстремума II порядка, т. е. хе — решение задачи (18). Из соотношения (23) следует ||za— г*|| <х||а||, а — некоторая константа, поэтому ||хе— х*|| а||е||. Наконец, ф (е) = f (xg) = f (х*) + (Vf (х*), хе — х*) + о (|| хе — х* ||) = = f (**) — (g' (хУ у*, хе — х‘) + о (е) = = f (х*) — (g (хе) — g (х*), у*) + o(e) = f (х‘) — (/, е) + о (е). Значит, \7ф (0) = —у*. ▲ Из теоремы 8 следует устойчивость невырожденного мини- мума по отношению к возмущениям в ограничениях. В частно- сти, если для последовательности xk из окрестности невырож-
210 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ денного минимума х* будет lim gt {xk) — 0, z = l, ..., tn, ОО lim f (x4) = f (x*), то эта последовательность сходится к х*. &->ОО Устойчивость по отношению к возмущениям минимизируемой функции исследуется точно так же. Приведем характерный ре- зультат. Теорема 9. Пусть хе — решение задачи min[f(x)-|- е/г(х)], gi(x)—0, Z = 1, ..., т, где eeR1, Л(х)— дважды непрерывно дифференцируемая в окрестности х* функция, х* — невырожден- ное решение задачи (А). Тогда при малых |е| хе существует и хе->х* при е->0. А Предположение о невырожденности минимума в теоремах 8, 9 существенно. Например, если решается задача minx, g(x) = = х2 = 0, R1, то ее решение х* — 0 нерегулярно. Для возму- щенной задачи с ограничением g(x) = e при е < 0 решения не существует (допустимое множество пусто), а при е>0 хе = = Ve и оценка (19) нарушается. Упражнение. 12. Пусть g':R"->R1—строго выпуклая функция. Докажите, что если множество {х: g'(x) = 0} содержит более чем одну точку, то оно невыпукло. § 2. Методы минимизации 1. Классификация методов. Методы решения задач условной оптимизации многочисленны и разнообразны. Их можно клас- сифицировать как по формальным признакам, так и по содер- жательным. Как и ранее, можно выделить методы нулевого, первого и второго порядков в зависимости от порядка используемых про- изводных. Мы в основном будем иметь дело с методами первого порядка (в которых вычисляются градиенты Vf(x) и Vg((x)) и второго порядка (в которых требуется знание V2f(x) и V2g/(x)). Далее, методы делятся на прямые (в которых итерации ведутся в пространстве прямых переменных х) и двойственные (которые существенно используют двойственные переменные у). Во мно- гих методах на каждом шаге решается некоторая вспомогатель- ная задача, и с вычислительной точкой зрения удобно вести классификацию по ее типу. Это может быть задача безусловной минимизации, задача минимизации линейной или квадратичной функции при линейных ограничениях и т. д. Наконец, сами идеи, лежащие в основе методов, разнообразны. Это идеи исклю- чения переменных, линеаризации, штрафных функций, обычной и модифицированной функций Лагранжа и т. д. Ниже будут рас- смотрены наиболее важные в идейном или вычислительном от- ношении методы,
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 211 2. Метод линеаризации. В этом методе на каждой итерации минимизируемая функция и ограничения линеаризуются. По- скольку задача минимизации линейной функции при линейных ограничениях может не иметь решения, в функцию добавляется квадратичный член (ср. с аналогичным приемом при построении градиентного метода (3) § 4 гл. 1). Таким путем приходим к методу, где очередное приближение хк+1 является решением сле- • дующей вспомогательной задачи: min [(Vf (xfe), х — xfe) + (2y)-1||x — xfe||2], gi (xk) + (Vg£ (xfe), x — xk) = 0, i = 1, ..., m, где у > 0 — некоторый параметр. С такого рода задачей мы уже встречались неоднократно (гл. 7). С одной стороны, метод (1) может быть записан как метод проекции градиента на линеари- зованные ограничения: xfe+1 = P^(xfe-Yvf(xfe)), Qfe = {x: g (xfe) + g'(xfe) (х — xfe) = 0}. С другой стороны, решением системы линейных уравнений (1/у) (х - xk) + g' (xky y = -Vf (xfe), g' (xk) (x — xk) = — g (xk) является вектор {хк+{, yk+v} e первые компоненты кото- рого совпадают с x&+1. Таким образом, для нахождения хк+1 до- статочно решить систему линейных уравнений (3) (размерности п-\-т). Получаемый при этом вектор yk+i является, как мы увидим далее, оценкой для множителей Лагранжа у*. Теорема 1. Пусть х* — точка невырожденного минимума, a V2f(x), V2gz(x) удовлетворяют условию Липшица в окрестно- сти х*. Тогда существует у > 0 такое, что при 0 < у <; у метод (1) корректно определен и локально сходится к х* со скоростью геометрической прогрессии. Доказательство. Прежде всего, в силу линейной незави- симости Vgi(x*), i= 1, ..., tn, векторы Vgi(xk), i=l, ..., m, также линейно независимы для xk, достаточно близких к х*, и потому и метод (2) корректно определен, т. е. точка xk+l существует. В соответствии с (2) метод может быть записан в виде (см. (6) § 2 гл. 7) = (/ - C+Cfe) (х* - Vvf (xk)) + С+ (Ckxk - g (xfe)), Cfe = g'(xfe). () Поскольку Ck = C + g" (x*) (xfe — x) + о (x% — x*), где C = g' (x*), Vf (xft) = vf (x*) + v2f (x*) (xfe - x*) + о (xk - x*), vf (x*) + CPy* - 0.
212 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ а С+ = СТ(ССТ) *, то для х\ достаточно близких к х*, получаем xk+i —х* = D (хк — х*) + о (хй - х"), £) = (/ — Сг (ССТ1 С) (/ - уЛ), А = LL (х*, у*). (5) Покажем, что при достаточно малых у>0 будет р(£))< 1, где p(D)—спектральный радиус D. Действительно, рассмотрим итерации uk+l = Duk при произвольном и° е Rn. Поскольку Du— = PS(I — у А) и, S = {х: Сх=0}, то все uk принадлежат S, k~^A. Поэтому для k 1 || (/ — у Л) ик ||2 = || ик ||2 — 2у (Аик, uk) + у21| Auk ||2 || ик ||2 - 2у/1| ик ||2 + у21| А ||21| ик ||2, так как (Аи, и) /||м||2, I > 0, для ие$ в силу невырожден- ности х*. Значит, || (/ — уЛ) ufe|| </||u*||, q < 1, для малых у > 0. Но ||/—Ст (CCT)~lC\\ 1, так как I—СТ(ССТ)~}С—’Оператор проектирования, см. (6) § 1 гл. 5. Итак, ||гД+1|| <7llw*||, q 1, k^l, т. e. что эквивалентно условию p(Z))< 1 (след- ствие из леммы 1 § 1 гл. 2). Применяя теперь теорему 1 § 1 гл. 2 к (5), получаем требуемый результат. ▲ Теорема 1 является типичной в ряде отношений. Во-первых, в ней доказывается лишь локальная сходимость метода. Это естественно, так как в задачах с нелинейными ограничениями типа равенств допустимое множество, как правило, является не- выпуклым, что уже отмечалось выше. Поэтому для таких задач нельзя надеяться ни на какой глобальный результат. Во-вторых, основным аппаратом при доказательстве является теорема 1 § 1 гл. 2. Впрочем, чаще итерационный процесс рассматривается одновременно для прямых и двойственных переменных (х и у) и эта теорема применяется в пространстве R'l+m. В-третьих, де- лается предположение о невырожденности минимума. В случае вырождения можно иногда доказать факт сходимости того или иного метода первого порядка, но нельзя гарантировать сходи- мость со скоростью геометрической прогрессии. Наконец, в тео- реме 1 не приводятся явные выражения для параметров (у, зна- менателя прогрессии, размера области сходимости). В принципе такого рода оценки можно выписать, но полученные выражения были бы громоздкими и в них входили бы неизвестные априори величины (например, у*). Поэтому мы будем обычно ограни- чиваться утверждениями типа теоремы 1, дающими качествен- ную картину поведения метода. 3. Двойственные методы. В методе линеаризации не фигури- руют явно ни функция Лагранжа, ни двойственные переменные (хотя, как мы видели, он дает приближения и для множителей Лагранжа). В описываемом ниже методе (называемом также
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 213 методом Эрроу — Гурвица) прямые и двойственные переменные равноправны: = yL'x {х\ у*) = - у (yf (^) + g' (%У у^ yk+l = yk + уЦ (Л yk) -yk + Ng (xk). (6) Иначе говоря, делается шаг градиентного метода минимизации функции Лагранжа по х и одновременно—максимизации той же функции по у. На сходимость такого метода трудно рассчи- тывать в общей ситуации. Действительно, мы уже отмечали, что функция Ь(х, у*) не обязательно достигает минимума по х в х*. Но если взять у° = у*, то (6) переходит в градиентный метод для L (х, у*), который, как мы знаем (из теоремы 1 § 2 гл. 6), не сходится к стационарной точке, отличной от точки минимума. Поэтому приводимая ниже теорема 2 включает дополнительное требование положительной определенности матрицы ДД(х*, у*). Теорема 2. Пусть х* — невырожденная точка минимума, Г'хАх*, У*) > 0 и вторые производные V2f(x), V2gt(x) удовлетво- ряют условию Липшица в окрестности х*. Тогда найдется у > О такое, что при 0 < у < у метод (6) локально сходится к х*, у* со скоростью геометрической прогрессии. Доказательство. В обозначениях zk—{xk— х*, yk — у*} метод может быть записан в виде zk+1 = Dzh + o(zk), D — 1—уВ, Л = ДД(х*, /), C = g'(x‘). Покажем, что матрица —В устойчива. Это эквивалентно тому, что для системы z = — Bz будет г(/)->0 при и любом z(0) (см. лемму 3 § 1 гл. 2). В переменных х, у система принимает вид х—— Лх — Сту, у — Сх. Возьмем p(f) == (||х(/) ||2+1|г/(О II2)/2, тогда р=(х, х) + (у, у)=—(Ах, х) — {Сту, х) + (Сх, у) = = — (Лх, х) С—а||х||2, так как Л > 0. Поэтому р монотонно убывает, отсюда р->0, и потому х(/)->0 при £-><х>. Поскольку х(/) — решение линейного дифференциального уравнения, то из х(/)->0 следует и х(/)->0. Таким образом, Су — —х — Лх->0 при /->оо. Поскольку ранг С равен т, то это влечет у->0. Итак, z(/)->0. В силу леммы 5 § 1 "гл. 2 спектральный радиус D,— = I — у В меньше 1 при достаточно малых у > 0. Применяя тео- рему 1 § 1 гл. 2 для (7), получаем требуемый результат. А Можно модифицировать метод (6), осуществив полную ми- нимизацию функции Лагранжа по х вместо одного шага гра- диентного метода: xfe+1 = argmin L (х, yk), yk+1 = yk -ф yg (xft+1). (8) x e P/1
214 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Оказывается, что в предположениях теоремы 2 метод корректно определен при у°, достаточно близких к у* (т. е. xk+1 сущест- вует), и для (8) справедливы утверждения теоремы 2. Таким образом, переход к более трудоемкому методу (8) (в нем тре- буется на каждом шаге решать задачу безусловной минимиза- ции) не меняет качественной картины поведения метода (6), хотя и может привести к уменьшению знаменателя прогрессии. 4. Методы модифицированной функции Лагранжа. Значитель- но лучшими свойствами обладают методы типа (6), (8), в кото- рых обычная функция Лагранжа заменена на модифицирован- ную. Начнем с аналога метода (6): xfe+1 =,? _ ум'х (xk, yk, K) = xk-y (Vf (xk) + + g'(xk)Tyk + Kg'(xk)Tg(xk)), (9) yk+l = yk + yM'y (xk, yk, K) = yk + yg (xk). Теорема 3. Пусть x* — невырожденная точка минимума, V2f (х) и V2gi(x) удовлетворяют условию Липшица в окрестности х*. Тогда метод (9) при достаточно больших К и 0 < у <у ло- кально сходится к х*, у* со скоростью геометрической про- грессии. Доказательство. Задача (А) эквивалентна задаче min [/ (х) + (7t/2)||g(x)||2], g(x) = 0. Для последней функция Лагранжа совпадает с М(х, у, К), а метод (6) переходит в (9). Но в соответствии с (15) § 1 Мхх(х*, у*, К) > 0, поэтому применима теорема 2 о сходимости (6), а тем самым и (9). А Таким образом, метод (9) сходится для любого невырожден- ного минимума без дополнительных предположений, требовав- шихся для методов (6) и (8), основанных на функции Лагран- жа. Оказывается при этом, что за счет использования модифи- цированной функции Лагранжа можно добиться и достаточно высокой скорости сходимости. Это относится к аналогу ме- тода (8): xk+l = argminAl(x, yk, К), yk+i = yk + Kg(xk+i). (11) X Теорема 4. Пусть выполнены условия теоремы 3. Тогда для всякого уа, достаточно близкого к у*, найдется Ко такое, что при К> Ко метод (11) сходится к х*, у* со скоростью гео- метрической прогрессии, знаменатель которой q = О(\/К). Доказательство. Обозначим <р(х) — М(х, у*, К), фДх);— — (Ук — У*, g(x)), тогда М(х, yk, К) = <р(х)Д-(х). В силу (15) и (16) § 1 х* — точка невырожденного безусловного мини- мума <р(х). В силу теоремы 6 § 3 гл. 1, если \\yk — у*\\ доста-
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 215 точно мало, то существует xk+1 — точка локального минимума <р(х) +ф*(х) в окрестности х*, причем xk+l - х* = - [V2<P (х*)Г* Vih (X*) + О (yk - у*}. Поскольку V2<p(x*) = А + КСТС, g' (х*) = С, А — L"x (х*, у*), ^к(х‘) = Ст(уь-у*), то II xfe+1 - X* IIСII (Л + КСТС)-1 Ст IIII yk - у* II + о (yk - у*) < <(^/K)\\yk-y*\\+o(yk-y*) (12) в силу леммы 4 § 1. Далее вновь применим эту лемму: /+1 = yk + Kg (xfc+1) = yk + КС (xfe+1 - X*) + о (xfe+1 - X*) = = yk - КС (Л + KCTC)-X Ст (yk ~ у*) + о (yk - у*), II yk+l-у*\\^\\1-КС(А + КСТСГ1 Ст || || yk - у* 1| + о (yk - у*) < <(a3/K)\\yk~y*\\ + o(yk-y*). Таким образом, при достаточно малых у° — у* будет yk-^-y3> со скоростью геометрической прогрессии со знаменателем q = = О(\/Ю, а из (12) следует, что xk — х* с той же скоростью. А Более аккуратный учет остаточных членов в доказательстве теоремы 4 позволяет получить более сильное утверждение. Теорема 5. Результаты теоремы 4 справедливы для лю- бого у° (при этом Ко зависит от ||г/° — у*\\). А Таким образом, метод (11) обладает рядом преимуществ перед методом (8). Во-первых, он не требует хорошего началь- ного приближения по у, что важно, так как такое приближение обычно неизвестно. Во-вторых, он сходится при минимальных предположениях'—достаточно невырожденности минимума и гладкости функций. При этом он не сложнее метода (8) с вы- числительной точки зрения. Он не требует подбора длины шага у (впрочем, в нем возникает проблема выбора К). Наконец, что очень важно, его скорость сходимости может быть сделана вы- сокой за счет выбора К- Конечно, не нужно переоценивать достоинства метода (11). В формулировках теорем 4 и 5 нет слов «локально сходится», однако это не значит, что метод дает возможность находить гло- бальное решение задачи, просто трудность перенесена на вспо- могательную задачу (11). В определении xk+1 неявно предпола- гается, что это точка безусловного минимума функции М(х, yk, К), близкая к х* (такая существует); однако отыскание такой точки остается проблемой. Далее, если сделать К очень большим, то скорость сходимости итерации (11) увеличивается, однако каждая итерация становится более трудоемкой. Дело в том, что задача минимизации М(х, yk, /<) становится плохо обу- словленной,
216 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Вопрос о компромиссном выборе К с учетом указанных усло- вий довольно сложен и не решен до конца. В практических вычислениях можно менять К на каждой итерации, подбирая его в зависимости от результатов счета. 5. Метод штрафных функций. Применим для решения (А) ту же идею сведения к последовательности задач безусловной ми- нимизации, что и при доказательстве правила множителей Ла- гранжа с помощью штрафных функций (см. (7) § 1): xk = argmin fk (х), fk(x) = f (x) + (x) ||2, 7<fe->oo. (13) X e= Qo Z Здесь Qo — некоторое ограниченное множество локализации ми- нимума, введенное для того, чтобы решение задачи безусловной минимизации существовало. Докажем сходимость метода при минимальных предположениях (не будем требовать даже диф- ференцируемости f и gt). Теорема 6. Пусть задача (А) имеет решения, их множество обозначим X*. Пусть f и gi непрерывны, Qo ограничено и замк- нуто, Qon^*¥=0. Тогда всякая предельная точка метода (13) (под xk понимается глобальный минимум fk(x) на Qo) является глобальным минимумом для задачи (А). Доказательство. Метод (13) корректно определен, так как Д(х) непрерывна и Qo ограничено и замкнуто, поэтому по теореме 4 § 1 гл. 7 точки хк существуют. Поскольку xk е Qo, то существует хотя бы одна предельная точка х для последова- тельности хк. Пусть x*eQonA*, тогда по определению (13) Д(^)^ f*(x*) = f(x*). Отсюда ||g(xfe)||2 ^(2/Kk) (f(x*)-f(xk)) и, переходя к пределу при k-+<x>, получаем, что g(x) = 0, т. е. х — допустимая точка. С другой стороны, f (xk) sC f (x*)— — (\/2)Kk\\g(xk) ||2 sC f (x*), следовательно f(x)^f(x*). Поэтому x является решением (A). ▲ Для невырожденного минимума можно оценить и скорость сходимости метода (13). Теорема 7. Пусть х* — точка невырожденного минимума и X2f(x), X2gi(x) удовлетворяют условию Липшица в окрестно- сти х*. Тогда хк-+х* при 7<Д->-оо, причем Цх* — х*||== О(1/Д6), Kkg(xk)~^y*. А (14) Разумеется, из теоремы 7 не следует, что за счет выбора Кь можно добиться сколь угодно быстрой сходимости — как уже отмечалось выше, с ростом Кч ухудшается обусловленность вспомогательных задач и тем самым растет трудность их реше- ния. Однако в методе штрафных функций неизбежно нужно брать Кк~> оо (иначе он не сходится), и в этом главный недо- статок метода по сравнению с методом' модифицированной функции Лагранжа, в котором можно не увеличивать штрафной
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 217 коэффициент К. При практических расчетах Kk увеличивают та- ким образом, чтобы х*-1 могло служить начальным приближе- нием при поиске xk (при быстром росте Кь область сходимости методов безусловной минимизации для fk(x) сокращается, и xk~! может не попасть в эту область). Отметим, что метод штрафных функций совпадает с вариантом метода модифицированной функции Лагранжа, в котором не производится пересчет двой- ственных переменных (yk = 0) (см. упр. 2). Вообще, в методе штрафных функций двойственные переменные никак не исполь- зуются, хотя их можно было бы найти в соответствии с (14). По существу, метод модифицированной функции Лагранжа мо- жет рассматриваться как такое видоизменение метода штраф- ных функций, в котором систематически используется информа- ция о множителях Лагранжа. Это видоизменение оказывается существенно более эффективным, чем исходный метод. Един- ственным возможным преимуществом метода штрафных функ- ций может служить его большая универсальность — он сходится при весьма слабых требованиях (см. теорему 6). Упражнения. 1. Докажите теорему 7 по той же схеме, что и теорему 4, записав (13) в виде xk — argmin М (х, 0, Kk)- х ь 2. Рассмотрите метод хк = argmin М (х, уа, Kk) при некотором постоян- X ном у° и покажите, что для него справедливы все результаты, относящиеся к методу штрафных функций (в котором у° = 0). Докажите, что скорость сходимости тем выше, чем ближе у° к у*. 6. Метод приведенного градиента. Использование идеи исклю- чения переменных, примененной при втором способе доказа- тельства правила множителей Лагранжа (§ 1) приводит к сле- дующему методу, называемому методом приведенного (или ре- дуцированного) градиента. Пусть х— {и, v}, и е Rm, v е R"-m,— разбиение переменных на две группы, причем и можно найти через v из уравнения g(x) = g(u, v) = 0. Построим градиентный метод безусловной минимизации функции ср (и) = f (и (v), v), где f(u, v) — f(x), т. e. = yV<p(A V<P (a*) = - g' (Uk, vk)T [g'u (uk, vk)TVlf'u (u\ vk)T + f'v (uk, vk)T, (15) где uk — решение уравнения g(u, vk) — 0. Таким образом, в ме- тоде (15) не нужно находить зависимость u(v) в явном виде, достаточно решать уравнение g(u, vk) = 0 при фиксирован- ном vk. Теорема 8. Пусть х* — точка невырожденного минимума и У2}, \?gi удовлетворяют условию Липшица в окрестности х*. Тогда найдется у>0 такое, что при 0 < у < у метод (15J
218 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ локально сходится к {u*, V*} — х* со скоростью геометрической прогрессии. Доказательство сводится к проверке невырожденности точки V* безусловного минимума <p(v) и применению теоремы 4 § 4 гл. 1. А Остановимся отдельно на частном случае линейных ограни- чений. Пусть ограничения имеют вид А^и -ф- Ате = b, (16) где А[ — невырожденная матрица m X tn, Л2 — матрица тХ(«— tn), 6eRm, а минимизируемая функция сепарабельна по и и V. /(х) = Л(и) + /2(ц). (17) Тогда метод (15) принимает вид t?+1 = vk - у (Vf2 (vk) - Al (ЛГ)-1 V/, G?)), uk+x = A:\b- Л2ц*+1). Он сходится глобально, если функции f\(u) и f2(v) сильно вы- пуклые и гладкие. Можно также гарантировать глобальную схо- димость, если только f2(v) сильно выпукла, а /Ди) имеет доста- точно малую вторую производную. 7. Метод Ньютона. Для решения системы уравнений (4) § 1 можно применить метод Ньютона, т. е. новое приближение xk+1, yk+‘ искать как решение системы линеаризованных уравнений ГД(Д yk)(x-xk) + L''Axk, yk) (у — yk) ~ — L'x (xk, yk), L"y(xk, yk)(x-xk) = -L'(xk, yk), (19) (так как Lyy(x, г/)==0), или в более подробной записи: [v2/ (xk) + Е (*fe)] (x - xk) + g' (xk)T (y — yk) = = -^(xk)-g'(xkYyk g'(xk)(x-xk) = ~g(xk). Теорема 9. Пусть x* — невырожденная точка минимума и ¥2f и y2gt удовлетворяют условию Липшица в окрестности х*. Тогда метод (20) локально квадратично сходится к х*, у*. Доказательство. Как и ранее (см. доказательство тео- ремы 8 § 1), введем г= {х, у} е R'!+m, zk~ {xk, yk}, z* = — {x*, у*}- Тогда (4) § 1 можно записать в виде R (г) = 0, R (г) = {L'x (х, у), L'y (х, у)}, R" Rn+m —> Rn+m (Л*/
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 219 а (20) превращается в метод Ньютона для решения этого урав- нения, т. е. zk+t является решением системы линеаризованных уравнений R' (zk) (z — zk) = — R (zk). (22) Поскольку /?(z*) = 0, R'(z) удовлетворяет условию Липшица в окрестности z* и матрица R'(z*) невырождена (см. (21) § 1 и лемму 2 § 1), то применим общий результат о сходимости метода Ньютона (теорема 3 § 5 гл. 1), что и дает требуемое утверждение. ▲ Метод Ньютона (20) обладает теми же достоинствами и не- достатками, что и для безусловной минимизации: он быстро сходится, но требует трудоемкого вычисления вторых производ- ных и хорошего начального приближения. Такое приближение особенно трудно найти для двойственных переменных. Метод Ньютона можно представить в другой форме. Соста- вим квадратичную аппроксимацию (по х) функции Лагранжа при фиксированном значении yk и будем искать минимум этой аппроксимации при линеаризованных ограничениях. В качестве yk+{ выберем yk -j- uk, где uk — множители Лагранжа для вспо- могательной задачи min [(Li (Д /), х — xk) + (L"x (xk, yk) (x — xk), x — xk)/2], g(x^ + g'(xk)(x-xk) = 0. (23) Нетрудно показать, что методы (20) и (23) эквивалентны. (Ср. различные формы записи метода линеаризации (1) — (3).) 8. Другие квадратично сходящиеся методы. Мы уже отмеча- ли (см. упр. 10 § 1), что для невырожденного минимума х* х* — argminZ. (х, у*), S = {х: g' (х*) (х — х*) = 0}. (24) .teS Поэтому естественно построить метод, в котором на k-м шаге ищется минимум L(x, yk) на подпространстве, образованном линеаризацией ограничения g(x) = O в точке xk: xk+‘ = argminL(x, ук), х е Qfe Qft = {x: g(xk) +g'(xk)(x-xk) = 0}, yk + l =yk + где uk — множители Лагранжа в задаче (25). Этот метод очень близок к (23) с той лишь разницей, что на Qk ищется минимум функции L(x, yk), а не ее квадратичной аппроксимации. По- этому в этом методе не нужно вычислять вторые производ- ные— минимизация на подпространстве может быть осущест- влена каким-либо эффективным методом первого порядка, цапример методом сопряженных градиентов (6) § 3 гл. 7,
220 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Естественно, что свойства метода (25) те же, что и для ме- тода (23). Можно предложить и другие методы, идейно близкие к (23) и (25). Таковы, например, квазиньютоновские методы, в которых решается вспомогательная задача min \l'x (xk, yk) (x — xk) + у (Нк (x — хк), x — xfe)], (26) где матрица Hk — аппроксимация для L"xx(xk, yk), построенная по предыдущим значениям градиентов. § 3. Учет возможных осложнений В предыдущем параграфе мы рассматривали идеализирован- ную ситуацию — пренебрегали наличием помех, ограничивались локальными результатами и случаем невырожденного минимума и т. д. Попытаемся учесть, в какой мере такая идеализация опасна. 1. Глобальный минимум. Все утверждения §§ 1—2 носили ло- кальный характер, что, как уже отмечалось, связано с невыпук- лостью задачи (А) (ср. с упр. 12 § 1). Даже если исходная задача (А) не имеет локальных минимумов, то система уравне- ний (4) § 1 (т. е. запись правила множителей Лагранжа) обычно имеет не единственное решение. Например, в задаче min (Ах, х) (1) где А — симметричная матрица л X и, нет локальных миниму- мов, однако всякий собственный вектор А удовлетворяет необ- ходимым условиям экстремума, которые в данном случае при- нимают вид Ах А- ух = 0, t/eR1. Неудивительно, что и резуль- таты о сходимости методов минимизации в основном были ло- кальными, т. е. требовали хорошего начального приближения к решению. Исключением является метод штрафных функций — его сходимость носит глобальный характер (теорема 6 § 2). Конечно, в этом методе возникает проблема поиска глобального минимума во вспомогательных задачах (см. § 2 гл. 6). Можно при этом задаться одним, разумным коэффициентом штрафа, и из полученных в процессе глобальной минимизации «подозри- тельных» точек произвести спуск локальными методами § 2. В целом можно считать, что проблема поиска глобального решения задачи (А) очень сложна, и удовлетворительных уни- версальных способов ее решения нет. 2. Влияние помех. Теоремы об устойчивости, приведенные в § 2, дают основание надеяться, что малые помехи в вычислении функций и градиентов не приведут к каким-либо катастрофиче- ским последствиям в невырожденном случае. Действительно.
§ 3. УЧЕТ ВОЗМОЖНЫХ ОСЛОЖНЕНИЙ 221 можно показать, что для невырожденного минимума рассмо- тренные в § 2 методы при достаточно малых абсолютных поме- хах приводят в окрестность решения, причем размер этой окрест- ности тем меньше, чем ниже уровень помех. Приведем один типичный результат. Рассмотрим «возмущен- ный» метод линеаризации: xfe+1 — argmin ((V/ (xk), х — хк) + 1| х — хк ||2), x^k 4 V (2) Qk = {х: g (xk) + vg (xk) (x — xk) = 0}, причем для всех x из некоторой окрестности U точки х* IIVf (х) — Vf (х) || < eb ||g (х) — g (х) ||< е2, ||Vg (х) — Vg (х) || < е3. Теорема 1. В условиях теоремы 1 § 2 существует такое е0 > 0, что для всякого е > 0 найдутся >0, i = 1, 2, 3, для которых в методе (2) будет ||х*— х*|| е для всех достаточно больших k, если ||х° — х*|| е0, е/ < 6«, i — 1, 2, 3. Приведем схему доказательства. Так же как в § 2, можно показать, что xft+1 — х*=£)(хА:— x*) + o(xft — x*)-[-rk, где ||rfe|| = = O(ei + ег + ез), р(£>)<1. Пусть U>I — решение матричного уравнения DrUD = U — I (лемма 2 § 1 гл. 2), иь = (U(xk — х*), xk — х*). Тогда (ср. с доказательством теоремы 2 § 1 гл. 2) для достаточно малых v0 будет Vk±i qvk + &k, где ^<1, <%k — = О (sj + ег + бз), что и приводит к требуемому результату. ▲ Совершенно аналогичные утверждения относятся и к другим методам § 2. Однако если помехи не слишком малы, то может произойти полный «развал» методов. Пусть, например, при вычислении gi(x) допускается систематическая ошибка ег, i— 1, ..., tn. Это приводит к тому, что решается задача с ограничениями вида g1(x) = ei, i— 1, ..., tn. При этом может случиться, что такая система не имеет решения, даже если в исходной задаче сущест- вует невырожденное решение х*. В такой ситуации любые ме- тоды могут привести к бессмысленному ответу (см. ниже п. 4). Подчеркнем, что этот эффект отсутствовал в задачах безуслов- ной минимизации (см. гл. 4). Не будем подробно останавливаться на задачах с относи- тельными помехами. Здесь многое зависит от того, какой смысл вкладывается в этот термин. Если предполагать, что II г(х)||<а||х — х*||, (3) где г(х)—всевозможные ошибки в вычислении градиентов и функций, то можно показать, что для невырожденного минимума при достаточно малых а сохранится сходимость методов § 2.
222 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Если же считать, что ошибки удовлетворяют условиям типа iim)-m)ii<aim(x)ii, (4) то эта ситуация эквивалентна по существу ситуации с абсолют- ными помехами, так как Vf(x*)=#O. Наконец, своеобразное положение возникает при наличии случайных помех. Рассмотрим, например, метод типа Эрроу — Гурвица (см. (6) § 2): xk+l = xk — yk(Vf(xk) + g'(xk)Tyk) z/fe+‘ = z/fe +Yfeg-(^), где Vf (xfe) = Vf (x&) + gfe, a — независимые центрированные случайные помехи (для простоты предполагается, что gi(x) и Vg;(x) известны точно). Так как вообще говоря, не ограни- чены, то существует ненулевая вероятность «выброса» точки из области сходимости. В результате, используя теорему 6 § 2 гл. 2, удается лишь доказать следующее: если Yfe— k—0 У у2 < оо, то в условиях теоремы 2 § 2 метод (5) сходится к решению с вероятностью 1 — 6, где 6 тем меньше, чем меньше дисперсия помехи и чем точнее начальное приближение. Анало- гичные результаты справедливы и при наличии помех в вычис- лении gi(x) и Vg((x), а также для ряда других методов из § 2. 3. Вырожденный минимум. Большинство результатов § 2 бы- ло доказано в предположении невырожденности минимума. От- клонения от этого предположения могут вызываться двумя причинами. Во-первых, в точке х* может нарушиться условие линейной независимости градиентов ограничений. Для таких задач, вооб- ще говоря, неверно правило множителей Лагранжа и неприме- нима теорема о касательном подпространстве. Поэтому все ме- тоды, основанные на обычной и модифицированной функции Ла- гранжа, а также на линеаризации ограничений, могут потерять работоспособность. Рассмотрим пример в R2, с которым мы уже сталкивались (упр. 1 § 1 и рис. 34); min х2, ^(xl^-l^ + ^-l-O, (6) g2 (X) = (%! + I)2 + Xl — 1 = 0. Решением является х* = {0, 0}, при этом Vgi(x*)= {—2, 0} и VgzU*) = {2, 0} линейно зависимы. Тогда в точке х° — {е, 0} линеаризация ограничений приводит к множеству Qo = = {х- gi (х°) + (Vg-i (х°), х — х°) = 0, £2(х°). + №(х°), х — Xй) =
§ 3. УЧЕТ ВОЗМОЖНЫХ ОСЛОЖНЕНИЙ 223 = 0}, которое пусто при любом ет^О. Таким образом, метод ли- неаризации неприменим для сколь угодно близкого к х* началь- ного приближения. По этой же причине теряет смысл метод Ньютона (см. его запись (23) § 2). Наконец, все двойственные методы для данной задачи не могут сходиться, так как для нее не существует множителей Лагранжа. По-видимому, можно по- строить методы, основанные на условиях экстремума для нере- гулярного случая (теорема 1 § 1), однако этот подход пока не исследован. Во-вторых, вырожденная точка минимума может быть регу- лярной, но вместо достаточного условия экстремума (13) § 1 в ней может быть выполнено лишь более слабое необходимое условие (10) § 1. Эта ситуация во многом близка вырожден- ному минимуму для задач без ограничений (см. § 1 гл. 6). Так, для задач с линейными ограничениями и выпуклой f(x) можно доказать сходимость метода линеаризации и методов, основан- ных на модифицированной функции Лагранжа, однако сходи- мости со скоростью геометрической прогрессии при этом утверж- дать нельзя. В то же время метод, использующий обычную функцию Лагранжа, может и не сходиться. Рассмотрим простей- ший пример в R1: minf(x), g(x) — 0, где f(x) = x, g(x) — x. Тогда х* — 0 — решение, у* — —1, L{x, (/*)== 0, так что L"x (х, у*) = 0, и условия теоремы 2 § 2 не выполнены. Метод (6) § 2 принимает в данном случае вид xk+l — хк — у (yk -ф 1), yk+l — yk yXk, поэтому для pk = (хк — х*)2 -ф (ук — у*)2 полу- чаем p/г-н = ps(l + У2)л т. е. ps-> оо при любом у #= 0. Наименее чувствителен ко всем формам вырождения метод штрафных функций. В условиях его сходимости (теорема 6 § 2) нет требования невырожденности минимума (или даже его ре- гулярности). Однако вырождение приводит к замедлению схо- димости метода штрафных функций. Чтобы в этом убедиться, нет нужды строить специальные примеры — достаточно обратить внимание на его связь с методом регуляризации. Действительно, задача min[f(%)+A||g(x)||2] эквивалентна задаче min[е/(х)-ф -ф llg'(x)ll2] с 8 = \/К, а последняя может рассматриваться как задача min||g(x) ||2, регуляризованная с помощью функции f(x). Метод же регуляризации, как мы знаем (из § 1 гл. 6) может сходиться очень медленно в вырожденном случае. 4. Противоречивость ограничений. Может случиться, что за- дача (А), которую требуется решить, плохо поставлена — мно- жество допустимых точек в ней пусто. Причины подобной си- туации различны. Нередко в технических и экономических зада- чах исходные требования к объекту являются завышенными, а потому противоречивыми. Иногда дело заключается в по- грешностях имеющейся информации, ошибках в характери- стиках объектов и т. д. Наконец, если задача (А) возникает как вспомогательная при решении более сложных задач, то
224 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ несовместность ограничений может возникнуть вследствие необо- снованности используемой аппроксимации. Например, если при- менять метод линеаризации (§ 2) для плохих начальных прибли- жений, то получающиеся вспомогательные задачи могут не иметь решений. Возникает вопрос —как поведут себя различные методы ми- нимизации в таких условиях? Часть из методов попросту поте- ряет смысл. Так, метод линеаризации и метод Ньютона не будут определены корректно, так как задачи, решаемые в них на каж- дой итерации, будут иметь противоречивые ограничения. Другие методы формально будут применимы, но заведомо не будут схо- диться. Так, двойственные методы (6), (8), (9), (11) § 2 расхо- дятся, так как не существует точки, в которой g(x)=0, а по- тому шаг по двойственным переменным не стремится к 0. Наи- более разумным образом будет вести себя метод штрафных функций. Пусть, например, ограничения линейны, а функция f(x) выпукла. Тогда, используя отмечавшуюся ранее связь меж- ду методом регуляризации и методом штрафных функций, можно доказать, что последний сходится к псевдорешению задачи — той из точек минимума ||g(x)||2, для которой f(x) минимальна.
Глава 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ В данной главе будет исследоваться общая задача матема- тического программирования-. min /£ (%), gi (х) < О, gi W = О, х е Q, xg Rn, z = l......г, I — г 4- 1, ..., т, (А) где QazR"— «простое» множество (ср. с гл. 7), a ge. Q—>R‘, i= 1, ..., т. Точки, в которых удовлетворяются все ограниче- ния, будем называть допустимыми. Частные случаи задачи (А) уже исследовались в гл. 7 (г = т = 0) и гл. 8 (г = 0, Q = R”). Анализ будет производиться для двух основных классов задач (А) — нелинейного программирования (f(x), gt(x) дифференци- руемы, Q — R") и выпуклого программирования gi(x), i = 1, ..., г выпуклы, г — т, Q выпукло). § 1. Выпуклое программирование (теория) 1. Сведения из выпуклого анализа. Нам потребуются некото- рые новые сведения сверх приведенных в § 1 гл. 5. Ранее рассматривались лишь выпуклые функции, определен- ные на всем пространстве R”. Целесообразно расширить класс выпуклых функций, -отказавшись от последнего условия. Пусть Q с R" — некоторое множество, а скалярная функция f(x) опре- делена на Q и не определена вне Q. Будем называть Q областью определения f (х) и обозначать D(f) (от английского domain — область). Иногда употребляют обозначение domf и термин эф- фективная область. Функция /(х) называется выпуклой на D (f), если для любых хе £>(f), yeZ)(f) 0 sC 7. -У 1 будет 7.x 4- + (1-Х)уеПЦ) и f(Xx + (l-^)y)<VU) + (l-^)f(z/). (1) Из определения следует, что D(f) для выпуклой функции f(x) — выпуклое множество. Удобно несколько иначе подойти и к самому понятию функ- ции. Будем считать, что функция может принимать не толь- ко конечные значения, но и значение -}-оо, подчиняющееся
226 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ естественным правилам для арифметических действий и нера- венств: а < оо, оо-|-а=оо, а оо = оо (2) оо sgL оо, шах {а, оо} = оо для всех aeR1. Выражения оо — оо, оо/оо не определены, но положим 0-оо = 0. С учетом этого соглашения доопределим выпуклую функцию /(х), заданную на £)(/)<= R", на все R", по- ложив f М = + оо для х ё D (f). (3) Тогда неравенство (1) остается справедливым для всех х, у е е R". Будем теперь под выпуклой понимать функцию f(x), при- нимающую на всем R" и значения из R'Uf+oo}, заданную Рис. 35. Выпуклые функции с ограниченной областью определения. удовлетворяющую неравенству (1) для всех х, y^R.n, 0 А 1. При этом D(f) = {x-. f(x)<oo}, (4) причем всегда будем предполагать, не оговаривая этого особо, что D(f) непусто (иногда в этом случае говорят о собственных выпуклых функциях). Аналогично, функцию f(x) со значениями в R1 U {—оо} будем называть вогнутой, если —/(х) выпукла, при этом будем обозначать £)(/) = {х: f(x)>- —оо}. В качестве при- меров рассмотрим следующие четыре скалярные функции (рис. 35а)—г)): ( о. f (х) = < I ОО, 0, 1, оо, (5) f (х) = < (6) 1;
§ 1. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 227 1 — V 1 — X2, | X I = ч оо, 1 X | > С 1, • 1; (7) f (х) = -| fx2(l-x2)-1, |х|< 1 оо, | х 17 £ 1, & 1. (8) Очевидно, что все они являются выпуклыми в смысле данного выше определения, и для (5) — (7) D(f) = [—1, 1], для (8) D(J) = (—1, 1). Обычные свойства конечных выпуклых функций сохраняются с небольшими уточнениями. Лемма 1. Имеют место следующие утверждения: а) если f(x) выпукла, то af(x) выпукла при а > 0, D(a/) = = D (/), а множества {х: f(x) =£7 а}, {х: f (х) < а}, {х: /(х) < оо} выпуклы при ct eR1; б) если fi(x), f2(x) выпуклы и D(f2)=£ 0, то функции f(x) — f\(x)-\-f2(x) и f(x) = max{ft(x), f2(x)j выпуклы и D(J) = = О(А)ПШ ▲ Выпуклая функция, принимающая значение 4-оо в какой- либо точке, разрывна в этой точке, и потому лемма 3 § 1 гл. 5 о непрерывности конечной выпуклой функции не переносится на случай D(/)=# R". Однако справедлив следующий результат. Лемма 2. Выпуклая функция непрерывна во всякой точке D(f)° (здесь и далее D(f)° — внутренность множества ▲ Поведение выпуклой функции f(x) на границе D(f) может быть различным. Пример (6) показывает, что из условий xft->x*, xk<=D(f), x*^D(J) не обязательно следует /(xft)->f(x*). Как и ранее, вектор a eR"- будем называть субградиентом выпуклой функции f(x) в точке хе R" и обозначать <?/(х), если f (X + y)>f (х) + (а, у) (9) для всех г/Е R". Таким образом, если D(f)= R", то это опреде- ление совпадает с (10) § 1 гл. 5. Однако при Z)(/)=# Rn возни- кают некоторые новые ситуации. Прежде всего очевидно, что df(x) не существует в любой точке x=D(() (неравенство (9) не выполняется ни при каком а для х у <=е D(f) ). В гранич- ных точках D(J) субградиент может как существовать (пример (5)), так и не существовать (примеры (6) — (8)). Для внутрен- них же точек D(f) справедлив результат, аналогичный леммам 6 и 8 § 1 гл. 5. Лемма 3. Для хе D(f)° множество df(x) непусто, выпукло, замкнуто и ограничено, причем для любого ограниченного мно- жества из D(f)° субградиенты равномерно ограничены. А Основные леммы о правилах вычисления субградиентов из § 1 гл. 5 остаются справедливыми при некоторых дополнитель- ных предположениях.
228 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Лемма 4 (Моро — Рокафеллар). Пусть /Дх), /2(х)—выпук- лые функции, f(x) = fi(x)4-f2(x) и О О П D(A>)¥=0. (10) Тогда df(x) = dfl(x) + df2(x). ж (II) По индукции получаем обобщение (11) на случай m функ- ций: если /Дх)..fm(x) выпуклы и Р(Л)°П ... OD(fm-l)oOD(fm)^0, (12) то (х)+ ...+fm(x)) = dfl(x)+ ...+dfm(x). (.13) Лемма Моро — Рокафеллара является мощным инструмен- том при доказательстве разнообразных результатов выпуклого Рис. 36. Конусы и сопряженные конусы: а) подпространство, б) полупро- странство, е) многогранный конус, г) прямой круговой конус. анализа и теории экстремальных задач. Ограничимся пока од- ним важным примером. Напомним, что множество К cz Rn назы- вается конусом, если для всех х е К будет Хх е К при любом К > 0. Примерами конусов могут служить подпространство, по- лупространство, прямой круговой конус /< = {xeR'1: хп й? х] + ... + Xn-i} и многогранный конус К= {х е R": (а', х)^. 0, i = 1, ..., m} и, в частности, неотрицательный ортант К — = {х: х 0} (рис. 36). Мы уже сталкивались ранее с конусами: так, множество опорных векторов к выпуклому множеству (см. § 1 гл. 7) является конусом (называемым опорным). Для лю- бого множества Q cz R" можно рассмотреть порожденный им конус К = {х: х = Ку, К > 0, </gQ}. Таков, например, конус, порожденный допустимыми направлениями, или касательный конус (см. § 1 гл. 7 и § 1 гл. 8).
§ 1. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 229 Конус К* называется сопряженным к конусу К с R”, если (рис. 36) К* = {а е Rn : (а, х) > О Vx е К}. (14) Конус —К* иногда называют полярой конуса К- Лемма 5 (Дубовицкий — Милютин). Пусть Ki......Km — выпуклые конусы в R”, К = Ki П • • • П Кт и ... [}Кт-х(\Кт^ 0. (15) Тогда Г = К’ + ... +Кт- (16) Доказательство. Введем ft (х) — (х), f (х) = 8К (х), где 6q(х)— индикаторная функция множества Q: w = {~. xtp <17> (см. упр. 5). Тогда Дх) = /)(х) + ... +Д(х), 5^(0) = К*, дД0) = К* (см. упр. 6), D(ft) = Ki, D(f)—К, поэтому из (15) следует (12), а из (13) получаем (16). ▲ Условие (15) не может быть, вообще говоря, отброшено (упр. 4). Однако в важнейшем частном случае (когда все К, — замкнутые полупространства) от него удается освобо- диться. Лемма 6 (Фаркаш). Пусть Ki — {x<=Rn\ (а‘, х)^0}, i = 1...in, К — Ki П ••• П Кт ф 0. Тогда г = к;+...+с = | £ У1а1, У1ж\. 4=1 ' Пусть А — матрица т X л, строками которой являются аг. Тогда требуемый результат может быть записан в виде: если K=={xeR": Ах>0), то К* = {х е Rn: х = АТу, у^О,' у е Rm). (18) В этих же терминах лемма 1 § 1 гл. 8 может быть записана так: если К = {х е R'! : Ах = 0), т0 = Д е R" : х = Ату, у е Rm). (19) Доказательство (18) может быть проведено по той же схеме, что и (19) (см. доказательство леммы 1 § 1 гл. 8). При этом, однако, приходится использовать замкнутость многогранного конуса вида {х --- А Гу, у 0= 0} —- этот факт требует специального доказательства.. А
230 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Из леммы Фаркаша следует, что если все конусы 7G много- гранные, то в лемме Дубовицкого — Милютина можно отбросить требование (15). Аналогичным образом может быть усилена лемма Моро — Рокафеллара. Лемма Фаркаша дает возможность выписать вид опорных векторов к многогранному множеству. Лемма 7. Пусть Q = {хе Rn: (а‘, х)^ bt, 7=1, ..., m}, х* eQ. I* — {i: (a1, x*) = b;} —множество активных ограничений в х*, К = {с: (с, х — х*) 0 Vx eQ} — конус опорных векторов к Q в точке х*. Тогда К={ У yta1, У1>0, /6=/*]. (20) i @ Z* Доказательство. Пусть Г = {z: z — Х(х.— х*), 7^0, х е Q) — конус, порожденный возможными направлениями (см. § 1 гл. 7). Тогда Г= {z: (а‘, г) 0, is/*}. На основании лем- мы Фаркаша Г* — { У ущ1, yt oj . Если с е Г*, то по опре- i е 1* делению сопряженного конуса 7 (с, х — х*)^г0 для всех х е Q, 7^0, это эквивалентно тому, что (с, х — х*) 0 для всех xeQ, т. е. Г* сд К. Обратное включение очевидно. А В заключение выпишем вид опорного конуса для множества, задаваемого с помощью выпуклой функции. Лемма 8. Пусть f (х) — выпуклая функция, х* е D (f)°, Q — {х : f (х) -С 0} и inf f (х) < 0. Тогда Q* = {с : (с, х — х*) 0 Vx е Q} = {Kdf(x*), 7 0}, если f (х*)=0, и Q* = {0}, если f (х*) < 0. Доказательство немедленно следует из определения субгра- диента и лемм 2 и 6 (при т=1). А Упражнения. 1. Докажите, что если Qa = [х: f (х) а} непусто и ограничено для не- которого aeR1 и выпуклой f (х) с D(f)°^Qa, то Qa ограничено для всех a < оо (ср. с леммой 1 § 2 гл. 5). Указание. Воспользуйтесь леммой 2. 2. Докажите лемму 4. (Указание. Включение д[(х) dfi (х) + <77 (х) очевидно; для доказательства противоположного включения рассмотрите два множества в R44-1: Q, = {a е R1, zsR": a fi(x + z)—E(x)}, Q2 = {a e R1, zeR", a < (df(x), z) — (2(x + z) + f2(x)} и примените к ним теорему от- делимости.) 3. Докажите, что ортаит и прямой круговой конус являются самосопря- женными, т. е. К = К*. 4. Пусть Д] = [х е R": (a, х) > 0}U {0}, Д2* = {х: (а, х) =0}, а Ф 0, aeR". Покажите, что равенство (Д1 Q Д2) = Ki + K2 в этом случае не- верно. 5. Покажите, что индикаторная функция выпуклого множества Q (17) является выпуклой и имеет субградиент в любой точке из Q, причем дбДх) совпадает с конусом векторов, опорных к Q в точке х. 6. Пусть Д—выпуклый конус. Покажите, что дбДО) = Д*. 2. Теорема Куна — Таккера. Прежде всего приведем признак безусловного минимума выпуклой функции, частным случаем которого является теорема 1 § 2 гл. 5.
§ I. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 231 Лемма 9. Пусть f(x)—выпуклая функция. Точка х* — точка глобального минимума f(x) на R'! тогда и только тогда, когда Ое=д/(х*). (21) Доказательство следует непосредственно из определения суб- градиента. Обратите внимание, что из (21) вытекает существо- вание субградиента в точке минимума. А Как и ранее, для выпуклых функций локальный минимум совпадает с глобальным. Лемма 10. Пусть f(x)— выпуклая функция, е > 0, х* е e£)(f) и f(x)^f(x*) для всех х таких, что ||х— х*|| е. Тогда f(x)^f(x*) для всех х. Доказательство. Пусть ||х — х*|| > е, А = е/||х — х*||< < 1, x8 = Ax-j-(l—А)х*. Тогда ||хе — х*|| = е, так что /(х8)^ >Дх*), но из (1) f(xE)< Af(x) + (1 — А)Дх*), т. е. f(x)^z > A-1 (f (xe)~f (х*)) + f (х*) f (x*). А Предположение x*eD(f) существенно (иначе в приведен- ной выше выкладке выражение Дх8)— f(x*) может быть равно оо — оо и потерять смысл). Например, для функции (5) точка х = 2 не является глобальным минимумом, хотя в ее окрестно- сти Дх) — Д2)= оо. Полезно в связи с этим обратить внимание на необходимость осторожности в выкладках, содержащих вы- ражения, которые могут обратиться в оо. Рассмотрим общую задачу выпуклого программирования вида minf(x), .vgR'1, gi (х)< 0, Z=1......m, (22) х s Q и сформулируем для нее необходимые и достаточные условия экстремума. Теорема 1 (Кун — Таккер). Пусть f(x), gi(x), i = 1, ... ..., m, — выпуклые функции, Q — выпуклое множество, Q с с D(f)°, Q ст D(gi)°, i — 1, .. •, m, и выполняется условие Слей- тера: найдется х° е Q такое, что £г(х°)<0, Z=1......пг. (23) Тогда допустимая точка X* является глобальным решением (22), если и только если найдутся уг^О, Z=l, ..., пг, такие, что У* gi (**) = 0, i = 1, ..., пг и L (х, /) > L (х‘, у*) Vx е= Q, (24) где у* = (у\, ... /т) <= Rfn, g (х) = (х), ... gm (х)) и U, У) = f (х) + (у, g (х)). (25)
232 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Функцию L(x, у), как и для задач с равенствами (см. § 1 гл. 8), будем называть функцией Лагранжа, вектор у* —множи- телями Лагранжа, х — прямыми переменными, у — двойственны- ми переменными, условие (х*) — 0, i = 1, ..., пг — усло- вием дополняющей нежесткости, набор индексов I*={i: gi(x*) = = 0} — множеством активных ограничений. Очевидно, что у* — 0 при ie=I*. Если для задачи (22) выполняются условия теоремы 1, то будем говорить о регулярной точке минимума или регулярной задаче. Теорема Куна — Таккера утверждает, что в случае регулярной точки минимума х* найдутся неотрицатель- ные множители Лагранжа у*, удовлетворяющие условию допол- няющей нежесткости, такие что функция Лагранжа при у = у* достигает минимума на Q в точке х*. Таким образом, появляется возможность свести задачу с неравенствами ТДх) <0к задаче минимизации без этих ограничений. Доказательство. Достаточность. Пусть х — про- извольная допустимая точка и выполняется (24), тогда f(x)>f(x) + (/, g(x)) = L(x, y*)^L(x*, у*) = = Ж) + (/, g(x*)) = f(x*), т. е. х*—точка глобального минимума в (22). Отметим, что при этом не используется условие Слейтера (23). Необходимость. Введем функции fo (х) = (х), ft (х) = . (х), Q/ = {x: Я;(хК0}, 4=1, т ' F(x) = f(x)+^fiM, где 6q (х) — индикаторная функция (17). Тогда Е(х) — f (х), если х допустимая точка, и Е(х)= оо в противном случае. Поэтому задача (22) эквивалентна безусловной минимизации F(x). Функ- ция Е(х) выпукла, поэтому по лемме 9 0 = dF(x*). Точка х°, фи- гурирующая в (23), такова, что х° е D (f)°, x°^.D(^giy, х° е е Q°t в силу леммы 2, и поэтому x°eD(f,)°, i— 1, ..., т. Следовательно, D (f)° f] D (f0) f| D (/i)° f| ... f| D (fm)° =£ 0, и по- тому к F(x) применима лемма Моро — Рокафеллара: 5F (х*) = df (х*) + df0 (х*) + .. . + dfm (х*). Но dfo (х*) = (х*) — конус опорных kQ в точке х* (см. упр. 5), df i (х*) = {yidgi (х*), yt > 0), i е= Г; dft (х*) = 0, I ё I* (лемма 8). Поэтому найдутся такие числа у\ 0, «е Г, что 0eaf(x*)+<36Q(x*)+ £ уЖ(х*). (27) i s Z*
§ 1. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 233 Введем вектор у* = («/*, у'^, где у\ определены выше при i s Г, у] = 0 при i ё Г, и функцию Ф (х) = L (х,у*) + (х) = f (х) + (х) + £ У&(х). (28) I е !• Лемму Моро — Рокафеллара вновь можно применить, так как x*^D(f)°, x*^D(gi)°, i<= I*, x* e D(8q)), и мы получаем, что дф (х*) == df (х*) + d6Q (х*) + J1 (х*). Таким образом, (27) i ен /* имеет вид 0 е дф(х*), и по лемме 9 х* — точка безусловного ми- нимума ф(х). Это эквивалентно тому (см. (28)), что х* — точка минимума L(x, у*) на Q. А Отметим, что из (27) следует условие экстремума в субгра- диентной форме: (dxL (х*, у*), х - х*) > О Vx е= Q, dxL(x\ y*) = df(x*) + £ y*dSi(x*), i e /* что является обобщением теоремы 3 § 1 гл. 7, в которой рассма- тривалась задача без ограничений типа неравенств. Если же Q = R« то (29) принимает вид О е= dxL (х*, у*). (30) Для теоремы Куна — Таккера известно и много других дока- зательств (например, непосредственно на основе теорем отдели- мости). Приведенное простое доказательство наглядно демон- стрирует эффективность техники выпуклого анализа. Если попытаться воспользоваться условиями экстремума из гл. 7, рас- сматривая множество, задаваемое всеми ограничениями, то по- требуется выписать опорный вектор к этому множеству. Именно это и составляет нетривиальную часть теоремы Куна — Таккера. Условие Слейтера играет ту же роль, что и условие регуляр- ности в задаче с равенствами (§ 1 гл. 8). При его невыполнении допустимое множество может оказаться слишком «тощим» и теорема Куна — Таккера не будет верна. Например, если задача (22) имеет вид (см. рис. 34) min х2, х е R2, (Xj- 1)2 + х2- 1 <0, (31) (Х1+1)2 + х2-1<0, то х* — 0, I* — {1, 2} и, как нетрудно проверить, не существует таких Уь уу чтобы выполнялось условие (30).
234 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Если в задаче имеются линейные ограничения, то их удобно отнести к множеству Q. В частности, если других ограничений нет, т. е. задача имеет вид minf(x), xgR", (32) (a1, i = 1,.. . ,m, то все эти ограничения целесообразно рассматривать как за- дающие многогранное множество Q и использовать лемму 7 о виде опорных к такому множеству. Теорема 2. Если f(x) выпукла и D(J)° содержит допусти- мое множество, то необходимое и достаточное условие экстре- мума в задаче (32) имеет вид: найдутся у\ О, i s Г — {г: (al,x*) — bi} такие, что г X Ур^-д^х*}. А (33) i е= I* Подчеркнем, что в этом случае не требуется условие Слей- тера, т. е. допустимое множество в (32) может и не иметь вну- тренней точки. Теорему Куна — Таккера часто записывают в несколько ином виде, в терминах седловой точки. Введем требуемые для этого понятия. Пусть Q сд R", S с: Rm — два множества, ср: Q X S -> R1. Пара х* е Q, у* е S называется седловой точкой функции ср (х, z/) на QX*$, если Ф (х*, У} :С Ф (х*, У*} X Ф У*} Vx <д Q и Vz/ е S. (34) Иначе говоря, х* является точкой минимума ср(х, г/*) по х на Q, а у* — точкой максимума ф(х*, у} по у на S. Если нижеприве- денные выражения определены, то равенство min max ф (х, у} = max min ср (х, у) — ср (х*, у*) (35) X<=Qy<=S ц = 3 X<=Q эквивалентно (34), т. е. наличие седловой точки означает, что операции минимизации и максимизации можно переставлять. Теорема 3 (Кун — Таккер). В условиях теоремы 1 х* яв- ляется решением задачи (22) тогда и только тогда, когда пара х*, у* при некотором у* X- 0 является седловой точкой Цх, у) на Q X R+> г. е. L (х*, y)^L (х*, у*} ^Цх, у*) V.i- g Q и Vz/ > 0. (36) Доказательство. Пусть х* — решение (22), по теореме 1 найдется у* 0 такое, что (у*, g(x*)) = 0 и Е(х, у*)^Е(х*, у*) для всех х е Q. Но тогда L(x*, у*) = f(x*) f(x*) + (у, g(x*)') = = L(x*, у) для любых у X 0, поскольку ^(л'*)Х 0. Итак, пара х*, у*, где х* — решение (22), а у* — множители Лагранжа, яв- ляется седловой точкой L (х, у) на Q X R+-
§ I. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 235 Обратно, пусть х*, у* — седловая точка. Тогда L(x*, у*')^ уд L(x*, у) означает, что (у, g'(x*)) (г/*, g(x*)) для всех у уд 0. Это возможно лишь тогда, когда g(x*)^ 0, (g*, g(pf)) = 0. По- этому для любого допустимого х L (х*„ /) = f (х*) < L (х, /) = f (х) + (У*, g (х)) < f(x), что и означает, что х* — решение (22). ▲ Упражнения. 7. Получите из теоремы 2 условия (8) § 1 гл. 7. (Указание. Запи- шите ограничения (а‘, х) = bi в виде (а‘, х) ^bt, — (а‘, х) <д bt.) 8. Проверьте, что функции ср (х, у) = ху и ср(х, у) =—ху, х е R1, у е R1, обе имеют единственную седловую точку {0, 0} на R1 X R1- 9. Убедитесь на примере из упражнения 8, что из (34) не следуют ра- венства X* = Argmin ср (х, г/*), Y* = Argmax ср (х*, у), где X* XY*— мно- х е= Q у е 3 жество седловых точек. 3. Двойственность. В формулировку теоремы 3 прямые и двой- ственные переменные входят симметричным образом. Поэтому можно ожидать, что аналогичная симметрия существует и для задач оптимизации, т. е. что (36) является условием экстремума не только для исходной задачи (22), но и для другой задачи оптимизации относительно двойственных переменных. Такую за- дачу можно получить из следующих соображений. Введем cp(x)==sup L(x, у), (37) тогда очевидно, что ( f (х), если gt (х) sC 0, i — 1.т, Ф (х)==5 ( оо, в противном случае. Поэтому исходная задача может быть записана в виде min ф(х). (38) х е Q Поступим аналогичным образом, поменяв роль переменных и операций максимизации и минимизации. Именно, введем ф(г/)= inf L (х, у) (39) хе Q (возможно, что ф(у) — —оо для некоторых у) и рассмотрим за- дачу max ф (г/). (40) Задача (40) называется двойственной, а (38) или (22) — прямой. Теорема 4 (теорема двойственности). Справедливы сле- дующие соотношения двойственности:
§ 1. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 237 дачу к другой, которая может оказаться проще. Так, если т <С п, то размерность двойственной задачи (равная т) существенно меньше размерности прямой. Во-вторых, неравенство (41) по- зволяет получить оценку снизу для минимума в (22) и тем са- мым оценить точность приближенного решения. Конечно, пло- дотворности двойственного подхода в большой мере зависит от того, насколько просто вычисляется функция ф(г/). В ряде слу- чаев (в частности, для задач линейного, квадратичного, сепара- бельного и геометрического программирования, см. гл. 10, 11), двойственный подход оказывается очень эффективным. Отметим, что двойственную задачу (40) будем иногда запи- сывать в иной форме. Во-первых, максимум ф(г/) может дости- гаться лишь в тех точках, где ф(г/)=Н=—оо, поэтому (40) равно- сильна задаче тах'ф(г/), г/^0, г/еО(ф), (46) где О(ф) = {у: ф(г/)>—оо}. Во-вторых, привычнее иметь дело с задачами минимизации, а не максимизации. Если ввести е((/) = -ф((/)> (47) то вместо (40) получим выпуклую (упр. 10) задачу min0(v), (48) либо вместо (46) — задачу min 0 (у), у^0, y^D(Q); (49) при этом соотношение двойственности (41) приобретает вид Нх) + 6(г/)>0. (50) Наконец, обратим внимание на то, что в зависимости от того, какие ограничения записаны в виде 0, а какие отнесены к множеству Q, мы получим различные двойственные задачи. Вообще, для каждой задачи оптимизации существует много раз- личных двойственных задач, но мы не будем останавливаться на общей теории их формирования. Упражнения. 10. Докажите следующие свойства ф [у}: а) множество D(ip) — {у. > —ос) выпукло, функция ф(</) вогнута на D (ф); б) если f(x), gi(x) непрерывны, Q замкнуто и ограничено, то £>(’!’) — Rm и ф (у) непрерывна; в) если f(x), gt(x) выпуклы, Q выпукло, Qc^D(gi)0, f(x)/ l\\x\\ оо при х s Q, ||x|| -*• оо, to R™ c D (ф); г) если f(x) строго выпукла, gi(x) выпуклы, Q выпукло, замкнуто и огра- ничено, то У(у) дифференцируема при у 0 и 7ф(«/) = g(x(y)), где *(</) = argmin L (х, у); X 6= Q д) если, кроме того, f(х) сильно выпукла, то 7ф(г/) удовлетворяет условию Липшица.
236 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ а) Для любых допустимых х и у (т. е. для xgQ, gi(x) О, 1—1 пг, у 0) f(x)>ip(y). (41) б) Если прямая задача регулярна, х* — ее решение, у* — мно- жители Лагранжа, то у* — решение (40) и f(x*) = ip(/). (42) в) Если для допустимых х*, у* имеет место (42), то х* — ре- шение прямой, а у* — решение двойственной задачи. Доказательство. а) Если х е Q, g (х) 0, у 0, то f (х) > f (х) + (у, g (х)) = L (х, у) inf L (х', у) = ip (г/). х' €= Q б) Пусть х* — решение (22),- у* — множители Лагранжа, тог- да по теореме 2 ip (г/*) = inf L (х, г/*) = L (х*, у*) L (х*, у) > inf L (х, у) = ip (у) is Q xt=Q для всех у^О, т. е. у* — решение (40), при этом, поскольку L(x', у') = Цх*), ТО ip(/) = f(x*). в) Пусть g(x*)>0, x’eQ, г/*>0 и f (х*) = ip (у*), тогда для произвольных допустимых х, у в силу (41) f (х) > ip (г/*) = = f (х*) ip (у), т. е. х*, у* — решения (22) и (40). Л Рассмотрим несколько примеров. Для задачи в R2 minx!, х,<0 (43) имеем L (х, у) = X] + х2г/, ip (у) = inf L (х, у) — оо. Здесь ни хе R2 прямая, ни двойственная задачи не имеют решения. Пусть f(x)== 1/х, х е R1, g(x) — — х^0. (44) Тогда L(x, у) = \/х — ху, ip(g) = —оо для у > 0, ip(0) —0. Здесь двойственная задача имеет решение у* = 0, а прямая — нет. Наконец, если задача имеет вид minx, х2<10, х е R1, (45) то L{x, у} = хД-ух2, ip(y) = —(4г/)-1, и прямая задача имеет решение х* = 0, а двойственная — нет. Все эти «патологические» примеры показывают, что в общем случае соотношение между прямой и двойственной задачами может быть достаточно произ- вольным. Однако в регулярном случае, в соответствии с теоре- мой 46), обе задачи одновременно разрешимы и их оптимальные значения равны. Полезность теоремы двойственности по сравнению с обыч- ными условиями экстремума типа теорем 1—3 определяется сле- дующими факторами. Во-первых, удается свести исходную за-
238 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ 11. Напишите двойственные к задачам: a) min (с, %), ||х|| 1; б) min (с, х), ilxii2 сГ 1. Убедитесь, что получаются разные задачи, хотя исходные задачи эквивалентны. 4. Существование, единственность и устойчивость решения. Лемма 2 и результат упражнения 1 позволяют сформулировать следующий вариант теоремы Вейерштрасса для задачи (22). Теорема 5. Пусть f(x), gt(x), i — 1, ..., m,— выпуклые функции, Q выпукло и замкнуто, для S= {xsQ: ^(х)^0, i = 1, ..., tn} имеем S c: Z) (/)°, S c: D (gi) °, i — 1, ..., tn, и множество {x e S: f (x) непусто и ограничено для некото- рого а. Тогда решение (22) существует. ▲ Единственность решения, как обычно, можно гарантировать для строго выпуклой функции f(x). Кроме того, если множество Q строго выпукло, а \\дхЬ (х, у*) || е >- 0 для всех х е Q и вы- полняются условия теоремы 1, то нетрудно получить, что ре- шение единственно. Наконец, если какая-либо из функций gt(x) строго выпукла, а отвечающий ей множитель Лагранжа поло- жителен у} > 0, то решение также единственно. Что касается двойственной задачи, то предположений регу- лярности недостаточно для единственности ее решения. Напри- мер, для задачи min х, х е R1, gl(x) = — х^.0, g2(x) = x2 —2x^0 (51) множители Лагранжа определяются неоднозначно. Грубо го- воря, это связано с тем, что первое ограничение является лиш- ним— оно не меняет допустимой области. В то же время при условиях регулярности можно утверждать ограниченность реше- ний двойственной задачи. Перейдем к анализу устойчивости. Нам понадобится следую- щий результат о непрерывной зависимости множества решений системы выпуклых неравенств от их правых частей. Лемма 11. Пусть gt(x), z=l...........tn, — выпуклые функ- ции, множество 3 = {х: £(-(х)^0, 1=1, ..., т} (52) непусто и ограничено, D(gt)° S. Тогда-. а} множество Se = {x: ^(x)<eb i=l, ...,т} (53) непусто и ограничено для любых е > 0, е = {©!.......... еот} и A(Se, S) —->0 при е—> 4 0; б) если при этом существует точка х° такая, что gt (х°) 6< 0, то S8 непусто и ограничено при любых ег g{ (х°), i = 1, . . ., m, и р (х8, S) с (шах ег)+ Vx8 е S8, с — -у шах || х — х° ||. ▲ (54) К Кт х е S
§ 1, ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 239 Здесь A (Se, S) — хаусдорфово расстояние между множествами 8е и 8, т. е. A (8г, S) — max {maxp (х, 8е), max р(хе, 8)} х s S X& e Sg Лемма И дает возможность немедленно получить результат о слабой устойчивости (см. § 3 гл. 1) задачи выпуклого програм- мирования при возмущении ограничений. Теорема 6. Пусть X* — Argmin f (х), X*s = Argmin f (x), x e S x e Sg где 8 и 8e имеют вид (52) и (53), f(x), gi(x) выпуклы и непре- рывны на D(f)° и D(f)°TZ>S, D(gt)°ZDS, i— 1, ..., m, причем X* непусто и ограничено. Тогда: а) при всех е > 0 множество XI непусто и ограничено и A(XL Х*)~>0, при 8-> + 0, где f* = f(x*), х*<=Х*, П = Нх;), х^ЕХё; б) если существует х°: gt (х°) < 0, i = 1, ..., т,то XI непусто и ограничено при любых £г(х°), г = 1, ..., пг, и А (Хе, Х*)->0, fe*->r при 8->0. Доказательство. Множество А'* можно записать в виде X* = {х: gt(x)s^0, 1 = 0, 1, ..., m}, где go(x) = f(x) — f*. В со- ответствии с леммой 11 множество Хе — {х: £<(х)^8/, I — = 0, 1, ..., т} (где 8о — 0 в случае а) и е0 — f(x°) — f* в слу- чае б)) является ограниченным и непустым. Но минимизация f(x) на 8е эквивалентна минимизации f(x) на Хе. Множество Хе по доказанному ограничено и непусто, в силу выпуклости и непрерывности Дх) и gi(x) оно выпукло и замкнуто. Поэтому минимум f(x) на Хг достигается, т. е. Х*г непусто и ограничено. Поскольку f(x) непрерывна в окрестности X*, то получаем Записав Хе в виде XI — {х: £(-(х)^еь i = 0, 1.т}, где 8o = fe —Г и вновь применяя лемму 11, получаем, что А(х;, х*)->о. ▲ Мы не останавливаемся на других результатах об устойчиво- сти (сильная устойчивость решений, устойчивость по отношению к возмущениям минимизируемой функции, устойчивость множите- лей Лагранжа, более общие виды возмущений и т. д.). Отметим лишь, что при исследовании подобных проблем очень полезна бывает теорема двойственности. Пусть, например, вместо задачи (22) рассматривается возмущенная задача minf(x), gz(x)^8z, i=\,...,m, xeQ. (55) Составим для нее функцию Лагранжа Д (х, у) = f (х) + (у, g(x) — &) = L (х, у) — (е, у) (56) и двойственную задачу max фе (у), фе (у) = inf Д (х, у) = ф (у) — (в, у). (57)
240 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Таким образом, проблема свелась к исследованию устойчивости двойственной задачи при возмущении целевой функции. Упражнение. 12. Рассмотрите пример в R2, где исходная задача: minxi, —х: 0, воз- мущенная: min (xj 4-81X2), —X[ — 82X2^0. Убедитесь, что в исходной задаче решение существует (х| = 0, х) произвольно), а в возмущенной задаче при 81 =тй 8г решения нет. § 2. Нелинейное программирование (теория) Ниже рассматривается общая задача нелинейного програм- мирования min f (х), £г(х)<0, 1=1, ...,r, (1) gi(x) = 0, i = r + 1, . .., tn, где все функции предполагаются дифференцируемыми, но не обязательно выпуклыми. 1. Необходимые условия минимума. Для произвольной допу- стимой точки х* введем множества индексов /* = {/: = 1=1, ..., г), / = {i: §Дх‘) = 0, /=1, (2) характеризующих активные ограничения (/* относится к нера- венствам, I — ко всем ограничениям). Теорема 1 (Каруш — Джон). Пусть х* — точка локального минимума в (1), а функции f(x), gt(x), i = 1, . .., m, непрерывно дифференцируемы в окрестности х*. Тогда найдутся числа уо, y*i, i е I, не все равные 0, такие, что уо^О, у/^0, 1^.1*, и «/oVf(x*) + Z i/iVg,(x*) = 0. (3) i <= I Доказательство. Можно предположить, что Vg/(x*), 1 = г + 1, ..., т, линейно независимы, иначе утверждение тео- ремы тривиально (можно взять уо = О, yf = O, ief). По- строим два множества в R'”+!, причем будем обозначать компо- ненты ге Rm+! через {г0, Zi...zm}: A = [zs R"1*1: z0 = (Vf (x‘), s), zz = (Vgz (x*), s), iel, s e R'!}, В = {z e Rm+1: zQ < 0, zt < 0, i e Г; z( = 0, i = r + 1, .... m}. Покажем, что эти множества не пересекаются. Пусть это не так, тогда найдется se R'1 такое, что (Vf (х*), s) < 0, (Vg'z (х*), s) < 0, 1еГ, (4) (Vgi (х’)> s) = 0, 1 = г + 1, ..., пг.
§ 2. НЕЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 241 По теореме Люстерника (теорема 3 § 1 гл. 8) найдутся точки Х\ такие, что g,(xj.) = 0, i — г 4- 1, ..., т, Х\ = х* + Xs -|- о (X). Тогда в силу (4) f (ч) = f (х*) + X (Vf (х*), s) + о (X) < f (х*) при достаточно малых X > 0. С другой стороны, п