Text
                    УДК 519.85
ББК 22.18
И37
Измаилов А.Ф., Солодов М.В. Численные методы оптимизации:
Учеб. пособие. - М.: ФИЗМАТЛИТ, 2005. - 304 с. - ISBN 5-9221-0045-9.
Современный курс численных методов оптимизации. Основное внимание
уделено методам общего назначения, ориентированным на решение глад-
гладких задач математического программирования без какой-либо специальной
структуры. Излагаются как «классические» методы, важные в идейном
отношении, так и более изощренные «новые» алгоритмы, привлекающие
в настоящее время наибольшее внимание специалистов и пользователей.
Для студентов, аспирантов и научных работников, интересующихся чис-
численными методами оптимизации.
Библиогр. 48 назв.
© ФИЗМАТЛИТ, 2003, 2005
© А. Ф. Измаилов,
ISBN 5-9221-0045-9	М. В. Солодов, 2003, 2005


ОГЛАВЛЕНИЕ Введение ........................................... 6 Список обозначений ................................... 11 Глава 1. Элементы теории оптимизации ................ 13 §1.1. Начальные сведения о задачах оптимизации .......... 13 1.1.1. Постановка и классификация задач оптимиза- оптимизации A3). 1.1.2. Существование глобального решения A6). § 1.2. Прямые условия оптимальности ................... 20 1.2.1. Касательный конус. Прямые условия оптимально- оптимальности B0). 1.2.2. Условия оптимальности в задаче безуслов- безусловной оптимизации B3). § 1.3. Задача с ограничениями-равенствами ............... 26 1.3.1. Теорема о неявной функции. Теорема Люстерни- ка B7). 1.3.2. Принцип Лагранжа B9). 1.3.3. Условия вто- второго порядка оптимальности C2). § 1.4. Задача со смешанными ограничениями .............. 34 1.4.1. Леммы о линейных системах C6). 1.4.2. Условия Каруша™Куна™Таккера C8). 1.4.3. Условия второго поряд- порядка оптимальности D4). Глава 2. Начальные сведения о методах оптимизации ..... 48 §2.1. Общее понятие о методах оптимизации .............. 48 2.1.1. Классификация методов оптимизации. Понятия сходимости D8). 2.1.2. Оценки скорости сходимости. Пра- Правила остановки E1). § 2.2. Методы одномерной оптимизации .................. 55 2.2.1. Метод перебора на равномерной сетке E5). 2.2.2. Метод дихотомии. Метод золотого сечения E7). Глава 3. Методы безусловной оптимизации ............. 62 § 3.1. Методы спуска ............................... 62 3.1.1. Общая схема методов спуска F2). 3.1.2. Градиент- Градиентные методы F9). § 3.2. Метод Ньютона. Квазиньютоновские методы .......... 81 3.2.1. Метод Ньютона для уравнений (82). 3.2.2. Ме- Метод Ньютона для задачи безусловной оптимизации (85). 3.2.3. Квазиньютоновские методы
Оглавление § 3.3. Методы сопряженных направлений ................ 93 3.3.1. Методы сопряженных направлений для квадратич- квадратичных функций (93). 3.3.2. Метод сопряженных градиен- градиентов (96). § 3.4. Методы нулевого порядка ....................... 99 Глава 4. Методы условной оптимизации ................ 103 §4.1. Методы решения задач с простыми ограничениями ..... 103 4.1.1. Методы проекции градиента A03). 4.1.2. Возмож- Возможные направления и методы спуска A09). 4.1.3. Методы условного градиента. Условные методы Ньютона A11). §4.2. Методы возможных направлений .................. 113 §4.3. Методы решения задач с ограничениями-равенствами . ... 116 4.3.1. Методы решения системы Лагранжа A17). 4.3.2. Метод квадратичного штрафа A20). 4.3.3. Мо- Модифицированные функции Лагранжа и точные гладкие штрафные функции A27). § 4.4. Последовательное квадратичное программирование ..... 135 4.4.1. Ограничения-равенства A35). 4.4.2. Смешанные ограничения A38). § 4.5. Методы решения системы Каруша—Куна—Таккера ...... 148 4.5.1. Эквивалентные переформулировки системы Каруша-Куна-Таккера A48). 4.5.2. Элементы негладкого анализа и обобщенный метод Ньютона A51). 4.5.3. Обоб- Обобщенный метод Ньютона для системы Каруша-Куна- Таккера A57). § 4.6. Идентификация активных ограничений .............. 165 4.6.1. Идентификация, основанная на оценках расстоя- расстояния A66). 4.6.2. Оценки расстояния A69). § 4.7. Штрафы и модифицированные функции Лагранжа для за- задачи со смешанными ограничениями ................ 171 4.7.1. Штрафы A71). 4.7.2. Модифицированные функции Лагранжа A81). 4.7.3. Точные штрафы A85). Глава 5. Стратегии глобализации сходимости ........... 192 § 5.1. Одномерный поиск ............................ 192 § 5.2. Методы доверительной области ................... 196 § 5.3. Продолжение по параметру ...................... 204 5.3.1. Конечные алгоритмы продолжения B05). 5.3.2. Продолжение посредством решения начальной задачи B08). § 5.4. Глобализация сходимости методов последовательного квад- квадратичного программирования .................... 211 5.4.1. Глобализация сходимости B11). 5.4.2. Восстановле- Восстановление сверхлинейной скорости сходимости B19). Глава 6. Методы негладкой выпуклой оптимизации ...... 228 §6.1. Элементы выпуклого анализа и двойственные методы . . . 229 6.1.1. Элементы субдифференциального исчисления B29). 6.1.2. Двойственная релаксация B30).
Оглавление § 6.2. Субградиентные методы. Кусочно линейная аппроксима- аппроксимация ....................................... 235 6.2.1. Субградиентные методы B35). 6.2.2. Методы кусоч- кусочно линейной аппроксимации B39). § 6.3. Многошаговые методы с квадратичными подзадачами . . . 242 Глава 7. Специальные задачи оптимизации ............. 253 §7.1. Элементы теории линейного программирования . ....... 253 7.1.1. Общие свойства линейных задач B53). 7.1.2. Теория двойственности для линейных задач B59). § 7.2. Симплекс-метод .............................. 263 7.2.1. Общая схема симплекс-метода B63). 7.2.2. Итера- Итерация симплекс-метода B65). § 7.3. Методы решения задач квадратичного программирования 272 7.3.1. Особые точки B72). 7.3.2. Метод особых то- точек B74). § 7.4. Методы внутренней точки ....................... 277 7.4.1. Барьеры B77). 7.4.2. Некоторые замечания о тру- трудоемкости алгоритмов B80). 7.4.3. Прямые методы внут- внутренней точки для линейных задач B82). 7.4.4. Прямод- войственные методы внутренней точки для линейных за- задач B89). Список литературы.................................... 294 Предметный указатель ................................. 297
ВВЕДЕНИЕ Наука о численных методах оптимизации весьма молода; она сфор- сформировалась во второй половине прошлого века и продолжает актив- активно развиваться. Изначально предназначенная в основном для обслу- обслуживания исследования операций (или, более общим образом, науки о принятии решений), сейчас она представляет собой самостоятель™ ную область деятельности на стыке теории и приложений, со своими традициями, языком и широким международным сообществом спе- специалистов. В мире издается множество журналов по оптимизации (исключение составляет Россия, в которой в силу определенных при- причин никогда не существовало и не существует по сей день специа- специализированного научного журнала по этой тематике). Все возрастаю™ щая востребованность результатов в данной области объясняется как наличием множественных естественных оптимизационных процессов в природе, так и естественным стремлением человека к оптимальной организации своей деятельности. С другой стороны, стремительное развитие численной оптимизации именно в последние десятилетия при™ вело к появлению алгоритмов и программного обеспечения, пригодных для решения реальных прикладных задач (в том числе задач большой размерности), тем самым по-настоящему сблизив эту науку с областью ее возможных приложений. К настоящему моменту различными авторами опубликовано мно- множество (в том числе прекрасных) руководств и учебников по числен™ ным методам оптимизации (см., например, [1, 4, 6, 7, 9, 10, 13, 16, 17, 19, 23, 26, 28, 3(ЬЗЗ, 36, 38, 40, 41, 44^46, 48]; здесь намеренно не упоминаются более ранние и явно устаревшие издания). Однако, как видно из приведенного списка, несмотря на чрезвычайно актив- активное развитие этого предмета, с начала 90-х годов издавались лишь единичные курсы такого рода. В современной западной литературе по оптимизации часто цитируются книги [40, 48], но широкому кругу российских читателей они недоступны. Давно ожидаемым событием стал выход фундаментального труда [8], однако авторы надеются, что и настоящая книга займет достойное место в отечественной литературе по методам оптимизации. В любом случае появление нового курса по методам оптимизации должно сопровождаться разъяснениями, чем данный курс отличается
Введение от существующих и какие цели преследовались при его подготовке. Предмет этот чрезвычайно обширен, поэтому важно обозначить основ- основные принципы, которыми руководствовались авторы при отборе мате- материала, и, прежде всего, какие вопросы и почему не нашли отражения в курсе. Главный объект изучения в данном курсе — гладкая задача конеч- конечномерного математического программирования без каких-либо предпо- предположений о выпуклости. Тем самым, во-первых, сознательно сводится к минимуму рассмотрение чрезвычайно важного класса негладких за- задач и задач с недостаточной гладкостью. Это объясняется лишь неиз- неизбежной ограниченностью объема курса. Элементы негладкого анализа и соответствующие методы обсуждаются ниже главным образом как средства решения изначально гладких задач. Такое естественное воз- возникновение негладкости при работе с гладкими задачами наблюдается нередко. Например, множество решений системы гладких неравенств обычно негладко (в некотором интуитивном смысле). Во-вторых, важной отличительной чертой основной части данного курса является сознательный отказ от использования аппарата выпук- выпуклого анализа. При обосновании и сравнительном анализе численных методов оптимизации в большинстве известных руководств этот ап- аппарат используется систематически. Это удобно, поскольку наличие выпуклой структуры существенно упрощает анализ и дает возмож- возможность довести его до конца. Тем самым, получается единая картина методов оптимизации, но лишь для весьма специального класса задач с очень существенными структурными ограничениями. Можно, види- видимо, утверждать, что подавляющее большинство задач оптимизации, возникающих в приложениях, не являются выпуклыми (а если и яв- являются выпуклыми, то не являются гладкими). Кроме того, представ- представляется весьма интересным выяснить, насколько далеко можно продви- продвинуться в обосновании методов оптимизации, не привлекая по существу предположений о выпуклости. Одной из важнейших задач авторов при подготовке этого курса была демонстрация того, что продвинуться можно достаточно далеко. Тем не менее, негладкие выпуклые задачи не могли быть полностью исключены из рассмотрения ввиду несомненной важности и актуаль- актуальности этой проблематики. Обзор некоторых современных методов ре- решения таких задач вынесен в отдельную главу. Выбор основного класса задач, рассматриваемого в курсе, во мно- многом определяет круг обсуждаемых (и соответственно не обсуждаемых) численных методов: главным образом речь будет идти о методах общего назначения, ориентированных на решение гладких задач математиче- математического программирования без какой-либо специальной структуры. При этом, с одной стороны, обсуждаются методы, важные в идейном от- отношении, анализируются их сравнительные достоинства и недостатки,
Введение что позволяет сделать изложение связным, показав взаимосвязь раз- различных методов. С другой стороны, авторы надеются, что курс позво- позволяет составить представление о state-of-the-art численной оптимизации, о тех методах, которые наиболее активно обсуждаются в современной литературе. Более того, некоторые излагаемые ниже результаты (см., например, § 3.1, 4.5, 5.4) в монографической литературе публикуются, по-видимому, впервые. Подчеркнем, что этот курс освещает методы оптимизации с точки зрения математика, а не практика: многочисленные тонкости реали- реализации и практического использования излагаемых методов (например, масштабирование, применимость методов к задачам большой размер™ ности, автоматическое дифференцирование) здесь почти не обсужда- обсуждаются. Нужно, однако, понимать, что для практика такие тонкости и эвристические приемы, основанные на большом опыте применения методов, зачастую значительно важнее абстрактных теорем о сходи- сходимости. В этом смысле прекрасными «руководствами пользователя» являются, например, книги [13, 41, 44, 45, 47, 48]. Много внимания вопросам реализации методов уделено также в более ранних изда- изданиях [31, 38], однако содержащаяся в них информация по методам условной оптимизации с современной точки зрения явно недостаточна. Совершенно не затронут в курсе еще один круг вопросов — устой- устойчивость методов к разного рода возмущениям и, в частности, влияние неточного решения вспомогательных задач на конечный результат ра- работы метода. Важность этих вопросов несомненна, но за ответами на них читателю следует обратиться к другим изданиям. В книге отсутствует раздел, содержащий предварительные и вспо- вспомогательные сведения, необходимые для ее чтения. Дело в том, что такие сведения минимальны: требуется лишь знакомство читателя с линейной алгеброй и математическим анализом в объеме начальных курсов, включая дифференциальное исчисление функций многих пере- переменных. Весьма желательно также знакомство с основами выпуклого анализа. Впрочем, в соответствии со сказанным выше, в большей части курса (по сути дела, за исключением главы 6) выпуклый анализ если и привлекается, то лишь на уровне базовых понятий и простейших результатов этой науки. Избранные факты из анализа, которые играют в курсе особенно важную роль, приводятся по ходу изложения, иногда без доказательств (к ним относятся, например, теорема Вейерштрасса, теорема о неявной функции, теорема Радемахера). Кроме того, многие используемые по- понятия и результаты комментируются в сносках. Отсутствие в книге иллюстраций объясняется тем, что, по мнению авторов, будет полезнее, если читатель сам по возможности проил- проиллюстрирует приводимые сведения рисунками (обычно двумерными). Подчеркнем, что авторство излагаемых ниже результатов указыва- указывается лишь в некоторых случаях. Дело в том, что вопрос об авторстве
Введение часто бывает весьма непростым и спорным и вряд ли является важным для большинства читателей. Соответственно в списке литературы нет оригинальных журнальных статей, а приведены только монографии. Историческим вопросам много внимания уделено, например, в [6, 40]. Вообще, целью авторов было написание максимально компактного (без лишней информации) и, вместе с тем, достаточно полного введения в современную численную оптимизацию. За более детальной информа- цией, касающейся отдельных классов методов, читателю следует обра- обратиться к соответствующей специальной литературе, ссылки на которую имеются в тексте. В тексте содержится большое количество задач. Некоторые просты и даже рутинны (хотя авторы старались избегать тривиальных задач), а в некоторых приводятся вполне содержательные утверждения, яв- являющиеся неотъемлемой частью излагаемого материала, или поста- постановки проблем, которые могут послужить основой даже для курсовых и дипломных работ. Ряд задач и примеров заимствованы из [3,10, 36, 40] и других источников. Общепринятые обозначения специально не оговариваются, их пояс- пояснение вынесено в список обозначений. Для удобства ссылок в книге применяется следующая система нумерации ее разделов. Номер па- параграфа состоит из двух цифр, первая из которых обозначает номер главы, в которой находится этот параграф. Аналогично, номер пункта состоит из трех цифр, первые две из которых составляют номер пара- параграфа, в котором находится этот пункт. Нумерация объектов (формул, определений, теорем и т. п.) в каждом параграфе независимая. При ссылке на объект извне параграфа используется номер, состоящий из трех цифр, первые две из которых составляют номер параграфа, а последняя — номер объекта в параграфе. Эта книга написана на основе курсов лекций, которые авторы на протяжении ряда лет читали на факультете ВМиК МГУ им. М.В.Ло- М.В.Ломоносова, на факультете физико-математических и естественных наук РУДН, а также в Institute de Matematlca Рига е Aplicada (Рио-де- Жанейро, Бразилия). Авторы чрезвычайно признательны IMP А, став- ставшему «базой» для их сотрудничества в последние годы. Особую бла- благодарность авторы выражают Claudia Sagastizabal за ее постоянную профессиональную и личную помощь и поддержку. Мы признательны О.А. Брежневой, а также нашим студентам и аспирантам, которые спо- способствовали устранению неточностей и опечаток, присутствовавших в первоначальном варианте рукописи. Авторы посвящают эту книгу памяти недавно ушедшего от нас Владимира Георгиевича Карманова. Его замечательный учебник «Математическое программирование» сыграл выдающуюся роль в ста-
10 Введение новлении и развитии отечественной численной оптимизации. Своеоб- Своеобразие стиля и подхода к излагаемому материалу обеспечивают этому учебнику популярность у студентов и специалистов и по сей день (первое издание увидело свет еще в 1975 г., а последнее — в 2000 г. [23]). Долгие годы Владимир Георгиевич принимал активное участие в де- деятельности российского оптимизационного сообщества и в подготов- подготовке кадров для него, в том числе на кафедре исследования операций факультета ВМиК МГУ, выпускниками которой являются оба автора настоящей книги. Личное удовольствие и профессиональная польза от общения с Владимиром Георгиевичем, а также его многолетняя прямая и косвенная поддержка — неоценимый вклад в эту книгу.
СПИСОК ОБОЗНАЧЕНИИ R — множество вещественных чисел. R+ — множество неотрицательных вещественных чисел. Rn — n -мерное арифметическое пространство, снабженное евклидо- евклидовым скалярным произведением и соответствующей нормой. R(ra, п) — пространство вещественных т х п -матриц, снабженное нормой, подчиненной нормам в Rn и RTO. a?i, . . . 5 хп — компоненты вектора х Е Rn в стандартном базисе пространства Rn (если не оговорено иное). (•, •) — евклидово скалярное произведение. | • | — евклидова норма вектора (аналогичное обозначение использует- используется для количества элементов конечного множества). | • |р — норма вектора, определяемая как корень степени р из суммы возведенных в степень р модулей его компонент (в частности, | • loo — норма вектора, определяемая как максимум из модулей его компонент. В (ж, 8) = {х Е Rn| |ж —ж| < 3} — открытый шар радиуса 5 с центром в точке ~х Е Rn. В(х, §) = {х Е Rn |ж—"ж| ^ 8} —замкнутый шар радиуса S с центром в точке ~х Е Rn. dist(a?, X) = inf \x — ?\ — расстояние от точки х до множества X. {хк} = {ж0, ж1, . . ., хк, . . .} — последовательность. {хк} —± х (к —> оо) — последовательность {хк} сходится к элемен- элементу х (для числовых последовательностей {а^} используются так- также обозначения а д. —> а (к —> оо) или lim а^ = а). lim inf а^ (lim sup ад.) — нижний (верхний) предел числовой последо- к^ОО вательности int X — внутренность множества X. cl X —замыкание множества X. span X — линейная оболочка множества X (минимальное линейное подпространство, содержащее X). conv X — выпуклая оболочка множества X (минимальное выпуклое множество, содержащее X).
12 Список обозначений cone X — коническая оболочка множества X (минимальный выпук- выпуклый конус, содержащий X). dim X — размерность линейного пространства X. Еп — единичная п х п -матрица. X1- = {х G Rn| (ж, ?) = О V^ G X} — ортогональное дополнение мно- множества X с Rn. К* = {жЕ Rn| (ж, ?) ^ О V^ E Ж} — конус, (положительно) сопря- сопряженный к конусу К С Rn. Ах — умножение матрицы А на вектор ж (или действие линейного оператора А на элемент х). \т А — образ (множество значений) матрицы (линейного операто- оператора) А. ker A — ядро (множество нулей) матрицы (линейного оператора) А. АТ — матрица, траспонированная к матрице А. det A — определитель матрицы А. rankA = dimim A — ранг матрицы (линейного оператора) А. ^/,х(с) = {х Е Х\ f(x) ^ с} — множество Лебега функции / на множестве X. 7)f(x) — множество направлений убывания функции / в точке х. df(x) — субдифференциал выпуклой (либо супердифференциал во- вогнутой) функции / в точке х. 9?f(x) — е-субдифференциал выпуклой функции / в точке х. 3~х{х) —множество возможных относительно множества X в точке х направлений. ^х{х) — проекция точки х на замкнутое выпуклое множество X. graph F = {(ж, у) G X х Y F(x) = у} — график отображения F: X -+Y. П — знак окончания доказательства.
Посвящается памяти В. Г. Карманова Глава 1 ЭЛЕМЕНТЫ ТЕОРИИ ОПТИМИЗАЦИИ При обосновании и сравнительном анализе численных методов оп- оптимизации обычно существенно используются теоретические резуль- результаты о задачах оптимизации: условия существования решений, необ- ходимые и достаточные условия оптимальности, оценки расстояния до множества решений или допустимого множества задачи. Более то™ го, нередко сама идея построения метода имеет в своей основе те или иные условия оптимальности. В настоящей главе излагаются мини™ мально необходимые для дальнейшего теоретические сведения о за- задачах оптимизации. Подчеркнем, что многие важные с теоретической точки зрения результаты, не находящие пока серьезных приложений в области численных методов, намеренно опущены. § 1.1. Начальные сведения о задачах оптимизации 1.1.1. Постановка и классификация задач оптимизации. Основ- Основной объект изучения в данном курсе — задача об отыскании ми™ нимума функции f:D—t R, определенной на заданном множест- множестве D С Rn. Эту задачу будем записывать в виде f(x) —> min5 х G D, A) и называть задачей оптимизации (или задачей математического программирования). При этом точки множества D называют допу- допустимыми точками^ само D — допустимым множеством^ а функ- функцию / — целевой функцией задачи A). Определение 1. Точка ~х G D называется: глобальным решением задачи A), если f(x)^f(x) Vx€D; B) локальным решением задачи A), если найдется окрестность U точки ~х такая, что f(x)<:f(x) VxeDnU. C) Разумеется, всякое глобальное решение является и локальным, но, вообще говоря, не наоборот. Если неравенство B) или C) при х ф
14 Гл. 1. Элементы теории оптимизации Ф ~х выполняется строгим образом, то говорят о строгом глобальном или соответственно строгом локальном решении. Заметим, что стро- строгое локальное решение не обязательно является изолированным (от других локальных решений). Определение 2. Значением задачи A) называется величина U = inf fix). Далее, всякую задачу максимизации f(x) —> max, x G D, D) всегда можно заменить эквивалентной задачей минимизации — f(x) —> min, x G D. Локальные и глобальные решения этих задач совпадают, а значе- значения отличаются только знаками. Таким образом, с теоретической точ- точки зрения безразлично, какой класс задач (максимизации или мини- минимизации) рассматривать: если изучен один из этих классов, то мож- можно считать изученным и другой. В этом курсе будут рассматриваться главным образом задачи минимизации. Решения задач A) и D) в совокупности называют экстремальны- экстремальными точками или экстремумами функции / на множестве D, а са- сами задачи A) и D) часто называют экстремальными задачами. Чаще всего допустимое множество задачи A) задается в следую- следующем виде: D = {х G P\ F(x) = О, G(x) ^ 0}, E) где Р С Rn — заданное множество, F: Р —> R1 и G: Р —> Rm — за- заданные отображения. При этом удобно предполагать, что функция / также определена на Р. Условие принадлежности допустимой точ- точки множеству Р называется прямым ограничением^ а ограничения™ равенства и ограничения-неравенства в определении D — функцио- функциональными ограничениями. Если D = Rn (соответственно D ф Rn), то задачу A) называ™ ют задачей безусловной (соответственно условной) оптимизации. За- Задача безусловной оптимизации может рассматриваться как частный случай задачи A), E) (при Р = Rn и отсутствии функциональных ограничений, что можно формально записать как I = т = 0). Тео- Теории таких задач посвящен § 1.2. При Р = Rn и т = 0 задача A), E) становится задачей с чисты- чистыми ограничениями-равенствами. Такие задачи рассматриваются в на- начальном курсе математического анализа (см., например, [22]). В осно- основе их теории лежит классический принцип Лагранжа; этим вопросам посвящен § 1.3. Наконец, теория задач оптимизации со смешанными ограничениями (равенствами и неравенствами) излагается в § 1.4.
§1.1. Начальные сведения о задачах оптимизации 15 Напомним, что множество называется полиэдром^ если оно может быть представлено как множество решений конечной системы линей- линейных неравенств. Отображение называется аффинным^ если оно может быть представлено как сумма линейного отображения и постоянно- постоянного вектора. Функция называется квадратичной^ если она может быть представлена как сумма квадратичной формы и аффинной функции. Более специальные классы задач оптимизации связаны, например, со случаем, когда множество Р является полиэдром, а отображения F и G аффинны (в этом случае само множество D является по- полиэдром). Если при этом / — линейная функция, то A), E) назы- называют задачей линейного программирования, а если / — квадратич™ ная функция, то задачей квадратичного программирования. Соответ- Соответствующие разделы теории оптимизации называются линейным про- программированием и квадратичным программированием; им посвящена гл. 7. Разумеется, приведенная классификация задач оптимизации не претендует на полноту. Например, здесь не рассматривается важный в идейном плане класс задач выпуклого программирования (по при- причинам, указанным во введении). Обращаем внимание на следующее важное обстоятельство. Деле- Деление ограничений в E) на функциональные и прямые условно. Обычно выбор того, какие ограничения отнести к прямым, а какие к функ- функциональным, находится во власти математика, исследующего задачу. Всегда можно считать, что есть лишь прямые ограничения. Наобо- Наоборот, прямые ограничения всегда молено записать как функциональ- функциональные (например, с помощью индикаторной функции множества Р). В зависимости от целей исследования в конкретном случае удобна та или иная форма представления ограничений. Однако, как правило, полезно возможно более детальное описание функциональных огра- ограничений. Обычно в качестве Р берется множество «простой» струк- структуры, во всяком случае выпуклое г), например шар или параллелепи- параллелепипед 2) в Жп. Особенно часто используются множества Р = R^ или просто Р = Rn (случай, когда прямых ограничений нет). Постановки задач, в которых нетривиальным образом присутству- присутствуют как прямые, так и функциональные ограничения, рассматривают- рассматриваются ниже лишь в связи с некоторыми специальными вопросами: обыч- г) Множество X С Rn называется выпуклым^ если вместе с любы- любыми двумя своими точками оно содержит соединяющий их отрезок: tx1 + + A - t)x2 е х Уж1, х2 gI, Vie [о, 1]. 2) Параллелепипедом в Rn называется прямое произведение га число- числовых отрезков, т.е. множество вида {ж ? Rn сц ^ х% ^ Ъ% Vi = 1,. . . ,п}, где a,i и hi — заданные числа, а% ^ 6», г = 1,. . . , га. Иногда удобно до- допускать, что какие-то из чисел а% могут быть равны — оо, a bi рав- равны + ОО.
16 Гл. 1. Элементы теории оптимизации но будет предполагаться, что все ограничения отнесены либо к пря- прямым, либо к функциональным. Такой подход представляется разум- разумным с точки зрения подавляющего большинства излагаемых ниже численных методов. Задача 1. Используя геометрические построения, высказать ги- гипотезу о глобальном решении задачи —х\ + Х2 —> min, х G D = {х G R2 х\ + х\ ^ 1, х\ ^ ж2,, Ж1 + Ж2 ^ 0}. Задача 2. То же задание для задачи max{|zi — 2|, |#2|} -^ min, ж G D = {ж G R2| 2|xi| - |ж2| ^ 2}. Задача 3. То же задание для задачи (х\ 1) + ж > Ж G D = {X где crGR- параметр. х\ + Жз = Задача 4. Используя геометрические построения, высказать гипотезу о том, при каких значениях параметра a G R задача —>• min, х е D = {х еШ2\ х\ + а?2 = имеет глобальное решение, а при каких — лишь локальное. 1.1.2. Существование глобального решения. Если U = — оо, то задача A), конечно же, не имеет глобального решения (это случай, когда целевая функция не ограничена снизу на допустимом множе- множестве). Более того, значение задачи может быть конечно, но не дости- достигаться ни в одной допустимой точке, и при этом глобального реше- решения тоже нет. Большое значение имеют достаточные признаки, поз- позволяющие судить о существовании у задачи глобального решения априори, без фактического отыскания такого решения. Простейшим результатом такого рода (что нисколько не снижает его важности) является следующая классическая теорема Вейерштрасса, доказы- доказываемая в любом курсе математического анализа (например, в [22]). Теорема 1. Пусть D С Rn — непустое компактное множе- ство, /: D —>> R — непрерывная на D функция. Тогда задачи A) и D) имеют глобальные решения.
§1.1. Начальные сведения о задачах оптимизации 17 Условие непрерывности функции / в этой теореме можно нес- несколько ослабить, заменив его условием полунепрерывности снизу *) в случае задачи на минимум и сверху в случае задачи на максимум. В остальном же условия теоремы Вейерштрасса вполне сбалансирова- сбалансированы: ослабить в ней условие компактности множества D (например, отказавшись от ограниченности этого множества, что бывает важно в приложениях) можно лишь за счет усиления требований на функ- функцию /, причем получаемые на этом пути результаты обычно сами являются следствиями теоремы 1. Приведем одно такое очевидное следствие. Следствие 1. Пусть D С Rn — произвольное множество, /: D —> R — непрерывная на D функция, причем существует число с, для которого множество Лебега Lj?jd(c) = {ж Е D f(x) ^ с} функ- функции f непусто и компактно. Тогда задача A) имеет глобальное решение. Пример 1. Покажем, что задача A) с допустимым множеством D = {x e R2| Ж1 + ж2 > 0} и целевой функцией /:D->R, f(x) = x\ + х2 + —J— , имеет глобальное решение. Заметим, что множество D не ограничено и не замкнуто, поэтому теорема Вейерштрасса неприменима. Тем не менее зафиксируем про- произвольное с, для которого Ь(с) = Lf^o^c) ф 0 (например, можно взять с = f(x) для произвольного фиксированного х Е D), и дока- докажем, что Ь(с) компактно. Предположим сначала, что Ь(с) не ограничено, т.е. существует последовательность {хк} С L(c) такая, что |ж^[ —> схэ [к —>• оо). При этом х\ + х\ > 0 и f(xk) ^ с У к. Если предположить, что \xf\ —> оо (к —)> оо), то с) f(xk) > (xfJ + x\ > {х\J - xf -> +оо (к —> оо), что невозможно. Если же последовательность {xf} огра™ ничена, то х\ -Л +оо (к —>• оо), поэтому при достаточно больших к имеем с J^ f{xk) > х\ —> +оо (к —> оо), что снова невозможно. Таким образом, множество L(c) ограничено. г) Функция /: X —>¦ R называется полунепрерывной снизу в точке х Е Е X С Rn, если для всякой последовательности {ж } Е X такой, что {хк} —> х (к —>- сх>), справедливо неравенство liminf f(xk) ^ /(ж). Функ- fc-->oo ция / полунепрерывна снизу на множестве Х1 если она обладает этим свойством в каждой точке множества X. Понятие полунепрерывности сверху вводится аналогичным образом.
18 Гл. 1. Элементы теории оптимизации Предположим теперь, что Ь(с) незамкнуто, т.е. существует по- последовательность {хк} С L(c) такая, что {хк} —>• х (к —)¦ сю), х Е Е Rn \ L(c). Функция / непрерывна на D, поэтому f(x) ^ с. Зна™ чит, ж Е cl D \ D, т. е. zi + X2 = 0. Но тогда с J^ f(%k) —> +оо (А; -^ —>• сю), что невозможно. Таким образом, множество L(c) замкнуто, а значит, компактно, и требуемый результат получается применением следствия 1. Задача 5. Последовательность {хк} С D С Rn называется кри- критической (относительно множества D), если либо \xk\ —>• оо, либо {xh} -I z G cl D \ D (к ^ сх)). Функция /: D —> R называет™ ся бесконечно растущей или коэрцитивной (на D), если для любой критической относительно 1} последовательности {ж^} справедливо равенство limsup/(icfe) = +оо. к—>сю Используя схему рассуждений из примера 1, доказать следующее утверждение. Пусть D С Rn — произвольное непустое множество, /: D —>• R — непрерывная бесконечно растущая на D функция. Тог- Тогда задача A) имеет глобальное решение. Важный пример применения следствия 1 возникает в связи со еле™ дующим понятием. Определение 3. Проекцией точки у Е Rn на множество X С С Rn называется точка, ближайшая к у среди всех точек множе™ ства X, т.е. глобальное решение задачи \х — у\ —> min, х Е X. Следствие 2. Проекция любой точки на любое непустое замк- замкнутое множество в Rn существует. Задача 6. Доказать следствие 2. Доказать, что если множество выпукло, то проекция единственна. В тех случаях, когда множество X С Rn замкнуто и выпукло, (единственная) проекция точки у Е Rn на X будет обозначаться через 7гх(у)- Задача 7. Пусть X — замкнутое выпуклое множество в Rn. Доказать, что (у-1гх(у), х-тгх(у))^0 VyeR", Ух еХ. Доказать, что если К — замкнутый выпуклый конус 1) в Rn, то {у-7гк(у),х)^0 VyeR/\ Ухе К. ) Множество К С Rn называется конусом, если вместе с любой своей точкой оно содержит проходящий через эту точку луч с началом в нуле (возможно, без начала): tx Е К Vх Е К, Vt > 0.
§1.1. Начальные сведения о задачах оптимизации 19 Задача 8. Пусть X — замкнутое выпуклое множество в Rn. Доказать, что оператор проектирования на X обладает неразжи- мающим свойством, т. е. - жх(у2)\ ^ {у1 - у2\ Vу1, у2 е R". Задача 9. Пусть X — замкнутое выпуклое множество в Rn. Доказать, что для произвольных х Е X и d Е Rn функция срг: R+ ->> R, ^i(t) = |тгх(ж + td) - ж|, монотонно неубывающая, а функция <р2: (R+ \ {0}) -»¦ R, Mt) = Mt)/t, монотонно невозрастающая. Задача 10. Пусть К ^замкнутый конус в Rn, у Е —К*. До™ казать, что единственной проекцией у на, К является 0. Задача 11. Пусть А Е R(n, n) — симметрическая матрица, b E Е Rn, с Е R. Рассмотрим квадратичную функцию /: W1 -> R, /(ж) = (Лж, ж) + F, ж) + с. Доказать следующие утверждения: а) если задача безусловной минимизации функции / имеет ло- локальное решение, то матрица А неотрицательно определена, причем локальное решение по необходимости является глобальным; б) если матрица А положительно определена, то функция / яв- является бесконечно растущей на Rn (см. задачу 5) и, в частности, задача минимизации / на любом непустом замкнутом допустимом множестве D С Rn имеет глобальное решение. Убедиться, что требование замкнутости D в утверждении б) су- существенно. Задача 12. С помощью критерия Сильвестра и утверждений из задачи 11 найти все значения параметра a E R, при которых задача безусловной минимизации функции /: R2 —> R, f(x) = ax\ + Ах\Х2 + ^х\ + х\ + Ж2, имеет решение. Задача 13. Пусть задача безусловной минимизации непрерыв- непрерывной на Rn функции /: Rn —>> R имеет глобальное решение. Следу- Следует ли отсюда, что имеет глобальное решение задача минимизации / на любом замкнутом множестве в Rn ? Задача 14. Пусть задачи безусловной минимизации непрерыв- непрерывных на Rn функций /i, /2: Rn —>• R имеют глобальные решения. Следует ли отсюда, что имеет глобальное решение задача безуслов™ ной минимизации функции /i(-) + /2@ ?
20 Гл. 1. Элементы теории оптимизации § 1.2. Прямые условия оптимальности 1.2.1. Касательный конус. Прямые условия оптимальности. В этом пункте рассматривается задача оптимизации /(ж) ->> min, х Е D, A) где D С Rn — заданное множество, структура которого не конкрети- конкретизируется, /: D —>- R — заданная функция. Определение 1. Вектор h Е Rn называется касательным к множеству D в точке xGD, если dlst(x + ?ft, D) = o(t), t > 0. Очевидно, множество всех векторов, касательных к множеству D в точке ж G D, является конусом. Этот конус называется касатель- касательным конусом к множеству D в точке ~х и обозначается То (ж): TD(x) = {h e Rn| dist(x+ th, D) = o(t), t ^ 0} = = {ft G Rn I V {^} С R, {^} ^ 0+5 3 {xk} С D: Касательный конус всегда непуст, так как содержит 0. Наряду с касательным конусом часто рассматривают так называ- называемый контингентный конус (или конус Булигана) к множеству D в точке xGD: CD{x) = {heUn\ 3{<9fc}cR+, 3{xfc}c D: {xk} -+ x, {0k{xk - x)} -+ h (k -> oo)}. Очевидно, Td(~x) С Со^х)ч н°5 вообще говоря, не наоборот. Вме- Вместе с тем обычно конструктивное описание Tjj{x) или Со{х) для более конкретных D удается получить лишь в таких предположени- предположениях, в которых эти два конуса не различаются (впрочем, бывают и ис™ ключения). Если ~х Е int D, то То("х) = Cd(x) = Rn. Задача 1. Привести пример несовпадения касательного и кон- контингентного конусов. Задача 2. Доказать, что контингентный и касательный конусы к любому множеству в любой точке замкнуты. В случае выпуклого множества D контингентный и касательный конусы к нему в любой его точке совпадают и легко вычисляются. Предложение 1. Пусть D С Rn — выпуклое множество^ х G D. Тогда TD(x) = CD(x) = cicone(D - х). Задача 3. Доказать предложение 1.
§1.2. Прямые условия оптимальности 21 Значение понятия контингентного конуса состоит в том, что имен- именно его наиболее естественно использовать при формулировке необ- необходимого и достаточного условий первого порядка оптимальности в задаче A). Теорема 1. Пусть D С Rn — произвольное множество, а функция /: D —>> R дифференцируема в точке г) ~х Е D. Тогда если ~х является локальным решением задачи A), то (/'(ж), ft)^0 VheCD{x). B) Доказательство. Зафиксируем произвольный h E Gо(а;)\{0} (для h = 0 неравенство в B) выполнено тривиальным образом) и от- отвечающие ему последовательности {Ok} С R+ и {хк} С D такие, что {хк} —>• ж, {0k{xk — ~х)} —>• /г (Aj -^ оо). Заметим, что при этом по необходимости хк ф ~х для любого достаточно большого к и {0к} —* +оо (А; —>> оо). Заметим также, что если для некоторой последовательности {шк} С R+ имеет место Шк/\хк — ~х\ —>- О (А; ~^ —>- оо), то О (Jfe^oo). - к - \х — х Теперь, если х — локальное решение задачи A), то для любого достаточно большого к О < f(xk) - f{x) = (f'(x), xk-x) + o{\xk - х\) = Домножая левую и правую части этого неравенства на <9^ и переходя к пределу при к —>- оо , получим B). ? Определение 2. Точка ~х Е Rn называется стационарной точ- кой задачи A), если ~х Е D и выполнено B). Таким образом, теорема 1 утверждает, что всякое локальное ре™ шение задачи A), являющееся точкой гладкости ее целевой функции, является стационарной точкой этой задачи. Обратное, вообще говоря, неверно (если только не предполагать, что D — выпуклое множество, а / — выпуклая функция на D). Необходимое условие оптимальности, приведенное в теореме 1, на™ зывают прямым в том смысле, что в нем фигурируют лишь перемен- переменные исходной задачи (также называемые прямыми переменными). г) Здесь и далее в подобных ситуациях предполагается, что если ж 0 0 int D, то функция / определена не только на D, но и на некоторой окрестности ~х. Такое предположение позволяет говорить о дифференци- руемости / в точке ~х.
22 Гл. 1. Элементы теории оптимизации Вместе с тем B) эквивалентным образом переписывается в виде f'(x) e (CD(x))*. C) Как будет показано ниже, вычисление конуса (G^(ж*))* для более конкретных D обычно связано с использованием вспомогательных двойственных переменных^ поэтому получаемые на этом пути необ- необходимые условия оптимальности называют прямодвойственным. Из- Известны результаты о том, что необходимое условие C) существенно усилено быть не может в том смысле, что нельзя существенно сузить конус в правой части C). В случае выпуклого допустимого множества из предложения 1 и теоремы 1 вытекает следующее необходимое условие оптимальности. Следствие 1. Пусть D С Rn — выпуклое множество, а функ- функция /: D —> R дифференцируема в точке ~х Е D. Тогда если ж является локальным решением задачи A), то (/'(ж"), ж-ж}^0 VxGD. D) Задача 4. Показать, что если в условиях следствия 1 множе- множество D замкнуто, то D) эквивалентно выполнению равенства 7TD(X — tff(~x)) = Ж для некоторого t > 0, причем выполнение этого равенства для неко- некоторого t > 0 влечет его выполнение для любого t > 0. Приведенное в теореме 1 необходимое условие оптимальности близко к достаточному условию первого порядка в том смысле, что последнее получается заменой для h ф 0 нестрогого неравенства в B) строгим. Теорема 2. Пусть выполнены условия теоремы 1. Тогда если (f'(x),h)>0 VfteCD(l)\{0}, E) то ~х является строгим локальным решением задачи A). Доказательство. От противного: предположим, что суще- существует последовательность {хк} С D \ {х} такая, что f(xk) ^ f(~x) У к и {хк} —> ~х (к —>- оо). Последовательность {(хк —~х)/\хк —~х\} лежит на единичной сфере в Rn, которая является компактом, а значит, эта последовательность имеет предельную точку. Без ограничения общности можем считать, что вся последовательность сходится к некоторому h E Rn, \h\ = 1. Очевидно, что при этом h?CD(x)\{0}. Далее, V к имеем 0 > !{хк) - f(x) = (f'(x), хк - х) + о(\хк - х\).
§1.2. Прямые условия оптимальности 23 Разделив левую и правую части этого неравенства на |ж — "ж| и пе- перейдя к пределу при к —> оо, получим (f'(x), h) ^ 0, что противоречит E). ? Из приведенного доказательства видно, в условии E) можно ис™ пользовать более узкий (чем Cd(%)) конус, натянутый только на те h G Cd(x)i Для которых в определении контингентного конуса мож- можно взять Ok = 1/\хк — Щ для всех достаточно больших к. С дру™ гой стороны, ясно, что такое достаточное условие может выполняться только в том случае, когда конус Со{х) (или указанное его сужение) является острым^ т. е. не содержит нетривиальных линейных подпро- подпространств. Подобное нетипично, например, для случая, когда допусти- допустимое множество задается скалярными функциональными ограничени- ограничениями, число которых меньше числа переменных, поэтому область при- применимости теоремы 2 весьма ограничена. Проблема вычисления конусов Со{х) и (CdAjc))* (заметим, что иногда конус (Cd(%))* может быть вычислен без вычисления самого конуса Cd(x)) Для задач более специальных классов важна не толь- только потому, что ее решение позволяет привести полученные условия оптимальности к пригодной для практического использования фор- форме, но и потому, что оно лежит в основе дальнейшего развития ло- локальной теории таких задач (например, в основе условий второго по- порядка оптимальности). Эти вопросы являются центральными в § 1.3 и § 1.4. В следующем пункте рассматривается простейший случай, когда D = Rn. 1.2.2. Условия оптимальности в задаче безусловной оптимизации. Будем рассматривать задачу безусловной оптимизации f{x) -+ min, x e Rn, F) где /: Rn —>> R — заданная функция. Из теоремы 1 немедленно вы- вытекает следующий результат, впервые (в иных терминах) указанный Ферма. Теорема 3. Пусть функция /: Rn —> R дифференцируема в точке ~х G Rn. Тогда если ~х является локальным решением задачи F), то f{x) = 0. G) Доказательство. Очевидно, контингентный конус к Rn в любой точке ~х G Rn совпадает со всем Rn, поэтому согласно теореме 1 (/'(ж), h) ^0 V/i€Rn.
24 Гл. 1. Элементы теории оптимизации Если предположить, что (/'(af), h) > 0 для некоторого h Е Rn, то немедленно приходим к противоречию, поскольку (fr(x),—h) < 0. П Определение 3. Точка ~х Е Rn называется стационарной точкой задачи F) (или критической точкой функции /), если выполнено G). Таким образом, являющееся точкой гладкости функции / ло- локальное решение задачи F) (впрочем, как и локальное решение со- соответствующей задачи на максимум) является стационарной точкой этой задачи, но, вообще говоря, не наоборот. Очевидно, теорема 2 не™ применима в данном контексте, и возникает необходимость в более тонкой характеризации локального решения, в терминах второй про- производной функции /. Такая характеризация предлагается в двух сле- следующих теоремах, содержащих соответственно необходимое и доста- достаточное условия второго порядка оптимальности. Теорема 4. Пусть функция /: Rn —>¦ R дважды дифференци- дифференцируема в точке ~х Е Rn. Тогда если ~х является локальным решение задачи F), то матри- матрица Гессе функции f в точке ~х неотрицательно определена: {f"(x)h,h)^0 V/ieR™. (8) Доказательство. Фиксируем h E Rn. Если ~х — локальное решение задачи F), то для любого достаточно малого t > 0 0 < f(x + th) - f(x) = (f'(x), th) + \ (f"{x)th, th) + o(t2) = 2 где принято во внимание равенство G). Разделив левую и правую ча- части полученного неравенства на t2 и перейдя к пределу при t -^ —>• 0+ , получим (8). ? Теорема 5. Пусть функция /: Rn —>• R дважды дифференци- дифференцируема в точке ~х Е Rn. Тогда если выполнено G) и матрица Гессе функции f в точке ~х положительно определена, т. е. (f"(x)h,h)>0 V/iERn\{0}, (9) то ~х является строгим локальным решением задачи F). Доказательство. От противного: предположим, что сущест- существует последовательность {хк} С Rn \ {х} такая, что f(xk) ^J f(~x) Укш {хк} —} ~х (к —>• об). Последовательность {(хк —~х)/\хк —~х\} без ограничения общности можно считать сходящейся к некоторо- некоторому h E Rn \ {0}.
§1.2. Прямые условия оптимальности 25 Далее, V к имеем (x) xk x) + \{f"{x){xk x) xk x) О > f(xk) - f(x) = (f'(x), xk - x) + \{f"{x){xk - x), xk - x) О Ж ^ Ж —\ к —\ , „(\mk — 2\ h где принято во внимание G). Разделив левую и правую части полу™ ченного неравенства на \хк ~~ Щ2 и перейдя к пределу при к —> оо, получим (f"(x)h, h) <: о, что противоречит (9). ? Подчеркнем, что условия G), (8) не являются достаточными для оптимальности. Например, для функции /: R —>> R, /(ж) = ж3, эти условия выполнены в точке ~х = 0, которая не является локальным решением задачи F). Аналогично, условия G), (9) не являются необ™ ходимыми для оптимальности. Для функции /: R —>• R, /(ж) = ж4, эти условия не выполнены в точке "х = 0, хотя эта точка и является решением задачи F). В случае задачи на максимум теоремы 4 и 5 сохранят силу, если поменять знаки неравенств в (8) и (9) на противоположные. Кроме того, теоремы 3-5 полностью сохраняют силу и для задачи условной оптимизации A), если только дополнительно предположить, что ~х G Е int D: при локальных рассмотрениях этот случай ничем не отли- отличается от случая задачи безусловной оптимизации (в частности, как отмечалось выше, Cd(x) = Rn). Пример 1. Найдем экстремальные точки функции /: R2 -)> R, /(ж) = х\ + х\ - Зж1Ж2, на всем R2. Для определения стационарных точек имеем систему уравнений ^ (х) = Зх2г - Зж2 = 0, ^- (ж) = Зж2 - Зж! = 0. С/Ж2 () г ^ 1 С/Ж2 1 = 0 и х2 = Ее решениями являются х1 = 0 и х2 = A,1). Нетрудно убедиться, что глобальных экстремумов здесь нет. Для выявления локальных экстремумов воспользуемся условиями второго порядка оптимально- оптимальности. Вычислим /"(ж1) и //;(ж2): Очевидно, матрица /''(ж1) не является знакоопределенной, т.е. в си- силу теоремы 4 ж1 не является локальным экстремумом. В то же вре- время матрица //;(ж2) положительно определена, т.е. в силу теоремы 5
26 Гл. 1. Элементы теории оптимизации х2 — единственная точка строгого локального минимума, а локаль- локальных максимумов нет. Пример 2. Найдем глобальные решения задачи /(Ж) = Ж1+^^ 1_| у тш v 7 4ж1 х2 жз х е D = {х е R3| хг > О, х2 > О, ж3 > 0}. Множество D открыто, поэтому всякая допустимая точка при- принадлежит int.D. Учитывая это, легко находим единственную стацио- стационарную точку ~х = A/2, 1, 1). Задача 5. Для задачи из примера 2 доказать, что функция / является бесконечно растущей на D (см. задачу 1.5). Из утверждений, сформулированных в задачах 1.5 и 5, следует, что единственная стационарная точка в рассматриваемом примере является глобальным решением. Задача 6. Построить пример функции /: Rn —>> R, дифферен™ цируемой на Rn и имеющей ровно одну критическую точку, которая является ее локальным, но не глобальным экстремумом на Rn. Су- Существует ли такой пример при п = 1 ? Задача 7. Доказать, что при любом значении параметра а > 1 система уравнений a cos x\ sin X2 + x\eXl+X2 =0, a sin x\ cos х^ + Ж2вХ1+Ж2 = 0 относительно х Е R2 имеет ненулевое решение. § 1.3. Задача с ограничениями-равенствами Пусть /: Rn -^ R — заданная функция, F: Rn ^ R1 — задан- заданное отображение. В этом параграфе рассматривается задача оптими- оптимизации с чистыми ограничениями-равенствами /(ж) —> min, х Е D, A) {x) = 0}, B) Такая задача — классическая постановка математического анализа. Принцип Лагранжа, выражающий необходимое условие первого по- порядка оптимальности для задачи A), B), несомненно входит в число наиболее выдающихся и красивых открытий в истории математики. Кроме того, этот принцип послужил идейной основой для построения теории более общих задач (со смешанными ограничениями; см. § 1.4).
§1.3. Задача с о граничениями-равенствами 27 1.3.1. Теорема о неявной функции. Теорема Люстерника. Прежде чем переходить собственно к задаче A), B), рассмотрим некоторые результаты о локальной структуре множества решений системы нели- нейных уравнений, которые будут нужны ниже. Следующая класси- классическая теорема о неявной функции — важнейший инструмент много™ мерного нелинейного анализа (ее доказательство см., например, в [22]). Теорема 1. Пусть отображение F: Rs x Rn —» Rn цируемо в некоторой окрестности точки (a, ~х) G Rs x Rn, причем его частная производная по х непрерывна в точке (а, ж). Пусть 8F F(a, х) = 0 и det ^- (а, х) ф 0. ОХ Тогда найдутся окрестности U точки W и V точки af, для ко- которых существует единственное отображение %: U —ь Rn такое, что x(U) С V и F(a,xH)=0 VaG U. C) При этом по необходимости х(а) = ~х, и если окрестность U дос- достаточно «мала, то отображение х дифференцируемо на U, причем х» = - ( Ц {*, x(v Б частности, производная отображения х непрерывна в точке W. Известны многочисленные модификации приведенной классиче- классической теоремы. Ниже понадобится следующая модификация, называе™ мая теоремой о существовании неявной функции. Теорема 2. Пусть отображение F: Rs x Rn —> R1 диффе- дифференцируемо в некоторой окрестности точки (а, ~х) G Rs x Rn, причем его частная производная по х непрерывна в точке (о7, ж). _ _ OF _ _ Пусть F(cr, ж) = 0 и rank ^^ (а, х) = I. ох Тогда найдутся окрестность U точки W, отображение х: U —> —>- Rn и число М > 0 такие, что выполнено C) w |х(о")-ж|^ M\F(a, x)\ VGGf/. D) Доказательство. Зафиксируем произвольную матрицу Л G G R(n — /, п), удовлетворяющую следующим требованиям: ker ^-(w,x) П кегЛ = {0}. Очевидно, этим условиям удовлетворяет любая матрица, строки ко- dF ( торой дополняют строки матрицы —— [а, х) (которые линейно неза- независимы) до базиса в Rn. Введем отображение Ф: RsxRR'x R""', Ф(а, х) = ( f/*7' X}.\ . \Л(х - х))
28 Гл. 1. Элементы теории оптимизации Для этого отображения в точке (а, х) выполнены все условия тео- теоремы 1. Поэтому найдутся окрестность U точки ст и непрерывное в точке W отображение % :?/—>> Rn такие, что х(Ю = ^ и и, в частности, выполнено C). Заметим, что дФ ,_ _ч дФ ( , ( Привлекая теорему о среднем г), с учетом непрерывности частной производной F по х в точке (о7, ~х) отсюда выводим, что если окрестность U выбрана достаточно малой, то Ф(ст y(ct)) — Ф(<т ж) 1/0Ф , Л" (-^- (G, ж) ^ — (G, -1 -ж — sup ^^ tG[O, 1] " ^Х Это и есть оценка D) при М = 2 -1 VcrGf/. п Следствием теоремы о существовании неявной функции является теорема об оценке расстояния до множества D, заданного в B). Теорема 3. Пусть отображение F: Жп —» R1 дифференцируе- дифференцируемо в некоторой окрестности точки ~х Е Rn, причем его производная непрерывна в точке ~х. Пусть F{x) = 0 и rankF'(x) = I. Тогда найдутся окрестности U точки ~х и число М > 0 такие, что для заданного в B) множества D справедлива оценка dist(z, D) ^ M\F(x)\ \fx e U. 1) Согласно теореме о среднем, если отображение F: Rn —>> R1 диффе- дифференцируемо в каждой точке отрезка, соединяющего точки х , х G Rn, то |F(x1)-F(a2)| ^ sup \\F'(tx1 + A - t)x2) te[o,i]
§1.3. Задача с о граничениями-равенствами 29 Доказательство. Введем отображение Ф: RnxRn-) R1, Ф(ж, С) = F(x + О- Применяя к этому отображению в точке (ж", 0) теорему 2, получаем требуемое. ? Наконец, следствием теоремы об оценке расстояния является зна- знаменитая теорема Люстерника о касательном подпространстве. Теорема 4. Пусть отображение F: Rn —>- R1 дифференцируе- дифференцируемо в некоторой окрестности точки ~х Е Rn, причем его производная непрерывна в точке ~х. Пусть F(x) = 0. Тогда для заданного в B) множества D справедливо следующее: а) CD(x) CkerFf(x); б) если rank F'(ж) = I, то То(~х) = Cd(x) = ker F'(;c). Задача 1. Используя теорему 3, доказать теорему 4 (для дока™ зательства утверждения а) провести рассуждения, аналогичные ис- использованным при доказательстве теоремы 1.2.1). 1.3.2. Принцип Лагранжа. Теперь обратимся собственно к зада™ че A), B). Пусть ж Е D- локальное решение такой задачи, причем функция / и отображение F достаточно гладки и rankF/(^) = L E) Заметим, что это условие, называемое условием регулярности огра- ограничений задачи A), B) в точке ж", эквивалентным образом записыва- записывается в виде imF'(x) = R/, или ker(F;(^))T = (imF/(^))x = {0}. Согласно теореме Люстерника С/Дж) = kerF'('x). Лемма 1. Для всякой матрицы А Е R(/, n) (кегЛ)* = (кегЛ)^ = imAT, Задача 2. Доказать лемму 1. Привлекая теорему 1.2.1, сопутствующие ей комментарии (см. формулу A.2.3)), а также лемму 1, получаем прямодвойственное не- необходимое условие первого порядка оптимальности в задаче A), B): существует Л Е R1 такой, что f'(x) = -(F'0r))TA (введение знака минус в правую часть совершенно не обязательно, но удобно для дальнейшего). В этом и состоит классический принцип Лагранжа, выражаемый следующей теоремой, обычно формулируе- формулируемой в терминах так называемой функции Лагранжа задачи A), B) L: RnxRU R, L(x, A) = f(x) + (A, F(x)).
30 Гл. 1. Элементы теории оптимизации Заметим, что |? {х, А) = f(x) + (F'(*))TA, || (х, Л) = Теорема 5. Пусть функция /: Rn —>> R дифференцируема в точке ~х Е Rn, отображение F: Rn —>- R1 дифференцируемо в неко- некоторой окрестности этой точки, причем его производная непрерывна в точке ~х. Тогда если ~х является локальным решением задачи A), B) и вы- выполнено E), то найдется элемент А Е R1 такой, что §f (х, А) = 0. F) В приведенной теореме, как и в теореме Люстерника, важнейшую роль играет условие регулярности E); без него утверждения обеих теорем не имеют места. Например, для функции F: R —} R, F{x) = = ж2, в точке ~х = 0 справедливо Ff(x) = 0, k.er Ff(~x) = R, но D = = {^} и Cd(x) = {0}. Точка ж" одноточечного множества D явля™ ется единственным решением задачи A), B) с произвольной целевой функцией /: R —>- R. С другой стороны, если эта функция такова, что f'{x) ф 0, то F) не имеет места ни при каком A G R. Обобще- Обобщения теоремы Люстерника и принципа Лагранжа, справедливые в бо- более слабых условиях, чем E), можно найти в [20, 21]. Определение 1. Точка ж G Rn называется стационарной точкой задачи A), B), если ~х Е D и выполнено F) при некотором А Е Ж1. Элемент А при этом называется множителем Лагранжа^ отвечающим стационарной точке ~х. Таким образом, при выполнении определенных требований глад™ кости локальное решение задачи A), B) (как и локальное решение со- соответствующей задачи на максимум), в котором выполнено условие регулярности E), является стационарной точкой этой задачи, но, во- вообще говоря, не наоборот. Очевидно, условие регулярности гаранти- гарантирует единственность множителя Лагранжа, отвечающего стационар- стационарной точке ~х. Очевидно также, что при выполнении E) достаточ- достаточное условие первого порядка оптимальности, даваемое теоремой 1.2.2, применимо только в том случае, когда kerFf(x) = {0} (при этом по необходимости n ^ 1 и из теоремы Люстерника легко следует, что ~х — изолированная точка допустимого множества D). Условия вто- второго порядка оптимальности для задачи A), B) излагаются в следую- следующем пункте. Систему уравнений ^(х,\) = 0, F(x) = 0
§1.3. Задача с о граничениями-равенствами 31 относительно (ж, Л) Е Rn xR , характеризующую стационарные точ- точки задачи A), B) и отвечающие им множители Лагранжа, называют системой Лагранэта. Заметим, что систему Лагранжа можно запи- записать в эквивалентном виде //(ж, А) = 0 (слева стоит полная производная). Число неизвестных в этой системе равно числу уравнений, поэтому естественно рассчитывать на то, что она имеет изолированные (друг от друга) решения. Это обстоятель- обстоятельство будет играть важную роль в § 4.3. Геометрический смысл принципа Лагранжа состоит в том, что при выполнении соответствующих требований гладкости и условия регу- регулярности E) в локальном решении ж задачи A), B) градиент /'(ж) представим в виде линейной комбинации строк матрицы Якоби Ff(~x) ограничивающего отображения. Разумеется, теорема Ферма (теоре- (теорема 1.2.3) может рассматриваться как частный случай принципа Л а™ гранжа при 1 = 0. В некоторых простейших случаях принцип Лагранжа позволяет решить задачу A), B) аналитически. Пример 1. Пусть требуется найти экстремальные точки функ- функции /: R2 -»¦ R, f(x) = \х\ + х2, на единичной окружности D = {х е R2| х\ + х\ = 1}. Существование точек глобального максимума и минимума выте- вытекает из теоремы Вейерштрасса. Очевидно, для функции F: R2 —>¦ R, ^(ж) = ж^ + з?2 ^ 15 справедливо Ff(x) ф 0 Уж Е D, т.е. усло- условие регулярности выполнено в каждой допустимой точке. Выписыва- Выписываем функцию Лагранжа: L(x, А) = - х\ + х2 + \{х\ + ж| - 1), ж € R2, AGR, о и соответствующую систему Лагранжа: ^- (ж, А) = xj + 2Аж! =0, ^ (ж, А) = 1 + 2Аж2 = 0, F(x) = x\ + x22- 1 = 0. Возможны два случая. Если х\ = 0, то из третьего уравнения следует, что х^ = =Ы, а из второго, что А = =pl/2. Если же х\ ф = 0, то, выражая из первых двух уравнений х\ и Ж2 через А и под- подставляя результат в третье уравнение, приходим к уравнению только относительно А: BА) + 1/BА) = 1. Элементарно проверяется, что
32 Гл. 1. Элементы теории оптимизации последнее уравнение неразрешимо, т. е. этот случай стационарных то- точек не дает. Таким образом, задача имеет две стационарные точки: х1 = @, 1) и х2 = @, — 1). Сравнивая значения целевой функции в данных точ- точках, убеждаемся, что х1 — точка глобального максимума, а х2 — глобального минимума, и других экстремумов нет. 1.3.3. Условия второго порядка оптимальности. Начнем с необхо- необходимого условия второго порядка. Теорема 6. Пусть функция /: Rn —>• R и отображение F: Rn —>- R1 дважды дифференцируемы в точке ~х ? Rn. Тогда если ~х является локальным решением задачи A), B) и выполнено E), то для единственного элемента А ? R1, удовлет- удовлетворяющего F), имеет место следующее: (х, A)ft, h) ^ 0 yhekerFf(x). G) I дх I Доказательство. Фиксируем h ? ker F;(ж"). Тогда, согласно теореме Люстерника, h ? Т^(ж"), т.е. существует отображение г: R —^ Rn такое, что Поэтому если ~х — локальное решение задачи A), B), то для любого достаточно близкого к нулю t = f(x + th + r(t)) + (A, F(x + th + r(t))> - f(x) - (A, F(x)) = = Ь(ж + tft + r(t), A) - L(x. A) = (д-(ж, A), tft + r(t)\ + , «Л + r(*)^ + o(*2) = |- <J|4 (^ A)A, ^ + o(i2) (здесь учтено F)). Разделив левую и правую части полученного нера- неравенства на t2 и перейдя к пределу при t —>- 0, получим G). П В достаточном условии второго порядка используется не условие регулярности E), а сам факт существования множителя Лагранжа. Теорема 7. Пусть выполнены условия теоремы 6. Тогда если ~х Е D и существует удовлетворяющий F) эле- элемент X € R1, для которого имеет место 2! \ i, ft) > 0 Vft?kerF/(x)\{0}, (8) / то ~х является строгим локальным решением задачи A), B).
§1.3. Задача с о граничениями-равенствами 33 Доказательство. От противного: предположим, что суще- существует последовательность {хк} С D \ {х} такая, что f(xk) ^ f(~x) У к и {хк} -^ ~х (к —» оо). Последовательность {(хк —1с)/\хк — ~х\\ можно считать сходящейся к некоторому h E Rn\{0}. Очевидно, что h E Cd(x) \ {0}; значит, в силу утверждения а) теоремы Люстерника hekerF'(x)\{0}. Далее, V к имеем 0 ^ f(xk) - f(x) = \ (f'{x){xk - x), xk^x) + o(\xk x 0 = F(^) - F(x) = = F'(x){xk - ж) + i F"(x)[xk - ж, xk - x] + o(\xk - x\2). Складывая левую и правую части первого соотношения с домножен- ными скалярно на Л соответственно левой и правой частями второго соотношения и принимая во внимание F), получаем: У к 0 > (f'(x), хк - х) + (Л, F'(x){xk - х)) + + \ (f"(x)(xk ~ х), хк-х) + \ (Л, F"{x)[xk -x,xk- х]) к х\2) = (^ (х А) хк г) + о(\хк - х\2) = (^ (х, А), хк - г) + о(\хк - Щ = \ (|-т (ж, А)(ж* - ж), ж* - ж ) + о(\хк - х\2). * \ ох I Разделив левую и правую части этого неравенства на \хк — а;|2 и пе- перейдя к пределу при к —v сю, получим ^ж2 что противоречит (8). ? (х, X)h, h) I (х, X)h, h) ^ 0, I Теоремы 1.2.4 и 1.2.5 могут рассматриваться как частный случай соответственно теорем 6 и 7 при 1 = 0. В случае задачи на максимум в теоремах 6 и 7 следует поменять знаки неравенств в G) и (8) на противоположные. Кроме того, тео™ ремы 5~7 сохраняют силу и для задачи с дополнительным прямым ограничением х Е Р, если только ~х Е int P. Пример 2. Пусть требуется найти экстремальные точки функ- функции /: В2 -> R, f(x) = \ ((лж? + а2х1), 2 А.Ф. Измаилов, М.В. Солодов
34 Гл. 1. Элементы теории оптимизации на множестве D = {х Е R2| x\ + ж?> = 1}, где <Ji и а2 — параметры, 0 < а\ < сг2. Аналогично примеру 1 условие регулярности выполнено в каждой допустимой точке. Система Лагранжа имеет три решения (ж% Аг), г = 1, 2, 3: ж1 = @, 1), А1 = -о-2/3; ж2 = A, 0), А2 = -оч/З; ж3 = = (cri/5, СГ2/5), А3 = —5/3, где 5 = \/crf + erf. Исследуя получен™ ные стационарные точки с помощью условий оптимальности второго порядка, убеждаемся, что ж1 и х2 — точки строгого локального ми™ нимума, а ж3 — строгого локального максимума. Существование глобального минимума в этой задаче следует из утверждения о бесконечно растущих функциях, сформулированного в задаче 1.1.5. Сравнивая значения целевой функции в точках ж1 и ж2, убеждаемся, что точкой глобального минимума является ж2. Задача 3. Найти экстремальные точки функции /:R2^R, f(x)= \x\ + x2, на окружности D = {ж Е R2 х\ + х\ = 2} (ср. с примером 1). Задача 4. Дать геометрическую интерпретацию задачи из при- примера 2. Задача 5. Пусть А Е R(n, n) — симметрическая матрица. Най- Найти все экстремальные точки квадратичной формы /:Rn^R, /(ж) = (Лж, ж), на единичной сфере D = {ж Е Rn| |ж| = 1}. Задача 6. Среди всех треугольников заданного периметра най- найти тот, который имеет наибольшую площадь. Задача 7. На заданной высоте над плоской поверхностью распо- расположено артиллерийское орудие. Снаряд вылетает из орудия с задан- заданной скоростью. Под каким углом к горизонту следует произвести вы- выстрел, чтобы снаряд улетел как можно дальше? § 1.4. Задача со смешанными ограничениями Этот параграф посвящен условиям оптимальности для задачи оп- оптимизации со смешанными функциональными ограничениями /(ж) —> min, ж Е D, A) D = {х Е Rn F(x) = 0, G(x) < 0}, B)
§1-4- Задача со смешанными ограничениями 35 где /: Жп -+ R — заданная функция, F: Шп -+ R1 и G: Ш1 -» Rm — заданные отображения. Более общая постановка, когда имеется еще и прямое ограничение, здесь не рассматривается по двум причи- причинам. Во-первых, доказательство соответствующей модификации усло- условий оптимальности весьма нетривиально, громоздко и сопряжено с привлечением глубоких результатов выпуклого анализа, чего авторы стремятся по возможности избегать. Во-вторых, для описания и об- обоснования обсуждаемых ниже численных методов вполне достаточно условий оптимальности для задачи в постановке A), B). Условия оп- оптимальности для случая наличия как прямых, так и функциональных ограничений можно найти, например, в [10, 36]. Заметим далее, что от ограничений-неравенств всегда можно из- избавиться, например, с помощью следующего простого приема. Пусть отображение G имеет компоненты gi(-), г = 1, ...,т; тогда, как легко видеть, локальные решения задачи A), B) находятся в очевид- очевидном соответствии с локальными решениями задачи /(ж) —> min, (ж, a) Е D, где D = {(ж, a) ERn xRm| F(x) = 0, gi(x) + <т? = 0, i = 1,. . ., m} либо D = {(ж, a) e Rn x Rip| F(x) = 0, gi{x) + <т{ = 0, i = 1,. . ., m} (в последнем случае простое ограничение а Е И™ рассматривается как прямое). Этот и подобные ему приемы иногда оказываются по- полезными как при построении и обосновании численных методов реше- решения задачи A), B) (см. § 4.7), так и при выводе условий оптимально- оптимальности для такой задачи [6]. Однако в тех случаях, когда ограничения- неравенства удается учитывать непосредственно, получаемые резуль- результаты часто оказываются более точными. Можно даже сказать, что отказ от обязательного сведения (без потери гладкости) ограничений- неравенств к равенствам как раз и позволяет говорить о нелинейной оптимизации как о самостоятельной области математики, а не просто о подразделе нелинейного анализа. Заметим также, что возможна и обратная трансформация: всякое ограничение-равенство можно записать как два противоположных не- нестрогих неравенства, но этот прием используется лишь в некоторых специальных случаях, поскольку получаемая таким образом система ограничений оказывается слишком «вырожденной». В частности, до- допустимое множество получаемой задачи будет иметь пустую внутрен- внутренность (за исключением совершенно патологических случаев), и специ™ фика задач с чистыми ограничениями-неравенствами все равно не бу™ дет приобретена.
36 Гл. 1. Элементы теории оптимизации 1.4.1. Леммы о линейных системах. Материал этого парагра- параграфа является прямым обобщением материала § 1.3. В частности, для получения прямодвойственных условий оптимальности потребуется обобщение леммы 1.3.1 на случай наличия не только линейных урав- нений, но и линейных неравенств. В свою очередь для доказательства такого обобщения потребуются некоторые факты о разрешимости си- систем линейных неравенств и уравнений. Лемма 1. Для любой матрицы А Е R(ra, n) система Ах ^ 0, Лту = 0, 2/^0, Дж + |/>0 относительно (х,у) Е Rn x Rm имеет решение. Доказательство. Обозначим через оц Е Rn строки матри- матрицы Л, i = 1,. . ., т. Докажем, что для каждого i = 1,. . ., т суще™ ствуют элементы хг Е Rn и уг Е Rm такие, что Ах1 2 0, АТу{ = 0, у1 > 0, {а{, х') + у\ > 0. C) т Тогда для доказательства леммы будет достаточно взять х = У^ хг , у = ^2 Уг • -Ясно также, что совместность системы C) достаточно до- г=1 казать для какого-то одного номера г, например г = 1. Рассуждаем по индукции (по га). Пусть га = 1. Если aj ^ 0, то достаточно взять х = «i, г/ = 0. Если же «i = 0, то можно взять х = 0 и г/ = 1. Пусть доказываемое утверждение верно для всех га ^J s, и пусть m = s + 1. Обозначим через Л подматрицу матрицы Л, состоящую из ее первых s строк. Нужно указать элементы х Е Rn и у Е Rs+1 такие, что S + 1 /4т ^> 0 (п I 1 т) ^> 0 > 11-п - — 0 11 ^> 0 //7i т*\ -4- ?/i "*> О (А) г = 1 По предположению индукции существуют х Е Rn и у Е Rs, удов- удовлетворяющие условию г=1 Если (ae+i, ж) ^ 0, то условию D) удовлетворяют х = х ш у = = (у, о). Предположим, что (as+i, ж) < 0. Зададим матрицу В Е R(s, n), строками которой являются ( ft ¦ Ж / bi = а» + 7i^+b 7» = ~ / ~\ > 0, г = 1,. . ., s. E) Применяя к В предположение индукции, получаем существование
§1-4- Задача со смешанными ограничениями 37 таких элементов и Е Rn и v E Rm, что Положим где неравенство следует из неравенств в E) и F). Заметим, что имеет место равенство (as+i, х) = 0. Кроме того, Vi = 1,. . ., s имеем = (&i, и) — . s+1' J, (bi, x) = (b{, и) ^ 0, где снова приняты во внимание соотношения E) и F). Далее, S+1 8 / S \ \^ • • — \^ • • 4- I \^ • I — ВТ ^ 0 Наконец, вновь привлекая E) и F), имеем 0, что завершает доказательство D). П Следствие 1. Для любых матриц А\ Е R(rai, n) гх Л2 E Е R(m25 n) система = 0, т42ж ^ 0, = 0, у2 ^ 0, 2 |/2 > 0 относительно (ж, г/1, г/2) Е Rn x RWl x Rm2 имеет решение. Задача 1. Доказать следствие 1. Следующий результат называют теоремой Моцкина об альтерна- альтернативе. Лемма 2. Для любых матриц А{ Е R(r?ii,n), г = 0,1,2, имеет решение одна и только одна из следующих двух систем: Аох > 0, А\х = 0, А2х ^ 0 относительно х G Rn либо Ajy° + Л?У + Ajy2 = 0, / ^ 0, у2 ^ 0 (уо,уг,у2) е (Rw° \ {0}) х Rmi x Rm2.
38 Гл. 1. Элементы теории оптимизации Доказательство. Если предположить, что х — решение пер- первой системы, а (г/°, г/1, у2) — решение второй, причем г/° ф 0, то О = (А^у0 + Ajy1 + Ajy\ х) = (у0, Аох) + (у2, А2х) > О, что невозможно. Теперь предположим, что первая система несовместна. Но соглас- согласно следствию 1 найдутся х Е Жп ш (у0, у1, у2) Е Rm° x Rmi x Rm2 такие, что Аох ^ 0, Агх = 0, А2х ^ 0, G) Аох + у0 > 0. (8) Остается показать, что г/° ^ 0. Однако если бы это было не так, то из G) и (8) немедленно следовало бы, что х — решение первой систе™ мы, что невозможно по предположению. ? Теперь можно доказать утверждение, которое собственно и будет использовано в этом параграфе. Речь идет о так называемой лемме о сопряженном конусе, или лемме Фаркаша. Лемма 3. Введем конус К = {х е Rn| Агх = 0,А2х ^ 0}, где А\ Е R(rai,n), A2 E R(ra2,n). Тогда К* = {х е ВГ\ х = Ajy1 + АТ2у\ у1 е Кт\ у2 е R^}. (9) Доказательство. Обозначим правую часть (9) через Q. Тог™ да?^€<5, У х Е К при некоторых у1 Е Rmi, у2 Е R^2 имеем (С, х) = (Ajy1 + Ajy2, x) = (у2, А2х) > 0, т.е. Q С К*. Теперь возьмем произвольный элемент ? Е i^*; тогда система (С, ж) < 0, Агх = 0, Л2ж 5^ 0 относительно х Е Rn несовместна. Применяя лемму 2, можем ут- утверждать существование г/о Е R, у1 € Rmi и у2 Е Rm2 таких, что -уоС + ^г/1 + ^1г/2 = о, г/о > о, у2 > о. Отсюда немедленно следует, что ? Е Q, т.е. jRT* С Q. ? 1.4.2. Условия Каруша-Куна-Таккера. Начнем с описания каса™ тельного конуса к заданному в B) множеству D в заданной точке. Скалярное ограничение-неравенство называется активным в данной
§1-4- Задача со смешанными ограничениями 39 точке, если оно выполняется в этой точке как равенство. Совершен- Совершенно очевидно, что при локальных рассмотрениях следует принимать во внимание лишь активные в данной точке ограничения, поскольку остальные не оказывают никакого влияния на структуру допустимого множества вблизи этой точки (здесь предполагается, что G по край- крайней мере непрерывно в рассматриваемой точке). Множеством индек- индексов активных ограничений задачи A), B) в точке ~х Е Rn называется множество I(x) = {i = 1,. . ., т\ gi(x) = 0}. Предполагая дифференцируемость отображений F и G в точ- точке ~х Е D, введем конус, получаемый линеаризацией ограничения- равенства и активных ограничений-неравенств в точке ~х\ Н(х) = {/г Е kerF'(z)| {g'i{x), h) ^ 0 Vi G /(ж)}. A0) Будем говорить, что в точке ~х выполнено условие регулярности Мангасариана-Фромовица г), если rank F'(х) = I и существует элемент h E ker F'{x) такой, что (g'i(x),h)<o Vie/(г). Следующая теорема обобщает теорему Люстерника. Теорема 1. Пусть отображение F: Жп —» R1 дифференцируе- дифференцируемо в некоторой окрестности точки ~х Е Rn, причем его производная непрерывна в точке ж, а отображение G: Шп —> Жт дифференци- дифференцируемо в точке ~х. Пусть F{x) = 0, G{x) ^ 0 и конус Н(~х) опреде- определен в A0). Тогда для заданного в B) множества D справедливо следующее: а) CD(x) С Н{х);_ б) если в точке х выполнено условие регулярности Мангасариа- на-Фромовица, то Td(x) = Cd(x) = Н(х). Доказательство. Справедливость утверждения а) проверяет- проверяется непосредственно, с помощью рассуждений, аналогичных использо- использованным при доказательстве теоремы 1.2.1. Докажем б). Пусть h Е //(ж), a h — элемент из условия Манга- сариана-Фромовица. Зафиксируем 9 Е @, 1] и рассмотрим элемент h@) = Oh + A — 0)h. Очевидно, h@) E kerF;(U), поэтому, при- применяя к отображению F в точке ~х теорему Люстерника, получаем существование отображения г: Ж —>• Rn такого, что F(x + th@) + r(t)) = O VtER, \r(t)\ = o(t). A1) 1) Общепринятая аббревиатура — MFCQ (от английского Mangasarlan- Fromovltz constraint qualification).
40 Гл. 1. Элементы теории оптимизации Кроме того, (g'iix), h@)) = в(?(х), h) + A - 0)(g'i(x), h)<0 Vie I(x), поэтому для любого достаточно малого t > 0 gi(x + th@) + r{t)) = Ц?(х), ft@)> + o(t) < 0 Vi€ I(x). A2) Из A1) и A2) немедленно следует, что ж + ?/i@) + r(t) G D для лю- любого достаточно малого t > 0, поэтому в силу второго соотношения в A1) hF) G Td(~x). Наконец, используя замкнутость конуса Td(x) (см. задачу 1.2.2), получаем, что /г = llm h{9) E То{х). ? 0—>-0+ Пусть теперь ~х Е D — локальное решение задачи A), B), при- причем функция / дифференцируема в точке ж", отображения F и G удовлетворяют условиям гладкости из теоремы 1 и в точке ~х выпол- выполнено условие Мангасариана—Фромовица. Тогда из теоремы 1.2.1 (см. также A.2.3)) и леммы 3 получаем следующее прямодвойственное не- необходимое условие первого порядка оптимальности: существуют A G G R1 и ^ ) 0, г G /(ж), такие, что f'(x) = -(F'(x))TX- 53 Ng'M- iei(x) Чтобы привести полученное необходимое условие к окончательной форме, называемой теоремой Каруша™Куна~Таккера, введем функ- функцию Лагранжа задачи A), B) L: Rn х R1 х Rm -> R, L(x, А, ц) = f(x) + (A, F(x)) + (/x, ОД). Очевидно, |^ (x, A, /i) = f (Ж) + (F'(x))TA + (G'(x))Tn, xeW1, AeR1, /iERm. Теорема 2. Пусть функция f: Rn -) R « отображение G: Rn ^> Rm дифференцируемы в точке ~x G Rn, а отображение F: Rn —>- R1 дифференцируемо в некоторой окрестности этой точ- ки^ причем его производная непрерывна в точке ~х. Тогда если ~х является локальным решением задачи A), B) и в точке ~х выполнено условие регулярности Мангасариана-Фромовица^ то найдутся элементы A G R1 и JI E R!^ такие^ что ^ (х, А, /I) = 0, A3) </Г, G(x)) = 0. A4)
§1-4- Задача со смешанными ограничениями 41 Условие A4) называется условием дополняющей нежесткости (название устоявшееся, хотя его трудно признать удачным). Смысл этого условия состоит в следующем. При G(~х) ^ 0 и JI ^ 0 равен- равенство A4) имеет место тогда и только тогда, когда ~Pigi{x) = 0 Vi = 1,. . . ,m, т. е. 7^ = 0 \/ie{l,...,m}\I(x). Таким образом, условие дополняющей нежесткости как раз «выклю- «выключает» из рассмотрения те ограничения-неравенства, которые не явля- являются активными в данной точке. Определение 1. Точка ~х Е Rn называется стационарной точкой задачи A), B), если ~х Е D и выполнены соотношения A3), A4) при некоторых A G R1 и ~р Е Rip. Элементы Л и ~р при этом называются множителями Лагранжа, отвечающими стационарной точке ~х. Задача 2. Доказать, что выполнение условия регулярности Ман- гасариана^Фромовица в произвольной стационарной точке задачи A), B) равносильно ограниченности множества множителей Лагранжа, отвечающих этой стационарной точке. Итак, при выполнении определенных требований гладкости ло- локальное решение задачи A), B), в котором выполнено условие ре™ гулярности Мангасариана—Фромовица, является стационарной точкой этой задачи. Обратное, вообще говоря, неверно; условия второго по™ рядка оптимальности для задачи A), B) излагаются в следующем пункте. Заметим, что условие Мангасариана-Фромовица не таранти™ рует единственности пары множителей Лагранжа, отвечающей стаци- стационарной точке ~х. Единственность пары множителей гарантируется более сильными условиями регулярности ограничений, например, так называемым условием линейной независимости г), состоящим в том, что строки матрицы Ff(x) и векторы g^(lc), г Е /(ж"), образуют линейно независимую систему в Rn. Систему уравнений и неравенств ^ (х, A,/z)=0, F(x) = 0, м>0, G(x)^0, (ц, G(x)) = 0 относительно (ж, A, /i) E Rn x R1 x RTO, характеризующую стацио- стационарные точки задачи A), B) и отвечающие им множители Лагранжа, называют системой Каруша-Куна-Таккера 2). ) Общепринятая аббревиатура — LICQ (от английского Linear Indepen- Independence constraint qualification). ) Общепринятое сокращение — система ККТ.
42 Гл. 1. Элементы теории оптимизации Геометрический смысл необходимого условия Каруша^Куна^Так- кера состоит в том, что при выполнении соответствующих требований гладкости и условия Мангасариана^Фромовица в локальном реше- решении ~х задачи A), B) градиент f'(x) целевой функции представим в виде суммы линейной комбинации строк матрицы Якоби F'(x) и неположительной комбинации градиентов g^(af), i G 1{х). Прин- Принцип Лагранжа (теорема 1.3.5) является частным случаем теоремы 2 при т = 0. Необходимое условие Каруша-Куна-Таккера может непосредет™ венно использоваться для отыскания решений задачи A), B). Схе- Схема действий при этом такова: нужно составить и решить систему Каруша^Куна^Таккера, а потом исследовать полученные стационар- стационарные точки на оптимальность (с помощью условий второго порядка оптимальности, излагаемых в следующем пункте, либо другими сред™ ствами). Отдельно нужно исследовать точки, в которых нарушено условие регулярности Мангасариана^Фромовица. Численным мето- методам решения системы Каруша^Куна^Таккера посвящен § 4.5 (см. также п. 4.3.1, где говорится о методах решения системы Лагранжа для случая отсутствия ограничений^неравенств). Реализовать ука™ занную схему аналитически удается лишь в простейших случаях (см. примеры 1.3.1, 1.3.2). Подчеркнем, что перед составлением системы Каруша-Куна-Таккера рассматриваемую задачу следует привести именно к виду A), B). В частности, задача должна быть задачей на минимум, а знаки ограничений^неравенств должны быть направ™ лены в нужную сторону. В заключение этого пункта еще раз обратимся к фундаменталь- фундаментальному понятию условия регулярности ограничений. Из леммы 2 вы- вытекает, что невыполнение в точке ~х условия регулярности Манга- сариана-Фромовица равносильно существованию множителей AgR1 и ~р G R+, не равных нулю одновременно и таких, что (F'(x))TJ + (G'(x))TJ? = 0 A5) и выполнено A4). Но тогда в теореме 2 можно отказаться от условия регулярности Мангасариана^Фромовица, если соответствующим об- образом модифицировать равенство A3). Общепринятой формуляров™ кой получаемого таким образом необходимого условия оптимальности является теорема Ф. Джона. Введем обобщенную функцию Лагранжа задачи A), B): Lo: Rn х R х R1 х Rm ->> R, L0(x, Ao, A, fj) = Xof(x) + (A, F(x)) + <//, G(x)). Теорема З. Пусть выполнены условия теоремы 2. Тогда если ~х является локальным решением задачи A), B), то найдутся число Ао ^ 0 и элементы A G R1 и J[ G R!^, не равные
§1-4- Задача со смешанными ограничениями 43 нулю одновременно и такие, что -д— (af, Ао, А, ~р) = 0 A6) и выполнено A4). Действительно, в случае выполнения условия регулярности Ман™ гасариана—Фромовица равенство A6) имеет место при Ао = 1 и А, ~р из теоремы 2, а в противном случае — при Aq = 0 и не равных од- одновременно нулю А, ~р из A5). Подчеркнем, что в последнем слу- случае получаемое необходимое условие оптимальности не слишком со- содержательно: оно выполняется при любой целевой функции / вне зависимости от того, является ~х локальным решением задачи A), B) или нет. Можно сказать, что при этом теорема Ф. Джона выра™ жает только сам факт нарушения условия регулярности Мангасариа- на-Фромовица. Тем не менее в теории оптимизации теорема Ф. Джо™ на находит важные приложения. Например, на ней основана теория необходимых условий второго порядка оптимальности, содержатель™ ных и при невыполнении условия регулярности Мангасариана^Фро- мовица [2]. С другой стороны, случаи прямого использования теоре™ мы Ф. Джона для построения или обоснования численных методов оптимизации авторам не известны. Заметим, что обобщенная функция Лагранжа Lq линейна по совокупности множителей (Ао, A, /х) E R x R1 x Rm, поэтому, если в утверждении теоремы 3 реализуется Ао ф 0, то соответствующей нормировкой тройки (Ао, А, /I) всегда можно добиться выполнения равенства Aq = 1, что приводит к сформулированному в определе- определении 1 понятию стационарности в смысле теоремы Каруша^Куна^Так- кера. Вообще, под условием регулярности ограничений задачи A), B) часто понимают любое условие, которое гарантирует справедли- справедливость утверждения теоремы 3 при Ао / 0 [36]. Условие Мангасариа- на^Фромовица и условие линейной независимости являются условия- условиями регулярности в указанном смысле. Другой важный пример усло- условия регулярности доставляет условие линейности, состоящее в том, что отображения F и G аффинны. Локальное решение задачи A), B), в котором выполнено то или иное условие регулярности ограниче- ограничений, иногда называют квалифицированным г). Задача 3. Доказать, что условие линейности является условием регулярности ограничений. Задача 4. Доказать, что условие Мангасариана-Фромовица (а тем более условие линейной независимости) не только является 1) Общепринятый английский термин для условия регулярности огра- ограничений — Constraint qualification (CQ).
44 Гл. 1. Элементы теории оптимизации условием регулярности ограничений, но и сообщает задаче A), B) следующее свойство: выполнение этого условия в точке ~х Е D делает невозможным одновременное выполнение A4), A6) при Aq = О и каких-либо значениях Л Е R/ и ~р Е R+, не равных одновременно нулю (ср. с задачей 2). 1.4.3. Условия второго порядка оптимальности. В этом пункте приводятся необходимое и достаточное условия второго порядка оп- оптимальности в задаче A), B). Для их формулировки потребуется так называемый критический конус (или конус критических направле- направлений) задачи A), B) в точке ~х Е D, являющейся точкой гладкости функции / и отображений F и G: к(х) = {he н(х)\ (f(x), h) <: о}„ A7) Лемма 4. Пусть функция /:Rn —>• R и отображения F:Rn —>> —>• R1 и G: Rn —> Rm дифференцируемы в точке ~х Е Rn и послед- последняя является стационарной точкой задачи A), B). Тогда для всякой пары множителей Лагранжа X Е R1 и ~р Е R™, отвечающих стационарной точке ж, имеет место равенство К(х) = {/!? Н(х) | (f'(x), h) = 0} = = {h G Я(ж)| /14(^(г),Л> = 0 Vi e 7(Ш)}. A8) Доказательство. Для произвольного h E Н{х) в силу A3), A4) и условия ~р ^ 0 справедливо (f'(x), h) = -(A, F'^Jft) - <7I, G;(^)ft> = - J2 -рШх), h), Ш{х) причем в последней сумме все слагаемые неположительны. Отсюда немедленно следует требуемое. ? Если ~pi > 0 V г Е 1{х)ч то говорят, что в стационарной точке ~х выполнено условие строгой дополнительности (для множителей Ла- Лагранжа X и ~р). Заметим, что при выполнении этого условия из A8) вытекает равенство К(х) = {he ker Ff{x)\ (?(х), h) = 0 Vi E I(x)}. Теорема 4. Пусть функция f: Rn -> R « отображения F: Rn —>• R1 и G: Rn -^ Rm дважды дифференцируемы в точке ~х Е eRn. Тогда если ~х является локальным решением задачи A), B) и в точке ~х выполнено условие линейной независимости, то для един- единственной пары элементов X Е R1 и ~р Е R!^, удовлетворяю-
§1-4- Задача со смешанными ограничениями 45 щих A3), A4), имеет место следующее: O VheK(x), A9) где конус К{х) определен в A7). Доказательство. Фиксируем элемент ft Е К(х). Введем мно- множество индексов I(x,h) = {i€l(x)\ (g'i(x),h)=0}. Согласно теореме Люстерника существует отображение г: Ж —> Жп такое, что Vt E R имеем = 0 Vi G /(ж, ft), Отсюда и из определения множеств Н(х) и /(ж", ft) элементарно вы- выводится, что ~х + th + r(t) Е .О для любого достаточно малого t > 0; поэтому если af — локальное решение задачи A), B), то, привлекая лемму 4 и соотношения A3), A4), получаем: для любого достаточно малого t > 0 0^ f(x + th + r(t))-f(x) = f(x + th + r(t)) + (\, F(x + th + r + G1, G(x + tft + r(t))> - /(a?) - (A, F(^)) - G1, G(x)) = ), A, /i) — Ь(ж, A, /i) = (-^—(х. А, ' ),th + r(t) —2"(af, A, /x)ft, ft ) + o(t2). Разделив левую и правую части полученного неравенства на t2 и пе- перейдя к пределу при t —>- 0+, получим A9). П Заметим, что согласно теоремам 1.2.2 и 1 равенство К{х) = {0} является достаточным для того, чтобы точка ~х Е D была строгим локальным решением задачи A), B). Более тонкое достаточное уело™ вие, допускающее нетривиальность критического конуса, содержится в следующей теореме 1). Теорема 5. Пусть выполнены условия теоремы 4. Тогда если ~х Е D и существуют удовлетворяющие A3), A4) эле- 1) Общепринятая аббревиатура для достаточного условия, приводимого в этой теореме — SOSC (от английского Second-order sufficient condition).
46 Гл. 1. Элементы теории оптимизации менты A ER1 и /i G R+ , для которых имеет место i2f — \ -?(ж, A,/J)ft, ft) >0 V/iG #(ж)\{0}, B0) gcfe конус К(х) определен в A7), то ж является строгим локаль- локальным решением задачи A), B). Доказательство. Схема доказательства совершенно анало- аналогична схеме доказательства теоремы 1.3.7. От противного: предпо- предположим, что существует последовательность {ж^} С D \ {~х} такая, что f{xk) ^ f{x) Укш {хк} ^ "х (к —>- оо). Последовательность {(ж^ — ~х)/\хк — ж~|} будем считать сходящейся к некоторому h E G Rn \ {0}. Очевидно, h G С oft) \ {0}, значит, в силу утвержде- утверждения а) теоремы 1 /iG H (ж) \ {0}. Кроме того, Л, принадлежит кон- контингентному конусу к множеству {ж Е Rn /(ж) ^ /(ж*)} в точке ж", поэтому из утверждения а) теоремы 1 вытекает, что (/'(af), ft) ^ 0. Таким образом, h G i^(aT) \ {0} (см. A7)). Далее, V к имеем о ^ !{хк) - f{x) = = (fix), xk - х) + \ (f"ix)ixk - х), хк - х) + оЦхк - х\2), 0 = Fixk) - Fix) = Л — I af (rr\ t /f\--J / aff ( t\( r t} t /r\-4-nfI'r т* I ^ ^ Vi" P T ( t\ Домножаем скалярно на А левую и правую части второго соот- соотношения, домножаем на ~pi левую и правую части соответствующе- соответствующего соотношения последней группы (г G /(ж")) и складываем соответ- соответствующие части всех полученных соотношений. Принимая во внима- внимание A3), A4), в результате имеем: У к 0 ^ </;(ж), хк - ж) + (A, Ff(x)(xk - ж)) + (/I, G'{x){xk - ж)> + JL / л § § / ___ \ / SSS ______ \ JC3 ______ \ -*- / \ Т "| / / / _____ \ Г Kj3 _____ I»* "I \ А А + \ (/I, С\х)[хк - х, хк - х]) + oi\xk - х\2) = /6L ,_ -г _N к _\ 1 / d2L ,_ -г- _., ь _ч fc _\ \ с'ж / \ ох / 1 / 02L - \ + о(|ж^ — Щ2) = - ( —2" (^, A, Jl){xk — ж), ж^ — ж ) + о(\хк — Щ2)-
§1-4- Задача со смешанными ограничениями 47 7^ 2 и пе- Разделив левую и правую части этого неравенства на \х — х рейдя к пределу при к —>• оо, получим ^ (х, A, Jl)h, h) < О, что противоречит B0). ? Теоремы 1.3.6 и 1.3.7 являются частными случаями соответствен- соответственно теорем 4 и 5 при т = 0. Кроме того, теоремы 2-5 останутся вер™ ны и для задачи с дополнительным прямым ограничением х Е Р, ес- если только ~х Е int P. В заключение подчеркнем важнейшую роль, которую играли в этом и предыдущем параграфах условия регулярности ограничений (условие A.3.5) в контексте задачи с ограничениями-равенствами и условия Мангасариана—Фромовица и линейной независимости в случае смешанных ограничений). Проблема получения содержа- содержательных условий оптимальности без предположений о регулярности ограничений либо в ослабленных предположениях такого рода привлекала большое внимание исследователей в последние двадцать лет. С некоторыми результатами в этом направлении можно познако- познакомиться в [2, 20, 21].
Глава 2 НАЧАЛЬНЫЕ СВЕДЕНИЯ О МЕТОДАХ ОПТИМИЗАЦИИ Назначение этой главы — дать общее представление о том, что та™ кое численные методы (алгоритмы) оптимизации, какими они бывают и какие вопросы возникают в связи с их практическим использование ем и теоретическим анализом. Здесь же рассматриваются численные методы решения одномерных задач оптимизации. Значение этих ме- методов, прежде всего, в том, что они являются необходимыми состав- составляющими для построения многих алгоритмов, предназначенных для решения более сложных задач. § 2.1. Общее понятие о методах оптимизации Пусть Р С Rn — заданное множество, /: Р —> R — заданная функция, F: Р —>> R1 и G: Р —> Жт — заданные отображения. Рассматриваемые в последующих главах численные методы ориенти- ориентированы главным образом на решение задачи /(ж) ->> min, х е D, A) D = {х е Р\ F(x) = 0, G(x) ^ 0} B) либо основных частных случаев этой задачи (см. п. 1.1.1). Наличие каких-то особых свойств у множества Р (кроме его замкнутости и выпуклости), функции / и отображений F и G (кроме их гладко™ сти) не предполагается. В этом смысле речь идет о методах общего назначения (кроме гл. 6, где эксплуатируются свойства выпуклости, и гл. 7, в которой рассматриваются специальные методы линейного и квадратичного программирования). 2.1.1. Классификация методов оптимизации. Понятия сходимос- сходимости. Любой численный метод решения задачи A), B) основан на вы- вычислении значений целевой и ограничивающих функций, а также (ча- (часто) их производных. Метод называют пассивным, если точки, в ко- которых производятся вычисления, выбираются независимо друг от друга и в принципе определены заранее, и последовательным^ если
§2.1, Общее понятие о методах оптимизации 49 такие точки выбираются последовательно, в процессе счета, на осно- основе информации, получаемой в ходе вычислительного процесса. По по- понятным причинам последовательных методов подавляющее большин- большинство. Последовательный метод генерирует последовательность точек ж0, ж1,...,ж12,... в Rn, которые называются приближениями к реше- решению задачи. Эта последовательность {ж^}, которую называют тра- траекторией метода, может составлять лишь часть множества точек, в которых производятся вычисления. Переход от хк к следующему приближению хк+1 называется шагом или итерацией метода. Спо- Способ этого перехода составляет суть метода, поэтому часто методы за- записывают в виде итерационной схемы хк+1^Ък(хк), А = 0,1,..., C) где Ф^ — отображение со значениями в Rn, определенное на некото™ ром множестве Uk С R/1, причем предполагается, что к шагу к + + 1 это отображение известно. Если итерационная схема фиксирова™ на, то задание начального приближения ж0 Е Uq корректно опреде- определяет траекторию метода тогда и только тогда, когда Фк_!(Фк_2(... Ф0(ж°)...)) € Uk V* = 1,2,... Рассмотренная итерационная схема C) называется одношаговой. Иногда приходится рассматривать многошаговые схемы, когда Ф^ зависит не только от хк, но и от некоторых предыдущих прибли™ жений. Порядком метода называется максимальный порядок производных целевой и ограничивающих функций задачи A), B), используемых при осуществлении итерации метода. Так, если используется инфор™ мация лишь о значениях функции, то говорят о методах нулевого по- порядка. Если же привлекаются первые (вторые и т. д.) производные, то говорят о методах первого (второго и т. д.) порядка. Если любое начальное приближение ж0 Е Uq корректно опре- определяет траекторию метода, некоторая точка которой совпадает с ис- искомым решением задачи, то метод называется конечношаговым или конечным. Конечные методы для задач линейного и квадратичного программирования обсуждаются в гл. 7. Для более общих задач оп- оптимизации обычно приходится иметь дело с бесконечношаговыми ме- методами, траектории которых, вообще говоря, не попадают в точное решение, а лишь аппроксимируют его в некотором смысле. В зави- зависимости от характера такой аппроксимации говорят о разных типах сходимости метода. Например, если {хк} —>> ж (к —» ос),
50 Гл. 2. Начальные сведения о методах оптимизации где ~х — искомое решение задачи, то говорят о сходимости по аргу- аргументу^ или просто о сходимости метода из начального приближе- ния х° (разумеется, это подразумевает, что х° корректно опреде- определяет траекторию {хк}). Иногда удается установить не сходимость метода к конкретному решению, а лишь более слабое свойство: , S) -> 0 (к^ ос), где S — множество решений задачи. В этом случае говорят о схо- сходимости к множеству решений. Если S — компакт, то такая ехо- димость равносильна тому, что траектория метода имеет предельные точки, любая из которых содержится в S; если же S не ограничено, то такая траектория может вообще не иметь предельных точек. Если f(xk) ~^v (к -> оо), где U — значение задачи A), то говорят о сходимости по функции, а саму последовательность {хк} при этом называют минимизирую- минимизирующей. Разумеется, сама минимизирующая последовательность может не сходиться. Часто удается показать сходимость метода не к множеству (ло- (локальных или глобальных) решений, а лишь к множеству стационар- стационарных точек задачи, либо стремление к нулю невязки соответствующих необходимых условий оптимальности. Например, в случае задачи без™ условной оптимизации при выполнении говорят о сходимости по градиенту. Часто удается установить, что любая предельная точка траектории метода является стационарной. Наконец, если Uq = Шп и имеет место сходимость метода из любого начального приближения х° Е Rn, то говорят о глобальной сходимости. Если же тот или иной вид сходимости удается таранти™ ровать только из начальных приближений, достаточно близких к ис- искомому решению (множеству решений, стационарной точке, множе- множеству стационарных точек), то говорят о локальной сходимости метода. В принципе любой локально сходящийся метод должен рассматривать- рассматриваться в совокупности с некоторым способом получения подходящего для него начального приближения. Несколько слов об иерархии методов оптимизации. Во многих слу- случаях метод решения сложной задачи состоит в ее редукции к более про- простой или к последовательности более простых. Разумеется, это имеет смысл только в том случае, когда для таких простых задач известны эф- эффективные методы решения. Например, классический метод Ньютона сводит решение системы нелинейных уравнений к последовательному решению линейных систем, для которых развиты эффективные мето- методы вычислительной линейной алгебры. Аналогично, методы решения
§2.1, Общее понятие о методах оптимизации 51 общих задач условной оптимизации часто используют как вспомо- вспомогательные процедуры методы одномерной оптимизации, безусловной оптимизации, линейного и квадратичного программирования. Методы безусловной оптимизации сами используют методы одномерной опти- оптимизации, а методы квадратичного программирования используют ме- методы линейного программирования. Поэтому естественно, что развитие методов, стоящих выше в этой иерархии, невозможно без должного развития методов, стоящих ниже. 2.1.2. Оценки скорости сходимости. Правила остановки. При ана- анализе бесконечношаговых методов чрезвычайно важен вопрос не толь- только о сходимости, но и о скорости такой сходимости, являющейся од- одной из основных характеристик эффективности метода. Будем здесь говорить о скорости сходимости по аргументу; терминология для дру- других видов сходимости совершенно аналогична. Пусть метод локально сходится к решению ~х. Оценки скоро- скорости сходимости выражают гарантированную скорость убывания вели- величины \хк — ~х\ при к —> оо для сходящихся к ~х траекторий {хк}. Здесь всюду предполагается, что начальное приближение х° Е Rn достаточно близко к ж, рассматриваемые траектории не попадают в ж ни на каком конечном шаге, а все возникающие ниже константы не зависят от конкретного выбора ж0. Если limsup 6 - х\ где g E @, 1) — некоторая константа, то говорят, что метод сходит- сходится с линейной скоростью', а если q = 0, то со сверхлинейной. Ско- Скорость сходимости более низкая, чем линейная, называется сублиней- сублинейной. Важным частным случаем сверхлинейной является квадратич- квадратичная скорость сходимости, когда limsup Jfe-->OQ гр у» ГЬ _____ ГУ» Л (здесь и далее С > 0 — некоторая константа). Задача 1. Пусть последовательность {хк} С R2 сходится к точке ~х Е R с квадратичной скоростью. Следует ли отсюда квад- квадратичная или хотя бы сверхлинейная скорость сходимости последова- последовательностей \х\\ и {хк} к ~х\ и ж~2 соответственно? Примером оценки, гарантирующей только сублинейную скорость сходимости, служит неравенство limsup к\хк — af| $J С.
52 Гл. 2. Начальные сведения о методах оптимизации В случае его выполнения говорят об арифметической скорости схо- сходимости метода. Если же \хк - х limsup 7 ^ С Ч при некотором q Е @, 1), то говорят о геометрической скорости сходимости. Очевидно, линейная скорость сходимости подразумевает геометрическую, но, вообще говоря, не наоборот. Систематическое изучение оценок скорости сходимости последова- последовательностей проводится, например, в [6, 30]. Оценки скорости сходимости дают важный способ качественно™ го сравнения различных методов друг с другом. Вместе с тем при всей своей важности скорость сходимости вовсе не единственная ха- характеристика эффективности метода. Необходимо, например, прини- принимать во внимание трудоемкость одной итерации, причем обычно ме- методы с более высокой скоростью сходимости имеют более трудоем- трудоемкую итерацию. Быстро сходящийся метод с дорогой итерацией может проигрывать более медленному методу, каждая итерация которого является более дешевой. Другая важная характеристика — устойчи- устойчивость метода по отношению к влиянию возмущений входных данных и помех, неизбежных в реальных вычислительных процессах. Неред- Нередко на практике остро встает проблема допустимости генерируемых методом траекторий, т.е. справедливость включения {хк} С D (либо {хк} С {х Е Р| G(x) ^ 0}, либо {хк} С Р). Например, функция / и/или отображения F и G могут быть вообще не определены вне ?), и метод, траектории которого покидают допустимое множе- множество, оказывается просто некорректен. При выборе метода следует принимать во внимание следующее обстоятельство. Если требуется решить одну конкретную оптимиза- оптимизационную задачу, то предпочтение следует отдать надежному методу, возможно, с не самой высокой скоростью сходимости. Если же речь идет о решении серии однотипных задач, например, отличающихся лишь значениями некоторых параметров, то скорость сходимости вы- выходит на первый план. В последнем случае целесообразно потратить время и силы на выбор и настройку подходящего быстрого алгоритма для имеющейся серии задач. Кроме того, на практике вычислительный процесс не может про- продолжаться бесконечно, поэтому любой бесконечношаговый метод дол- должен сопровождаться правилом остановки, и наиболее надежные пра- правила такого рода получаются как раз с помощью оценок скорости сходимости. Действительно, наличие такой оценки позволяет указать количество шагов метода, гарантирующее достижение заданной точ- точности (по аргументу либо в каком-то другом смысле). Однако, во- первых, оценки скорости сходимости, которые обычно удается полу-
§2.1. Общее понятие о методах оптимизации 53 чить (и, в частности, те, о которых говорилось выше), носят суще- существенно локальный характер, а количественная характеризация тре- требуемого качества начального приближения редко бывает конструк- тивной. Во-вторых, в оценках всегда фигурируют константы (такие, как g и С), определение которых является самостоятельной нетри- нетривиальной задачей. В этом смысле область практической применимо- применимости оценок скорости сходимости для выработки правил остановки ме- методов весьма ограничена. На практике обычно используют менее надежные правила оста- остановки по косвенным признакам, например, по поведению полученной к текущему шагу части траектории {хк} или последовательности {f(xk)}j а также по величине невязки необходимых условий опти- оптимальности. Например, фиксируют число е > 0 и останавливают ме- метод после (/г + 1) -го шага, если (т. е. если шаг метода стал достаточно малым) либо а в случае задачи безусловной оптимизации используют также нера- неравенство \Пхк+1)\^е. Ясно, что такие правила остановки весьма ненадежны и не гаран- гарантируют близость получаемого приближения к искомому решению ни в каком смысле. Например, из предельного соотношения lim |ж^+1 — — хк\ = 0 сходимость последовательности {хк} не следует, что вид- видно на примере последовательности {хк} С R, хк = у/к или хк = = sin л/к, к = 0, 1, ... Тем не менее эти правила используются очень часто, поскольку других конструктивных правил остановки просто нет. Кроме того, количество шагов метода может (и должно) опреде- определяться имеющимися вычислительными ресурсами. Часто, если про- процесс не остановился раньше по одному из указанных выше правил, то его приходится останавливать по причине исчерпания ресурсов. Обычно задают максимальное время счета, максимальное количе- количество итераций, максимальное количество вычислений значений целе- целевой и ограничивающих функций и т. п. Конечно, получаемое при этом «приближение» может не иметь к искомому решению никакого отно- отношения. Видимо, наиболее правильным является комбинирование указан- указанных правил остановки, что предполагает задание некоторой их иерар- иерархии. Сделаем одно замечание, касающееся локальной и глобальной схо- сходимости методов. Обычно глобально сходящиеся методы имеют более
54 Гл. 2. Начальные сведения о методах оптимизации низкую скорость сходимости, чем локально сходящиеся. Это связано с тем, что локально сходящиеся методы обычно лучше учитывают локальную структуру задачи вблизи искомого решения. Поэтому пред- представляется естественным применять локально сходящийся метод в со- сочетании с некоторым глобально сходящимся. Роль последнего при этом состоит в том, чтобы обеспечить подходящее начальное приближение для первого, а тот уже должен быстро аппроксимировать искомое решение. При этом желательно, чтобы «переключение» с одного метода на другой осуществлялось автоматически, поскольку далеко не всег- всегда можно заранее указать необходимое количество шагов глобально сходящегося метода. Тем самым формируется законченный алгоритм решения задачи. Типичный результат, описывающий поведение комби- комбинированного алгоритма, выглядит так: метод глобально сходится в не- некотором смысле (чаще всего к стационарной точке или ко множеству стационарных точек или сходится в том смысле, что любая предельная точка его траектории является стационарной), причем справедлива некоторая локальная оценка скорости сходимости (желательно сверх- сверхлинейная). Некоторые стратегии глобализации сходимости рассматри- рассматриваются в гл. 5. Что же касается отыскания глобальных решений (без предположе- предположений о выпуклости задачи 1), делающих любое локальное решение гло- глобальным, а любую стационарную точку решением), то соответствую- соответствующие численные методы развиты значительно хуже, чем методы поиска локальных решений, а точнее, стационарных точек. Такие методы гло- глобальной оптимизации (не путать с глобально сходящимися методами!) должны основываться на глобальном взгляде на всю задачу целиком, недоступном локальным методам, работающим лишь в окрестности текущего приближения, а глобальный взгляд неминуемо сопряжен с не- необходимостью просмотра большого количества точек, распределенных по всему допустимому множеству. г) Функция /: X —> R называется сильно выпуклой с константой в ^ О на выпуклом множестве X С Rn, если fitx1 + A — t)x2) ^ ^/(ж1) + A — - t)f(x2) - 0?A - t)\xx - х2\2 Уж1, х2 е X, Vte [0, 1]. Сильно выпуклая с константой в = 0 функция называется просто выпуклой. Под выпуклостью задачи A) понимается выпуклость ее допустимого множества D и целевой функции / на D. Любое локальное решение выпуклой задачи оптимизации является глобальным, а любая стационарная (в смысле определения 1.2.2) точка является решением; множество решений такой задачи всегда выпук- выпукло. Задача минимизации непрерывной сильно выпуклой с положительной константой функции на выпуклом множестве всегда имеет единственное решение. Функция / называется вогнутой, если функция -—/ выпукла. Свойства задачи максимизации вогнутой функции на выпуклом множестве аналогичны свойствам выпуклой задачи минимизации.
§2.2. Методы одномерной оптимизации 55 Наиболее очевидный метод глобальной оптимизации состоит в пере- переборе узлов достаточно мелкой сетки на D с вычислением и сравнением значений целевой функции / в этих точках. Предполагается, что D не слишком сложно устроено, и на нем можно эффективным образом задать сетку. Однако ясно, что такой подход реалистичен лишь для за- задач малой размерности; ниже он будет подробно рассмотрен примени- применительно к одномерным задачам. Более экономичные методы глобальной оптимизации часто включают в себя локальные процедуры, что поз™ воляет сократить пассивный перебор. Простейший пример доставляет метод мультистартщ когда из каждого узла крупной сетки на D запускается метод локальной оптимизации, после чего сравниваются значения / в найденных локальных решениях (стационарных точках). Таким образом, локальные методы играют важную роль и при построе- построении глобальных. Ниже основное внимание уделено именно методам ло- локальной оптимизации. О методах глобальной оптимизации см. [18, 35]. § 2.2. Методы одномерной оптимизации В этом параграфе рассматриваются три наиболее простых метода решения задачи /(ж) ~~> min, х G [а, 6], A) где a, b G R, а < Ъ, /: [а, Ь] —>• R. Все три метода нулевого по- порядка. Первый метод пассивный, не очень эффективный, позволяет аппроксимировать лишь значение задачи A), но зато он применим к заданным на [а, Ъ] функциям весьма широкого класса. Два дру- других метода последовательные, относительно эффективные, позволя- позволяют аппроксимировать само глобальное решение задачи A), но лишь для функций из значительно более специального класса. Разумеется, известно множество других методов одномерной оптимизации [4, 10, 13, 26, 36]. Цель этого параграфа — дать представление об основных идеях, лежащих в основе методов, существенно использующих одномерную специфику задачи. Этим и определяется отбор материала. Отметим, что весьма надежные и эффективные процедуры решения задачи A) реализованы во всех современных общематематических пакетах (та- (таких, например, как Matlab и Maple), не говоря уже о специализиро- специализированных оптимизационных пакетах [47]. Это является одной из при- причин, по которым более подробно методы одномерной оптимизации здесь не рассматриваются. 2.2.1. Метод перебора на равномерной сетке. Предположим, что / — непрерывная на [а, Ь] функция и требуется найти значение U = = min f(x) задачи A). Предположим, что для приближенного ре- хЕ[а, Ь] шения этой задачи разрешено вычислить значения / в N точках
56 Гл. 2. Начальные сведения о методах оптимизации отрезка [а, Ъ]. Эти точки можно выбрать, например, как узлы равно- равномерной сетки, т. е. как середины отрезков, разбивающих [а, Ь] на N равных частей. Алгоритм 1. Полагаем Sn = {b — a)/N и вычисляем xf = (a + iSN) ?- , г = 1,. . ., N, vN = mln /Of). Z ilN Величина vjy берется в качестве приближения к U. Тем самым описан метод перебора на равномерной сетке. Величину vn — "v ^ 0 естественно назвать погрешностью ме- метода (по функции). Если не накладывать на / дальнейших предпо- предположений, то при любом фиксированном N погрешность может быть сколь угодно велика. Оценить погрешность можно лишь в более уз™ ких классах функций, например, для функций, непрерывных по Лип- Липшицу г) на [а, Ь] с заданной константой L > 0. Пусть "х Е [а, 5] — глобальное решение задачи A). Заметим, что минимальное расстоя- расстояние от ~х до узлов сетки не превосходит 5jy/2. Тогда vN -v = ^min ^ f(Xi ) - f[x) ^ - L6N = ——— . Уже отмечавшаяся выше трудность практического использования по- подобных оценок (например, для определения JV, обеспечивающего вы- вычисление U с заданной точностью) состоит в том, что величина L известна или легко определима лишь в исключительных случаях. Нетрудно убедиться, что предложенный метод оптимален в клас- классе пассивных методов отыскания V для функций, непрерывных по Липшицу на [а, Ь] с заданной константой, в следующем смысле: при любом другом выборе сетки на [а, Ь] найдется функция указанно- указанного класса, для которой погрешность соответствующего метода будет больше, чем в случае равномерной сетки (об оптимальности методов оптимизации см. [10, 36]). Заметим, что рассмотренный метод не позволяет находить с за- заданной точностью само глобальное решение ~х, даже если извест- известна константа L. Действительно, если в качестве приближения к ж брать ту точку сетки, в которой реализуется значение vjsj функ- функции /, то всегда можно указать непрерывную на [а, Ь] по Липшицу с константой L функцию /, для которой уклонение такого прибли- приближения от ~х будет равно (Ъ — а) — 5лг/2. г) Напомним, что функция /: X —^ Ж называется непрерывной по Лип- Липшицу на множестве X С Шп с константой L > 0, если |/(жх) — /(ж2)| ^ ^ Ь|ж1^ж2| Уж1, ж2 Е X. Аналогичным образом это понятие вводится и для отображений F: X —>> R .
§2.2. Методы одномерной оптимизации 57 Задача 1. Пусть при некотором с Е [а, Ь] функция /: [а, Ъ] —> —>• R, непрерывна по Липшицу на каждом из отрезков [а, с] и [с, 6] с константами Li > О и L2 > О соответственно. Показать, что / непрерывна по Липшицу на всем [а, Ь] с константой max{Li, L2}. Задача 2. Пусть функция /: [а, 6] —>> R непрерывна на [а, 6] и дифференцируема на [а, Ь] всюду, за исключением, может быть, конечного числа точек С{ Е [а, 6], г = 1, . . ., s, причем L = sup |/'(ж)| < °°- хе[а,Ь]\{С1,...,с8} Показать, что / непрерывна по Липшицу на [а, Ъ] с констан- константой L. Задача 3. Пусть функции /i, /2: [а, 6] —>• R непрерывны по Липшицу на [а, 6] с константами Li > 0 и L2 > 0 соответственно. Показать, что функции /i(-) + /2@ и max{/i(-), /2@} непрерывны по Липшицу на [а, 6] с константами L1 + L2 и max{Li, L2} соответ- соответственно. Задача 4. Привести пример непрерывной на [а, 6] функции, не являющейся непрерывной по Липшицу на этом отрезке. 2.2.2. Метод дихотомии. Метод золотого сеченим. Определение 1. Функция /: [а, Ь] —>• R называется унимо- унимодальной (на [а, 6]), если она достигает на [а, 6] глобального мини- минимума в единственной точке ж", причем слева от ~х строго убывает, а справа строго возрастает, т. е. f(y) > f(z) У у, ze [а, ж], y<z, f(y) < f(z) У у, ze [ж, 6], y<z. Непрерывная на [а, Ъ] функция унимодальна тогда и только тог- тогда, когда она имеет на [а, Ь] единственный локальный минимум (по необходимости являющийся глобальным). Любая непрерывная строго выпуклая г) на [а, Ъ] функция унимодальна, но существуют, разуме™ ется, и невыпуклые унимодальные функции. Задача 5. Пусть X С Rn — выпуклое множество. Функция f:X -^ R называется квазивыпуклой (на X), если любое ее мно- множество Лебега выпукло. Показать, что это равносильно следующему: Уж1, х2 Е X, V* Е [0, 1] fitx1 + A - *)ж2) ^ тахШж1), Дх2)}. B) ) Функция /: X —> Ж называется строго выпуклой на выпуклом мно- множестве X С В", если /(tx1 + A - t)x2) < tfix1) + A - t)f(x2) Уж1, ж2 Е Е X, ж1 /ж2, Vt E @, 1).
58 Гл. 2. Начальные сведения о методах оптимизации Привести пример квазивыпуклой функции, не являющейся вы- выпуклой. Задача 6. Пусть X С Rn — выпуклое множество. Функция /: X —> R называется строго квазивыпуклой (на X), если Уж1, ж2 Е G X, х1 ф ж2, Vt E @, 1) условие B) выполнено как строгое не- неравенство. Доказать, что в случае, когда X = [а, 6], унимодальность непрерывной на X функции равносильна ее строгой квазивыпуклости. Задача 7. Пусть функции Д, /2: [а, 6] —> R непрерывны и уни™ модальны на [а, 6]. Следует ли отсюда унимодальность функ- Ций Д(.) + /2(-), тах{/1(-), /2(-)} на [а, Ъ) ? Следующее свойство унимодальных функций играет центральную роль при обосновании двух рассматриваемых ниже методов. Лемма 1. Пусть функция /: [a, b] ~~> R унимодальна, ж — ее глобальный минимум на [а, Ъ]. Тогда для произвольных точек y,z Е [О",Ь] таких, что у < z, справедливо следующее: а) если f(y) ^ /(z)? mo ^ ^ I0^2']? б) если f(y) ^ /(z), гаожЕ [у,Ь]. Доказательство. Докажем утверждение а) (утверждение б) доказывается аналогично). Предположим, что f(y) ^ f(z), но ж > > z. Тогда у < z < "ж, поэтому /(|/) > /(^) в силу унимодально- унимодальности /, а это противоречит сделанному предположению. ? Таким образом, сравнив значения унимодальной функции / в двух точках отрезка [а, 6], можно локализовать глобальное решение задачи A) на отрезке меньшей длины. Повторяя эту процедуру, мож- можно последовательно уменьшать длину отрезка локализации. Соответ- Соответствующие методы различаются способами выбора точек для сравне- сравнения. Заметим, что при этом аппроксимируется не только значение за™ дачи A), знание которого часто бывает недостаточным, но и само ее решение. Предполагая унимодальность /, опишем метод дихотомии (ме- (метод деления пополам). Алгоритм 2. Полагаем а\ = а, Ь\ = 6, с\ = (а + Ь)/2 и вы- вычисляем /(ci). Полагаем к = 1. 1. Полагаем ук = {ак + ск)/2 и вычисляем f(yk)- Если /(г/&) ^ ^ /(cfe), то полагаем a^+i = o-ib, bj^+i = cj^, cj^+i = у к и переходим к п. 3. Если же f(yk) > /(с^), то полагаем z^ = (с& + 6^)/2 и вычис- вычисляем f(zk). 2. Если /(с*.) ^ /(**), то полагаем afe+i = |/fe, bk+i = zkl ck+1 = = ck. Если же f(ck) > f(zk), то полагаем ак+1 = ckl Ьк+г = bkj + l = Zk. 3. Увеличиваем номер шага к на 1 и переходим к п. 1.
§2.2. Методы одномерной оптимизации 59 Лемма 1 гарантирует, что в любом случае после шага к алгорит- алгоритма х е [ttfc+i, bfc+i]> причем ск+1 = {ак+г + bk+i)/2 и 1 1 Ък+1 - ак+1 = - (Ък - ак) = • • • = -^ (Ь- а). В качестве очередного приближения к ~х можно брать любую точку хк+\ Е [ajfe+i, bk+i]. Для реализации каждого шага метода ди- дихотомии требуется самое большее два вычисления значений целевой функции / (нулевой шаг требует одного такого вычисления). Пред- Предположим, что всего таких вычислений разрешено сделать N; удобно считать N нечетным числом. Такое количество вычислений позволя- позволяет сделать по крайней мере к = (N — 1)/2 шагов метода, что приво- приводит к оценке погрешности (на этот раз по аргументу) \хк+1 - гК Ьк+1 - ак+1 < \ (Ь - а) и О^ОТ^ (Ь - а). 2 Таким образом, с ростом N погрешность уменьшается не медлен- медленнее, чем со скоростью геометрической прогрессии со знаменате- знаменателем q « 0.707. Ниже рассматривается более эффективный метод, для которого аналогичная оценка имеет место при q ~ 0.618 (при больших N это дает весьма ощутимый выигрыш в точности). Золотым сечением отрезка называется такое его деление на две части, при котором отношение длины всего отрезка к длине большей части равно отношению длины большей части к длине меньшей ча- части. Эта пропорция с древности использовалась в разных областях человеческой деятельности. Таким образом, если точка у осуществ- осуществляет золотое сечение отрезка [а, Ь] и расположена ближе к а, чем к 6, то b — а Ь — у Ь-у у - а " Отсюда находим, что у = у(а, Ъ) = а + ^^ (Ь - а) « а + 0.382F - а). Вторая точка, которая осуществляет золотое сечение [а, 6], дается формулой z = z(a, Ъ) = а + —-— (Ь — а) « а + 0.618 (Ъ — а). Будем называть у и z соответственно меньшей и большей золо- золотыми точками. Справедливость следующего утверждения устанавливается пря- прямыми вычислениями. Лемма 2. Пусть у и z — меньшая и большая золотые точки отрезка [а, Ъ] соответственно. Тогда:
60 Гл. 2. Начальные сведения о методах оптимизации а) z-a = b-y = {у/Ъ - 1)(Ь - а)/2; б) у — большая золотая точка отрезка [a, z], a z — меньшая золотая точка отрезка [у,Ь]. Опишем метод золотого сечения, предполагая унимодальность /. Алгоритм 3. Полагаем а\ = а, Ъ\ = 6, у\ = у(а^ 6), z\ = = z{a, b) и вычисляем f(yi). Полагаем к = 1. 1. Вычисляем то из значений f(yk) или f(zk), которое еще не вычислено. Если f(yk) ^ f(zk), то полагаем ajfe+i = а&, 6^+1 = zkl ук+1 = у(ак+ъ bfc+i), 2:fc+i = 2/fc. Если же f(yk) > f(zk), то пола™ гаем afc+i = 2/fc, 6fc+i = Ьк, Ук+i = zkl zk+1 = z(a,k+i, bfc+i). 2. Увеличиваем номер шага к на 1 и переходим к п. 1. Заметим, что в любом случае после шага к алгоритма будут вы- выполнены равенства ук+1 = у(ак+ъ Ьк+1), zk+1 = z(ak+1, bk+1); это следует из утверждения б) леммы 2. Кроме того, в силу леммы 1 ж G Е [а^+1, 6fc_|_i], причем согласно утверждению а) леммы 2 к ,, , (b - а). В качестве очередного приближения к х можно взять любую точ- точку хк+\ G [flfe+i? bk+i]. Подчеркнем, что реализация каждого шага метода золотого сече- сечения требует одного вычисления значения целевой функции / (что обеспечивается свойством золотого сечения, описанным утверждени- утверждением б) леммы 2). Тогда N таких вычислений позволяют сделать к = = 7V — 1 шагов метода, что приводит к оценке погрешности (Г XiV™1 kfe+i -х\^ Ък+1 - ак+1 = ( —-— ) F - а) « 0.6187У(Ь - а). \ l J С ростом N погрешность уменьшается не медленнее, чем со ско- скоростью геометрической прогрессии со знаменателем q ~ 0.618. На практике часто не задают заранее число шагов или вычисле- вычислений значений целевой функции, а продолжают процесс до тех пор, пока длина очередного отрезка локализации не станет меньше задан- заданной величины. Нередко при реализации методов решения более общих задач при- приходится иметь дело с задачей одномерной минимизации не на отрез- отрезке, а, скажем, на полупрямой [а, +оо). Определение унимодально- унимодальности и лемма 1 прямо распространяются и на этот случай. В предпо- предположении об унимодальности целевой функции такая задача сводится к задаче оптимизации на отрезке. Действительно, фиксируем произ- произвольное 5 > 0 и выберем минимальное к = 0,1,. . ., для которо- которого f(a + kS) ^ f (a + (к + 1M). Тогда по лемме 1 глобальный мини-
§2.2. Методы одномерной оптимизации 61 мум / на [а, +оо) лежит на отрезке [а, а + (к+ 1N]. Если же f(a + + к6) > f(a + (к + 1N) У к = 0, 1,. . ., то приходим к противоречию с унимодальностью функции /. В случае непрерывной, но не обязательно унимодальной функ- функции / можно доказать сходимость методов дихотомии и золотого сечения к некоторому локальному решению задачи A). В реальных приложениях унимодальность целевой функции на заданном отрезке часто не имеет места либо не известно, имеет она место или нет. Тем не менее рассмотренные методы часто приводят к успеху и в этих случаях. Задача 8. Сделать два шага метода дихотомии для задачи f(x) = 2х2 - 7х + 1 -» min, x e [1, 5].
Глава 3 МЕТОДЫ БЕЗУСЛОВНОЙ ОПТИМИЗАЦИИ В этой главе основное внимание уделено методам, важным в идей™ ном отношении. Некоторые практически значимые методы (напри- (например, квазиньютоновские методы, методы сопряженных направлений, методы нулевого порядка) излагаются весьма схематично. Это объяс- объясняется тем, что, во-первых, основной целью в данном курсе являет- является построение методов для задач условной оптимизации, а во-вторых, область методов гладкой безусловной оптимизации можно считать вполне сформировавшейся, и существующая литература по ним в ос- основном достаточна. § 3.1. Методы спуска Пусть /: Rn —> R — заданная функция. Один из наиболее оче- очевидных подходов к отысканию решения задачи безусловной оптими- оптимизации f(x) -> min, x Е Rn, A) состоит в следующем. Для текущего приближения к решению опре- определяется направление, по которому функция / убывает, после чего делается шаг некоторой длины по этому направлению. Для получен- полученного таким образом нового приближения процедура повторяется. Ме- Методы такого типа и называются методами спуска; о них и пойдет речь в этом параграфе. 3.1.1. Общая схема методов спуска. Начнем со строгого определе- определения направления убывания. Определение 1. Вектор d Е Rn называется направлением убывания функции /: Rn —> R в точке х Е Rn, если для любого достаточно малого t > 0 имеет место неравенство f(x + td) < f{x). Множество всех направлений убывания функции / в точке х Е Е Rn является конусом и обозначается Df(x). Таким образом, d E Е Vf(x) в том и только том случае, когда любой достаточно малый сдвиг из точки х в направлении d приводит к уменьшению значе- значения функции. Элементарно доказывается
§3.1. Методы спуска 63 Лемма 1. Пусть функция /: Rn —> R дифференцируема в точ- точке х еЖп. Тогда: а) для любого d G Df(x) выполнено (ff(x)jd) ^ 0; б) ее«/ш cf E Rn удовлетворяет условию (/;(ж),с!) < 0, mo d G € Задача 1. Доказать следующее уточнение леммы 1. Если функ- функция /: Rn —> R дважды дифференцируема в точке х Е Rn, то: а) для любого d E Vf{x) такого, что (/'(ж), d) = 0, выполнено (f"(x)d, d) < 0; б) если d G Rn удовлетворяет условиям (/;(ж), <i) = 0, (f"{x)d, d) < 0, то d К методам спуска относятся методы, которые молено задать ите- итерационной схемой xk+1 = xk + akdk, dkeVf(xk), * = 0, 1, ..., B) где параметры длины шага а^ > 0 выбираются так, чтобы выполня- выполнялось по крайней мере неравенство /0cfe+1) < /(я*), C) т.е. чтобы последовательность {/(ж12)} монотонно убывала. Здесь предполагается, что Df(xk) ф 0; если Df(xk) = 0, то процесс оста- останавливают. Заметим, что поскольку dk G /Df{xkI обеспечивающее выполнение неравенства C) число а^ > 0 всегда существует. Та- Таким образом, происходит «спуск» генерируемых приближений на по- поверхности все более низкого уровня целевой функции задачи, что позволяет надеяться на сходимость последовательности таких при- приближений к решению. Конкретный метод спуска характеризуется способом выбора направлений убывания, а также используемой про- процедурой выбора параметра длины шага. Такие процедуры основаны на исследовании сужения функции / на луч, исходящий из точки хк в направлении вектора dk, поэтому их называют процедурами одно- одномерного поиска г). Из леммы 1 следует, что если ff(xk) ф 0, то в качестве направле- направления убывания можно взять dk = —ff(xk). Соответствующие методы спуска наиболее естественны и важны в идейном плане; именно для них в п. 3.1.2 будет проведен анализ сходимости и скорости сходимо- сходимости. Заметим, однако, что бывают весьма полезны и другие способы выбора направления убывания (см. п. 3.2.3). Рассмотрим основные процедуры одномерного поиска, предпола- предполагая, что для текущего приближения хк уже получено направле- направление dk eVf(xk). ) Общепринятый английский термин — LInesearch.
64 Гл. 3. Методы безусловной оптимизации Правило одномерной минимизации. Параметр ак > 0 выбирается из условия f(xk + akdk) = minf(xk + adk), т. е. как решение одномерной задачи оптимизации 9?fc(a)^min, a € R+, D) где (рк: R+ -+ R, ^(а) = /(ж* + adk). Заметим, что при этом, если функция / дифференцируема в точ- точке xfc+1, то О = <р'к(ак) = (f'(xk + akdk), dk) = (f'(xk+1), dk), E) т.е. если f/(xk^1) ф О, то геометрически хк+1 является точкой каса- касания луча, исходящего из ж в направлении d , и поверхности уров- уровня функции /, проходящей через точку xkJrl. Такой способ выбора ак является наилучшим в том смысле, что позволяет получить следующее приближение с наименьшим значени- значением целевой функции вдоль используемого направления убывания. Ес- Если / — квадратичная функция, т. е. f(x) = {Ах, х) + F, ж), х е Rn, где A G R(n, п) — симметрическая матрица, Ь Е Rn, причем матри- матрица А положительно определена, то решение ак задачи D) вычисля- вычисляется по явной формуле _ _ BАхк + 6, dk) ак " 2{Ad\ dk) ' Однако в общем случае этот способ определения ак весьма трудо- трудоемок. Для решения на каждом шаге одномерной задачи оптимиза- оптимизации D) могут использоваться методы, рассмотренные в § 2.2. Кроме того, можно (и нужно!) пользоваться менее трудоемкими способами выбора параметра длины шага, излагаемыми ниже. Заметим, наконец, что иногда (а на практике фактически всегда, за исключением специальных случаев, таких, как случай квадратич- квадратичной целевой функции) задачу D) заменяют задачей (fk(oi) —> min, a E [0, й], где й > 0 — фиксированный параметр. В дальнейшем, говоря о пра- правиле одномерной минимизации, будем иметь в виду именно эту вспо- вспомогательную задачу, считая, что выбор а = +оо соответствует вспо- вспомогательной задаче D). Правило Армихо. Этот способ предполагает дифференцируемость функции / в текущей точке хк. Фиксируем числа й > 0, ?, в ? Е @, 1). Полагаем а = а.
§3.1. Методы спуска 65 1. Проверяем выполнение неравенства f(xk + adk) ^ /(ж*) + ea(f(xk), dk). F) 2. Если F) не выполнено, то заменяем а на 0а и переходим к п. 1. В противном случае полагаем а.^ = а.. Таким образом, а^ вычисляется как первое из чисел а, получае- получаемых в результате дробления начального значения й, для которого выполнится неравенство F). Следующая лемма показывает, что ес- если dk удовлетворяет достаточному условию направления убывания, сформулированному в лемме 1, т. е. (f'(xk), dk) < 0, G) то количество дроблений будет конечным. Лемма 2. Пусть функция /: Жп —> R дифференцируема в точ- точке хк Е Rn. Тогда если элемент dk Е Rn удовлетворяет G), то неравен- неравенство (б) имеет место для любого достаточно малого а > 0. Доказательство. Для любого достаточно малого а > 0 име- имеет место f(xk + adk) - f(xk) = (f(xk), adk) + o(a) = = ea(f(xk), dk) + A - e)a(f{x% dk) + o(a) = = Еа{Г(хк), dk) + a (A - ?)</V), rffc> + ^) ^ ea(f(xk), dk), поскольку A - e)(ff(xk), dk) + o(a)/a < 0. П Очевидно, при выполнении G) выбор ctk по правилу Армихо га- гарантирует выполнение условия монотонного убывания C). Более то™ го, неравенство F) при а = а^ дает оценку того, насколько /(ж^+1) меньше, чем f(xk), и эта оценка обычно оказывается достаточ- достаточной для обоснования сходимости метода, в отличие от условия C). Доказательство сходимости существенно упрощается, когда удается установить, что количество дроблений для определения о^ конечно равномерно по к. Лемма 3. Пусть функция /: Rn ^> R дифференцируема на Rn и ее производная непрерывна по Липшицу на Rn с констан- константой L > 0. Тогда если для некоторых xk, dk E Rn выполнено G), то нера- неравенство F) имеет место для любого а Е @, ск&], г^е Доказательство этой леммы основано на следующем свойстве функций с непрерывными по Липшицу производными. 3 А.Ф. Измаилов, М.В. Солодов
66 Гл. 3. Методы безусловной оптимизации Л е м м а 4. В условиях леммы 3 Доказательство. По формуле Ньютона-Лейбница имеем 1 'f'(x + t?) — /'(ж), ?) dt ^ о \f(x + Ч) - f'(x)\\S\ dt ^ | Lt|e|2 dt = | |C|2, о о где также использовано неравенство Коши^Буняковского^Шварца. ? Доказательство леммы 3. Из леммы 4 и неравенства в (8) для любого a G @, Ilk] получаем = a ((f'(xk), dk) + | «Hf) < ?a(/'(xfe), dfc). D Таким образом, в условиях леммы 3, если ^Й^^<0, (9) \d I где 8 — не зависящая от & константа, а числа S, ? и в берутся од™ ними и теми же на всех итерациях, то количество дроблений в прави- правиле Армихо будет конечным равномерно по /г, т.е. величины а^ бу- будут отделены от нуля не зависящей от к константой. На практике это обычно означает, что, начиная с некоторой итерации, а^ переста- перестает меняться, т. е. фактически реализуется следующее правило выбора параметра длины шага. Правило постоянного параметра. Фиксируем (не зависящее от к) число ~oi > 0 и полагаем а^ = ~cJ- Это правило самое простое; его обычно применяют в тех случаях, когда вычисление значений целе- целевой функции задачи является трудоемкой операцией. Заметим, что если в условиях леммы 3 выполнено (9), то при достаточно малом Тх неравенство F) будет выполнено на каждом шаге при а = о^. Та™ ким образом, теоретический анализ методов с достаточно малым по- постоянным параметром длины шага сводится к анализу методов, ис- использующих правило Армихо. Заметим, наконец, что если удается определить константу Липши- Липшица L либо оценить ее сверху, то формула (8) может использоваться для явного вычисления параметров длины шага. Однако, как уже от-
§3.1. Методы спуска 67 мечалось выше, оценка константы Липшица редко бывает легко осу- осуществима. Кроме того, чем больше L, тем меньше а^ в лемме 3, т.е. тем короче будут шаги метода спуска, а значит, тем ниже будет ско- скорость сходимости. Приведенные три правила одномерного поиска рассматриваются ниже как основные; именно для них доказываются все утверждения. Тем не менее на практике часто пользуются и другими правилами. Одним из них является правило Голдстейна^ состоящее в выборе па- параметра длины шага, удовлетворяющего двойному неравенству при фиксированных ?]_, ?2 СЕ @, 1), ?\ < ?2- Левое неравенство — это неравенство Армихо F) при е = ?\; оно обеспечивает достаточ- достаточное убывание значения целевой функции. Вместе с тем, согласно лем- лемме 2, неравенство Армихо выполняется для любого достаточно мало- малого а > 0, в отличие от правого неравенства в A0), которое, как легко видеть, нарушается при всех а достаточно близких к нулю. В этом и заключается смысл введения правого неравенства: оно не позволя- позволяет выбирать слишком малые параметры длины шага, тем самым пре- препятствуя замедлению метода. Другой реализацией той же идеи является правило Вулфа, которое вводится так же, как правило Голдстейна, но вместо A0) использует неравенства f(xk + adk) < f(xk) + eia(f'(xk), dk), A1) (f'(xk + adk), dk)^e2(f'(xk), dk). A2) В тех случаях, когда вычисление производной функции / не слиш- слишком трудоемко, правило Вулфа признается наиболее эффективным известным правилом одномерного поиска. Важное свойство этого правила связано с квазиньютоновскими методами (см. п. 3.2.3). Приведем процедуру, реализующую правило Вулфа (правило Голдстейна может быть реализовано аналогичным образом). Фик- Фиксируем числа ?i, ?2 Е @, 1), ?\ < ?2- Полагаем а = а = 0. Выби- Выбираем начальное пробное значение а > 0. 1. Проверяем выполнение неравенств A1) и A2). Если оба они вы- выполнены, то переходим к п. 6. 2. Если нарушено A1), то полагаем а. = а и переходим к п. 5. 3. Если нарушено A2), то полагаем а = а. 4. Если S = 0, то выбираем новое пробное значение а > а («экс- («экстраполяция») и переходим к п. 1. 5. Выбираем новое пробное значение а Е (a, S) («интерполя- («интерполяция») и переходим к п. 1. 6. Полагаем а^ = а.
68 Гл. 3. Методы безусловной оптимизации Нарушение неравенства A1) означает, что текущее пробное зна- значение а «слишком велико», а нарушение неравенства A2) означает, что «слишком мало». Описанная процедура работает следующим об- образом. Сначала реализуются шаги «экстраполяции», до тех пор, пока а не станет положительным. После этого выполняются шаги «ин- «интерполяции»; при этом а может только уменьшаться, оставаясь по- положительным, а а — только увеличиваться, всегда оставаясь мень- меньше а. «Экстраполяция» и «интерполяция» в приведенной процедуре мо- могут быть организованы многими способами. Например, можно фик- фиксировать числа в\ > 1, 02 Е @, 1) и при «экстраполяции» заменять а на <9ia, а при «интерполяции» полагать о = A^(92)о+ +6>2<5. Более изощренные способы обсуждаются, например, в [48]. Важ- Важно, чтобы в случае бесконечного числа шагов «экстраполяции» ве- величина а. неограниченно возрастала, а в случае бесконечного чи- числа шагов «интерполяции» величина а — а стремилась к нулю. Лемма 5. Пусть функция /: Жп —>• Ж непрерывно дифференци- дифференцируема и ограничена снизу на Rn. Тогда если для некоторых xk^ dk Е Жп выполнено неравенство G), то реализующая правило Вулфа процедура, в которой а —> +оо в случае бесконечного числа шагов «экстраполяции» и (й^а)^О в случае бесконечного числа шагов «интерполяции», будет конечной. На самом деле вместо непрерывной дифференцируемости и огра- ограниченности снизу / на Шп в этой лемме достаточно предполагать аналогичные свойства (р^ на R+ \ {0}- Доказательство. Если предположить бесконечность числа шагов «экстраполяции», то процедурой генерируется бесконечно возрастающая последовательность значений а, для каждого из которых f(xk + adk) <: f{xk) + Ela(f'(xk), dk), A3) что в силу неравенства G) противоречит ограниченности / снизу. Таким образом, число шагов «экстраполяции» конечно. Предположим теперь, что бесконечно число шагов «интерполя- «интерполяции». Тогда монотонные последовательности значений а. и а схо- сходятся к общему пределу й. При этом для элементов первой последо- последовательности справедливы неравенства A3) и (f'(xk + adk), dk) < s2(f'(xk), dk), A4) а для элементов второй f(xk + adk) > f(xk) + ?la(f'(xk), dk). A5) Предельным переходом в A3), A5) получаем равенство f(xk + adk) = f(xk) + ?l5(f'(xk), dk). A6)
§3.1. Методы спуска 69 С учетом A5) и монотонного убывания значений а. отсюда получаем, что эти значения всегда остаются строго больше, чем а. Используя равенство A6), перепишем неравенство A5) в виде f(xk + adk) > f{xk) + ?lE + a - a)(f'(xk), dk) = = f(xk + adk) + ?l(a - S)</V), dk), т. е., с учетом неравенства а — a > 0, Переходя к пределу и принимая во внимание неравенства Е\ < Еч и G), имеем </V + Ык), dk) > e1(f'(xk), dk) > e2(f(xk), dk). A7) С другой стороны, предельным переходом в A4) получаем неравен- неравенство (f'(xk + adk),dk)^e2(f'(xk),dk), противоречащее неравенству A7). ? 3.1.2. Градиентные методы. В этом пункте предполагается, что функция / дифференцируема на Rn. Градиентными методами называются методы спуска B), в ко- которых направление убывания dk полагается равным антиградиенту функции / в точке хк: dk = ^f'(xk) (если f'{xk) = 0, то теку- текущая точка хк является стационарной точкой задачи A), и работа ме- метода на этом заканчивается; при этом удобно формально полагать, что хк = хк+1 = . . .). Таким образом, схема B) принимает вид xk+1 = xk ^akf(xk), fc = 0, 1, ... A8) В частности, градиентные методы являются методами первого по- порядка. Алгоритм 1. Выбираем х° Е Rn и полагаем к = 0. Выбираем одно из трех основных правил одномерного поиска из п. 3.1.1 и необ- необходимые для реализации этого правила параметры: а, > 0 (либо а = = +оо) в случае правила одномерной минимизации, а > 0, ?, 0 Е Е @, 1) в случае правила Армихо и а > 0 в случае правила постоян- постоянного параметра. 1. Вычисляем ctk в соответствии с выбранным правилом одномер- одномерного поиска по направлению dk = —f'{xk) (если f'{xk) = 0, то о^ можно формально считать произвольным числом). 2. Вычисляем хк+1 по формуле A8). 3. Увеличиваем номер шага к на 1 и переходим к п. 1. Градиентный метод, в котором параметры длины шага выбирают- выбираются по правилу одномерной минимизации, называется методом ско-
70 Гл. 3. Методы безусловной оптимизации рейшего спуска, хотя это название не следует понимать буквально. Важной отличительной особенностью этого метода (по крайней мере при а = +оо) является вытекающее из E) равенство согласно которому используемые на соседних итерациях направления убывания dk = ^f'{xk) и dk+1 = — ff(xk+1) взаимно ортогональны. Таким образом, спуск в данном методе происходит «зигзагообразно». Неравенство F) из правила Армихо принимает вид f(xk - af{xk)) ^ f(xk) - ea\f'(xk)\2. Заметим, что если f'{xk) ф 0, то условие (9) здесь выполнено автоматически при 5 = —1, а равенство (8) принимает вид а> = ^ . A9) Правая часть не зависит от к, поэтому, если градиент функции / удовлетворяет условию Липшица на Шп и используется правило Ар- Армихо, то согласно лемме 3 ак ^ а > 0, B0) где а — не зависящая от к константа. Имеет место следующая теорема о глобальной сходимости гради- градиентных методов. Теорема 1. Пусть функция f: Жп —>• Ж дифференцируема на Жп и ее производная непрерывна по Липшицу на Rn с констан- константой L > 0. Пусть в случае использования в алгоритме 1 правила постоянного параметра а удовлетворяет условию а < | . B1) Тогда любая предельная точка любой траектории {хк} алгорит- алгоритма 1 является стационарной точкой задачи A). Если предельная точка существует или если функция / ограничена снизу на Rn, то {/V)}->0 (А-юо). B2) Доказательство. Сначала рассмотрим случай использования правила Армихо. Если ни для какого к равенство ff(xk) = 0 не ре- реализуется, то последовательность {f(xk)} монотонно убывает. Пусть последовательность {хк} имеет предельную точку; тогда из моно- монотонного убывания последовательности {/(ж^)} следует ее ограничен- ограниченность снизу, а значит, и сходимость (если функция / ограничена снизу на Rn, то это верно и при отсутствии у последовательности {хк} предельной точки). В силу правила Армихо и левого неравен- неравенства в B0) для любого к имеем f(xk) - f(xk+l) > eak\f'(xk)\2 > ea\f'(xk)\\
§3.1. Методы спуска 71 причем левая часть этого неравенства стремится к нулю при к —> оо. Значит, имеет место B2), что и дает требуемый результат. Пусть теперь используется правило одномерной минимизации. Для каждого к обозначим через хк+1 точку, которая получилась бы из текущего приближения хк, если бы использовалось правило Армихо, а через а к — соответствующий параметр длины шага. Тогда f(xk) - f(xk+1) 2 f{xk) - f(xk+1) 2 eak\f(xk)\2. Остается повторить предыдущую часть доказательства, заменив в ней dk на й&. Пусть, наконец, используется правило постоянного параметра. Но согласно лемме 3, равенству A9) и условию B1) это равносильно то- тому, что используется правило Армихо при а = ~а и достаточно ма- малом ? > 0. ? В случае использования правила одномерной минимизации или правила Армихо более тонкий анализ позволяет снять в теореме 1 требование непрерывности производной / по Липшицу, заменив его требованием непрерывной дифференцируемости / на Rn. Подчерк- Подчеркнем, что все трудности здесь связаны с возможным невыполнением левого неравенства в B0) при любом а > 0, т. е. с возможным беско- бесконечным уменьшением параметров длины шага. Теорема 2. Пусть функция /: Жп —>> R непрерывно дифферен- дифференцируема на Жп. Пусть в алгоритме 1 используется правило одно- одномерной минимизации или правило Армихо. Тогда любая предельная точка любой траектории {хк} ал- алгоритма 1 является стационарной точкой задачи A). Если по- последовательность {хк} ограничена, то имеет место предельное соотношение B2). Доказательство. Случай использования правила одномерной минимизации сводится к случаю использования правила Армихо так лее, как и при доказательстве теоремы 1, поэтому будем говорить только о правиле Армихо. Пусть последовательность {хк} имеет предельную точку ~х G Rn, причем ни для какого к равенство ff{xk) = 0 не реализуется. Пусть {xkj} —> ~x (j —> оо). Случай отделенной от нуля последовательности {о:^-} рассматривается так же, как при доказательстве теоремы 1 (только все рассуждения про- проводятся для {xkj} вместо {ж^}), поэтому можем предположить, что {akj} ^0 (j -> оо). Тогда для любого достаточно большого j при определении а^ начальное значение ос было уменьшено по крайней мере один раз, т.е. а = а^/0 не удовлетворяет неравенству F): /(**') - е ^ |/V)!2-
72 Гл. 3. Методы безусловной оптимизации Обозначим (ikj = ctkj \f'{x )|/^> тогда последнее неравенство принимает вид // к ~ I [X "* ) \ » / к \ -~ I а/ / к \ I I грК3 _ /-у, _* i L. I -> f(-rK3\ _ «г/>| f f Т ^ 1 1 ^-kj if k ¦ \ \ I x"^ t/ \ / cu'№-il«/ v /1 * Заметим, что {й^.} ^0 (j —} оо). Отсюда и из последнего неравен- неравенства с помощью теоремы о среднем, деления на й&. и предельного перехода легко выводится, что \f'(x)\^e\f'(x)\, а это возможно только при /;(ж") = 0. Последнее утверждение теоремы элементарно доказывается от противного. ? Задача 2. Доказать аналог теоремы 2 для градиентного метода с одномерным поиском по правилу Голдстейна или Вулфа. Существование предельной точки у траектории градиентного ме- метода в теоремах 1 и 2 не утверждается. Гарантировать существо- существование предельной точки можно при дополнительном предположе- предположении об ограниченности множества Лебега L(f(x0)) = ЬдRn(/(x0)), или, более общим образом, об ограниченности самой последователь- последовательности {хк}. Задача 3. Пусть в дополнение к условиям теоремы 2 множе- множество L(/(x0)) ограничено. Доказать, что при этом dlst(>fe, S0(x0)) ^0 (к -> оо), где dq — oq\^ J — хж ^ ^\Т\Х )) I \х) — "I• Перейдем к локальному анализу градиентных методов, т. е. к ана- анализу их поведения вблизи заданной стационарной точки ~х Е Rn задачи A). Будем предполагать двукратную дифференцируемость функции / в этой точке и выполнение в ней достаточного усло- условия второго порядка оптимальности. Очевидно, что при этом в точ- точке ~х выполнено так называемое условие квадратичного роста^ кото- которое будет играть центральную роль в локальном анализе: существуют окрестность U точки ~х и число 7^0 такие, что f(x) - f(x) = \ {Г'{х){х ^х),х^х) + о(\х - х\2) > ^7|ж-ж|2 Ухе U. B3) Лемма 6. Пусть функция /: Rn —>• R дифференцируема в не- некоторой окрестности точки ~х Е Ш1 и дважды дифференцируема в этой точке. Пусть ~х является стационарной точкой задачи A), причем в этой точке выполнено сформулированное в теореме 1.2.5 достаточное условие второго порядка оптимальности.
§3.1. Методы спуска 73 Тогда для любого числа и Е @,4) найдется окрестность U точ- точки ж такая, что наряду с B3) будет выполнено \f'(x)\2^v7(f(x)-f(x)) Ух&и. B4) Доказательство. Для х Е Rn, достаточно близкого к ж", имеем f'(x) = f"(x)(x-x) + o(\x-x\), поэтому Дж) - f{x) = \ (f"(x)(x -х),х-х) + о(\х - х\2) = = \(f'(x), х-х) + оЦх-х\2), т. е. {f'(x), x-x) = 2(f(x) - f(x)) + о(\х - х\2). Тогда, привлекая соотношение B3), имеем {f'(x),x-x)-VZ(f(x)-f{x)) = = B - yfU){f(x) - f(x)) + о(\х - х\2) > ^ B - ^)j\x - х\2 + о(\х - х\2) > 0, поэтому (f(x),x-x)^^(f(x)-f(x)). B5) Отсюда и из соотношения B3) следует, что \f'(x)\\x-x\ 2 {fix), x-xJ V^if(x) - fix)) > V^l\x-x\2, т. е. Тогда с учетом B5) \Г{х)\2 > Лч\х - х\ \Пх)\ > V^l(f'ix), x-x)> ЫН*) - /СЮ). что и требовалось доказать. П Теорема 3. Пусть в дополнение к условиям теоремы 1 функ- функция f дважды дифференцируема в точке ~х Е Rn. Пусть ~х яв- является стационарной точкой задачи A), причем в этой точке вы- выполнено сформулированное в теореме 1.2.5 достаточное условие вто- второго порядка оптимальности. Пусть, наконец^ в случае использова- использования в алгоритме 1 правила одномерной минимизации величина а выбрана конечной. Тогда: а) траектория алгоритма 1, определяемая любым начальным приближением х° Е Ите, достаточно близким к ж, сходится к ж; скорость сходимости по функции линейная, а по аргументу геомет-
74 Гл. 3. Методы безусловной оптимизации рическая: У к = О, 1, ... имеют место оценки f(xk+1) - f(x) < q(f(xk) - f(x)), B6) \xk-x\ < Г^Д/Ов*) - /(г)) < (^)ferV(/(^°) - №), B7) gcfe числа q G [0, 1) ti Г > О не зависят ни от к, ни от х°; б) если используется правило одномерной минимизации, при- причем а удовлетворяет условию а > \ , B8) то где а > 0 — минимальное, а X > 0 — максимальное собственные значения матрицы fff(~x); в) если используется правило Армихо, причем а удовлетворяет условию B8), а 0 — условию в^\, C0) то limsup /(ж k ) ~ ^ < 1 - 2еA - е) | ; C1) если ж:е снять условие C0) на 9^ но предположить, что е ^ 1/2, ТОО lim sup ——-j^-—^~zr^ ^ 1 — 9 — ; C2) г) если используется правило постоянного параметра^ то lim sup , —^^ ^ 1 - 2сга + сгЕа2. C3) Доказательство. Фиксируем окрестность U точки ~х такую, что выполнены соотношения B3) и B4) при некоторых 7 > 0 и р ^ Е @, 4) (достаточное условие второго порядка оптимальности и лем- лемма 6 гарантируют существование такой окрестности). Пусть хк Е U. В случае использования правила одномерной ми- минимизации V а Е [0, S] имеем f(xfc+1) — f(aF) < f(xk — aff(xk)) — f(~x) < ^ J y^ J J X^ J LZ\J V'1' )\ ' о LZ IJ V*17 /I ?
§3.1. Методы спуска 75 где последнее неравенство следует из леммы 4. Анализируя квад- квадратный трехчлен (относительно а) в правой части этого неравен- неравенства, убеждаемся, что он достигает минимума на [0, а] при а = = min{S, 1/Ь}, т.е. с учетом B4) имеем f(xk+1) - f(x) ^ f(xk) - f(x) - a (l - а f ) \f'(xk)\2 < < (l - min {a, i} max {l - a f, ±} i/7) (/(zfc) - /(of)). C4) В случае использования правила Армихо в силу соотношений B0) и B4) имеем f(xk+1) - f{x) < /(я*) - f{x) - ea\f'ixk)\2 ^ ^il-eS^)ifixk)-fix)). C5) Случай использования правила постоянного параметра сводится к слу™ чаю использования правила Армихо (см. доказательство теоремы 1; в этом случае а = а = ~а). Таким образом, в любом из рассмотрен™ ных случаев справедливо неравенство B6) при соответствующем q < 1. Ближайшая задача — доказать, что если точка ж0 достаточно близка к U, то траектория {хк} не покидает окрестность U. Для этого потребуется следующее неравенство, вытекающее из B3): \f{x)\ ^ L\x^x\ ^ ЬЛ/(ж) /(ж) Ухе U. C6) Фиксируем число г > 0 такое, что В(~х, г) С 17, а затем опреде- определим число <5 > 0, удовлетворяющее условию 5 + аЬ^(/(жЬД(ж))/1 < г Ухе В% 8) C7) !- vkl (подчеркнем, что при этом 8 ^ г). Пусть ж0 Е В(х, ё); тогда в силу соотношений C6) и C7) имеем — х \х° - ж| хг - т.е. ж1 G -б(ж", г). Отсюда и из соотношения B3), в частности, следу- следует, что q ^ 0, так как иначе выполнение неравенства B6) при к = 0 было бы невозможно. Предположим, что хк е В{х^ г) У к = 1, . . ., s. Тогда соглас- согласно B6)
76 Гл. 3. Методы безусловной оптимизации Поэтому с учетом неравенства C6) получаем \хк+1-хк У к = 0, ..., s. Отсюда и из C7) следует, что xs -x\ + \xs+1 - х° - х\ / j I с°) - f(x) 7 k=Q k=0 т.е. xs+1 E В(х, г). Тем самым доказано, что {хк} С U. В частности, для любого /г имеет место оценка B6), откуда с учетом соотношения B3) немедлен- немедленно следует оценка B7) при Г = 1/^/7- Теперь сходимость {хк} к ж очевидна, что завершает доказательство утверждения а). Утверждения б)-г) легко следуют из утверждения а), формул C4), C5), асимптотических оценок числа j и константы Липшица для производной функции / на 17 через а и XI соответственно при стягивании окрестности 17 в точку ~х, а также того факта, что в лемме 6 число и можно взять сколь угодно близким к 4. При до- доказательстве в) нужно указать максимальное а, при котором гаран- гарантировано выполнение B0). При доказательстве г) в качестве е нуж- нужно взять число, для которого выполнено равенство A9) при скд. = сё, т.е. е = 1 -aL/2. ? Задача 4. Доказать утверждения б)—г) теоремы 3. Задача 5. Доказать, что условие дифференцируемости функ™ ции / на всем Rn (и соответственно условие непрерывности по Липшицу ее производной на всем Rn) в теореме 3 можно ослабить, ограничившись аналогичным условием лишь в некоторой окрестно- окрестности точки ~х. Более тонкий анализ позволяет уточнить оценку B9) для метода скорейшего спуска [6, 40, 48]. С точки зрения оценки C1) в правиле Армихо предпочтитель- предпочтительно выбирать е близким к 1/2, однако даже при е = 1/2 оцен- оценка C1) несколько хуже, чем оценка B9) для метода скорейшего спус- спуска, как и оценка C2). С точки зрения последней предпочтительно вы- выбирать в как можно более близким к 1, однако при стремлении в
§3.1. Методы спуска 77 к 1 каждое использование правила Армихо становится, вообще го- говоря, все более трудоемким. Наконец, оптимальным с точки зрения оценки C3) выбором постоянного шагового параметра является ~ql = = 1/L; при этом оценка C3) совпадает с B9). Дополнительные предположения о гладкости и/или выпуклости / позволяют несколько уточнить (количественно, но не качественно) полученные оценки скорости сходимости по крайней мере для метода скорейшего спуска и градиентного метода с постоянным параметром длины шага [6, 10, 33]. Одно из направлений дальнейшего развития локального анали- анализа градиентных методов связано с отказом от достаточного условия второго порядка оптимальности в искомом локальном решении ~х и соответственно с использованием условия квадратичного роста в бо- более слабой форме. Например, достаточное условие второго порядка не может выполняться, если ж — глобальное решение задачи A), не яв- ляющееся изолированным от других точек множества глобальных ре- решений S. Вместе с тем этот случай важен, например, в связи с за- задачами метода наименьших квадратов для недоопределенных систем уравнений, когда f(x)= \ \F{x)\\ xeR», C8) где F: Rn -^ R1 — гладкое отображение, п > I. В такой ситуации условие квадратичного роста B3) естественно заменить следующей оценкой расстояния до множества S: f(x)-v^j{disi(xJ S)J Ухе U, C9) где U — некоторая окрестность точки ж", 7^0 — константа, a U = = /(ж) — значение задачи A). Например, если отображение F удо- влетворяет в точке ~х условиям теоремы 1.3.3, то для введенной в C8) функции / оценка C9) следует немедленно из этой теоремы. Значение таких рассмотрений состоит еще и в том, что, в отличие от случая выполнения B3), они не подразумевают выпуклость функ- функции / даже локально, вблизи ж. В анализе такого рода обычно отказываются от чисто локальных рассмотрений, предполагая, что U в C9) — окрестность всего мно- множества 5, а не только его точки ж. Для соответствующего вари™ анта C9) также используют название условие квадратичного роста. Часто рассматривают окрестности U специального вида, например, U = U(S, 8) = {х еЖп\ dist(z, S) ^ 8}, либо U = L/jRn(u+ J), ли- либо U = L|^/(.)|}Rn(J) при некотором 8 > 0. Основное содержание со- соответствующих теорем составляет доказательство сходимости мето™ да к множеству S либо к точке этого множества, а также получе- получение оценок скорости сходимости. Например, в соответствующих тре- требованиях гладкости выполнение C9) при U = U(S, 8) и некоторых
78 Гл. 3. Методы безусловной оптимизации 8 > 0 и 7^0 гарантирует следующее: если начальное приближе- приближение х° выбрано достаточно близким к Я, то определяемая им траек- траектория градиентного метода, использующего правило Армихо, сходит- сходится к точке множества S с линейной скоростью по функции и с гео- геометрической скоростью по аргументу (см. [20]; там же можно найти анализ случаев выполнения условия квадратичного роста). Родствен- Родственный, но в некоторых отношениях более общий результат доказывает- доказывается ниже. Иногда рассматривают также случай, когда вместо C9) выполне- выполнено более слабое условие f(x) -v^ 7(dist(x, S))p УхеП при р > 2. Для этого случая известны результаты о сходимости гра- градиентных методов с арифметической скоростью. При изучении сходимости и скорости сходимости градиентных ме- методов к множеству Sq стационарных точек задачи A) условие квад- квадратичного роста естественно заменить оценкой расстояния до этого множества следующего вида: \ff(x)\ ^ 7dist(z, So) Ухеи, D0) где U — некоторая окрестность множества So, a j > 0 — константа. Задача 6. Внося необходимые изменения в доказательство лем- леммы 6, доказать следующее утверждение. Пусть существуют числа 8 > 0 и 7 > 0 такие, что функция /: Rn ~~> R трижды дифферен- дифференцируема на U = U(Sj S)j норма ее третьей производная ограничена на U и выполнено C9). Тогда для любого числа и Е @, 4) найдется число г > 0 такое, что \f'{x)\2^u1{f{x)-v) 4x€U(S,r). Подчеркнем, что условие квадратичного роста в определенном смысле влечет оценку D0). Точнее, из результата задачи 6 следу- следует, что если S = So, функция / обладает достаточной гладкостью и выполнено условие квадратичного роста C9) при U = f/(S, S) и некоторых <5>0 и j > 0, то выполнена и оценка D0) при соответ- соответствующих (возможно, других) окрестности U множества So и чис- числе 7 > 0- В дальнейшем будем считать, что окрестность U в D0) имеет вид U = b|j/(.)|)Rn(E) при некотором 8 > 0 (заметим, что выполне- выполнение оценки D0) при U = U(Sq, S) и некотором 8 > 0 влечет ее вы- выполнение при U = L|^/(.)|jR(nE), возможно, с другим 8 > 0). Кроме того, будем предполагать, что выполнены условия теоремы 1 и U > > ^оо, что влечет выполнение B2) для любой траектории {хк} ал- алгоритма 1, поэтому все приближения, начиная с некоторого, будут ле-
§3.1. Методы спуска 79 жать в U. Именно это сообщает приводимому далее результату о схо- сходимости и скорости сходимости полностью глобальный характер. Еще одно условие, выполнение которого придется потребовать, на- называется условием отделимости критических поверхностей уровня и состоит в следующем: существует число х > 0 такое, что для лю- любых Zc1, Zc2 ? So, для которых /(ж4) ф /(ж), выполнено [ж4 — ж°2| ^ ^ X- Задача 7. Пусть функция /: Rn —>• R дифференцируема на Rn, ее производная непрерывна по Липшицу на Rn, и пусть / прини- принимает на множестве своих критических точек лишь конечное число значений. Показать, что при этом выполнено условие отделимости критических поверхностей уровня. Задача 8. Пусть /: Rn —> R — квадратичная функция, имею- имеющая критическую точку. Показать, что при этом выполнено как усло- условие D0) (при U = Rn и некотором j > 0), так и условие отделимо™ сти критических поверхностей уровня (тривиальным образом). Теорема 4. Пусть в дополнение к условиям теоремы 1 значение задачи A) конечно и выполнено условие D0) при U = = L|^/(.)|}Rn(J) и некоторых 8 > 0 и j > 0. Пусть, кроме того, выполнено условие отделимости критических поверхностей уровня. Пусть в алгоритме 1 используется правило Армихо или правило постоянного параметра. Тогда любая траектория {xk} алгоритма 1 сходится к некото- некоторой стационарной точке задачи A). Скорость сходимости по функ- функции линейная, а по аргументу — геометрическая. Доказательство. Случай использования правила постоянного параметра сводится к случаю использования правила Армихо так же, как и выше, поэтому будем говорить только о последнем. Тогда У к /(**+*)-/(**K-§|sfe+1-s*|2- D1) Поэтому если ни для какого к не реализуется равенство ff(xk) = 0, то последовательность {f(x )} монотонно убывает, а значит, в силу конечности значения задачи A) сходится, что влечет предельное со- соотношение |ж^+1 — ж^[ —^ 0 [к —>• оо). Используя соотношения A8) и B0) отсюда выводим a\f'(xk)\ ^ ak\f'(xk)\ = \хк+1 -хк\^0 (к -+ оо), поэтому без ограничения общности можно считать, что {хк} С 17. Тогда последнее соотношение и оценка D0) приводят к оценке \хк —~х -fe| ^ - \ff(xk)\ <: ^- \хк+1 - хк\ -+ 0 (к^ оо), D2) 7 ' К Л «7
80 Гл. 3. Методы безусловной оптимизации где ~х — произвольная проекция точки х на множество S® ста- стационарных точек задачи A) (см. следствие 1.1.2). Из D2) имеем \хк+1 - хк\ <: \хк+1 - хк+1\ + \хк+1 - хк\ + \хк - хк\ -+ 0 (А: -> оо). Но тогда условие отделимости критических поверхностей уровня га- гарантирует существование числа v такого, что для любого достаточно большого к f(xk) = v. D3) Тогда из того, что х G So , леммы 4, определения проекции и оценки D2) имеем \f(xk+1) -v\ = \f(xk+1) - f(xk+1) - {f'(xk+1), xk+1 - xk+1)\ < ^ | |а;*+1 _ xk+1\2 ^ 4 \xk+1 -xk\2^^ (\xk+1 - xk\ + \xk - xk\f ^ A A A 2 ^ ¦ ^7; i~ - i • ~ {к-> оо). С учетом монотонного убывания последовательности {f(xk)} и D1) отсюда следует, что О ^ /(ж*+1) ^v^ M(f(xk) - f(xk+1)), где M = ^^ A+ ^- ' Перегруппируя слагаемые, приходим к оценке 0 ^ f(xk+1) - v < q(f(xk) - v), D4) где q = M/(l + М) Е @, 1). Это и означает, что {/(жЛ)} сходится кис линейной скоростью. Далее, используя неравенства D1) и D4), получаем, что для любо- любого достаточно большого к 1 I О/ I fy fc I ^ / ( ? ( k\ ¦? ( к-\~\\\ г^ I ( -Р ( к\ \ ^ € ^ V ? а - «) < ... ^ (V4L^(f(x°) - v). Обозначим Г = y/a(f(x°) — v)/e, тогда \fi = 0, 1,... г-1 г-1 i=o i=o ^g Отсюда вытекает фундаментальность последовательности {ж^}, т.е. ее сходимость к некоторой точке ~х Е Rn. Переходя в последнем
§8.2. Метод Ньютона. Квазиньютоновские методы 81 неравенстве к пределу при г —>• оо, приходим к оценке которая означает, что скорость сходимости геометрическая. Наконец, из D2) следует, что dist(a^, So) —> 0 (к —> оо), поэтому ~х G 5о- ? В заключение отметим главный недостаток градиентных методов. Речь идет о неприемлемо низкой скорости сходимости в случаях, когда поверхности уровня целевой функции сильно «вытянуты», т. е. имеют «овражный» характер. Количественно этот эффект молено пояснить так: если метод сходится к строгому локальному решению ж, в котором максимальное собственное значение матрицы f"{x) значительно боль- больше минимального, то отношение а/И близко к нулю, а значит, правые части оценок B9), C1)—C3) близки к 1. Подчеркнем, что дело здесь отнюдь не в несовершенстве этих оценок: низкая скорость сходимости градиентных методов в подобных ситуациях подтверждается вычисли- вычислительной практикой. Геометрически (весьма неформально) происходит следующее: генерируемые методом приближения быстро спускаются почти на «дно оврага», а затем начинают «прыгать» с одного его «склона» на другой, причем длина осуществляемых шагов все время уменьшается. Особенно сильный замедляющий эффект это явление оказывает в том случае, когда «дно оврага» изогнуто. Известны способы ускорения сходимости градиентных методов для «овражных» функций [10]. Кроме того, в § 3.2 и § 3.3 будут рас- рассмотрены методы, обладающие сверхлинейной скоростью сходимости и значительно менее чувствительные к «овражному» характеру целе- целевой функции задачи. Задача 9. Из начального приближения ж0 = (—2, 1) сделать два шага метода скорейшего спуска для задачи безусловной миними- минимизации функции /: R2 ->> R, /(ж) = х\ + хгх2 + 2х\ + жь Задача 10. Из начального приближения ж0 = A, — 1) сделать для задачи безусловной минимизации функции /: R2 ->> R, f(x) = 2х\ + хгх2 + Зж?,, один шаг градиентного метода, использующего правило Армихо с па- параметрами Й=1, ? = 0 = 1/2. § 3.2. Метод Ньютона. Квазиньютоновские методы Фундаментальная идея рассматриваемого в этом параграфе ме- метода Ньютона чрезвычайно важна: она лежит в основе всех быст™ ро сходящихся алгоритмов для различных классов нелинейных за- задач, в том числе и задач оптимизации, хотя в своем базовом варианте
82 Гл. 3. Методы безусловной оптимизации метод Ньютона не является оптимизационным. Имеется в виду, что, например, в отличие от рассмотренных выше методов спуска, приме- применительно к задачам безусловной оптимизации метод Ньютона одина- одинаково хорошо локально сходится как к минимумам, так и к максиму- максимумам и вообще к любым стационарным точкам задачи. С другой сто™ роны, метод допускает и оптимизационную трактовку, дающую почву для глобализации его сходимости. Высокая скорость сходимости метода достигается за счет того, что он является методом второго порядка. Соответственно его итерация существенно более трудоемка, чем, например, итерации градиентных методов. К счастью, на основе метода Ньютона строятся так назы- называемые квазиньютоновские методы, которые лишь немногим уступа- уступают методу Ньютона по скорости сходимости, и при этом их итерации лишь немногим более трудоемки, чем итерации градиентных методов. 3.2.1. Метод Ньютона длм уравнений. Классический метод Нью- Ньютона вводится для уравнения Ф(х) = О, A) где Ф: Rn —» Rn — гладкое отображение. Пусть хк Е Жп — текущее приближение к искомому решению ~х уравнения A); тогда вблизи ж уравнение можно аппроксимировать его линеаризацией Ф(хк) + Ф'(хк)(х-хк) = 0. B) Это и есть итерационное уравнение метода Ньютона. Алгоритм 1. Выбираем ж0 Е Rn и полагаем к = 0. 1. Вычисляем xk+1 Е Rn как решение уравнения B). 2. Увеличиваем номер шага к на 1 и переходим к п. 1. Итерационную схему метода Ньютона часто записывают в виде xk+1 = хк - (Ф'(хк))-1Ф(хк), к = 0, 1, ..., C) хотя, разумеется, полное обращение матрицы Фг(хк) при реализации метода совершенно не требуется. Теорема 1. Пусть отображение Ф: Rn —> Rn дифференцируе- дифференцируемо в некоторой окрестности точки ~х € Rn, причем его производ- производная непрерывна в этой точке. Пусть ~х является решением уравне- уравнения A), причем detФ/(^) ф 0. Тогда любое начальное приближение х° Е Rn, достаточно близ- близкое к ж", корректно определяет траекторию алгоритма 1, которая сходится к ~х. Скорость сходимости сверхлинейная, а если произ- производная Ф непрерывна по Липшицу в окрестности точки ж, то квад- квадратичная.
§8.2. Метод Ньютона. Квазиньютоновские методы 83 Доказательство. Согласно теореме о малом возмущении не- невырожденной матрицы 1) найдутся окрестность 17 точки ~х и чис- число М > 0 такие, что det#;(x)/0, \\{?(х)уг\\ <^ М Ухе U. D) В частности, для х Е U уравнение B) имеет единственное реше- решение xfe+1, т.е. итерация алгоритма 1 из такой точки хк корректно определена. Кроме того, в силу C), D) и теоремы о среднем окрестность U можно выбрать так, что если хк Е U, то 1^ + ! -х\ = \Хк ^Х-{Ф'(хк)угФ(хк)\ ^ E) < ||(ф'B Заметим, что sup ||Ф'( tE[O,ll >к)) ЦФ^* М sup ||Ф; tG[O,l] V + (i-t ;) - Ф(ж) )г)-Ф'( -Ф'(ж -*)ж) *)(**-г) -ф'(^)|| \хк >х) — х поэтому из E) следует, что для всякого q E @, 1) найдется чис- число 5 > 0 такое, что В (ж, S) С U и, если хк Е B(~x, <5), то \xk+1 -x\^ q\xk -ж|; в частности, xk+1 E В(х, 5). Таким образом, во-первых, всякое на- начальное приближение ж0, достаточно близкое к ж, корректно опре- определяет траекторию алгоритма 1, а во-вторых, эта траектория сходит- сходится к ~х со сверхлинейной скоростью. Наконец, если производная Ф непрерывна по Липшицу на U с константой L > 0, то из E) имеем: если хк Е 17, то |ж^+1 - ж| ^ ML\xk - х\2, F) что и дает квадратичную скорость сходимости ). П Здесь и в других теоремах о методах ньютоновского типа для квадратичной оценки скорости сходимости вместо непрерывности производной Ф по Липшицу достаточно предполагать выполненным 1) Имеется в виду следующее известное утверждение [12]: если А Е Е R(n, n), det А т^ 0) то Для любой матрицы Л Е R(n5 n), удовлетворяю- удовлетворяющей неравенству ||Л —Л||<1/||Л ||, справедливо, что det Л ^ 0, причем 2) Константу в F) можно уменьшить вдвое, если воспользоваться оче- очевидным аналогом леммы 3.1.4 для отображений.
84 Гл. 3. Методы безусловной оптимизации более слабое условие |Ф'(ж)-Ф'(ж)|| ^ L\x-x\ Ух ? V, где V — окрестность точки ж", a L > 0 — некоторая константа. Тем не менее, следуя традиции, почти везде ниже в этом контексте будем предполагать липшицеву непрерывность производной в окрестности решения. Иногда в выражении для Ф;(-) можно априори выделить члены, которые обращаются в нуль в точке ~х\ особенно часто это случает™ ся, когда известно аналитическое выражение для Ф/(#). Такие чле- члены разумно сразу полагать равными нулю, заменяя Ф;(*) соответ- соответствующим аппроксимирующим отображением Ф: Rn —>• R(n, n), и рассматривать усеченный метод Ньютона, который можно запи- записать в виде итерационной схемы xk+i = хк _ (ф(а.Л))-1ф(а.ЛM к = 0, 1, . . . G) Следствие 1. Пусть выполнены условия теоремы 1. Тогда для любого отображения Ф: Rn —> R(n, n) такого, что ||Ф(ж) -Ф;(ж)|| ^0 (х -» ж), любое начальное приближение х° ? Rn, достаточно близкое к ж, корректно определяет траекторию метода G), которая сходится к ~х. Скорость сходимости сверхлинейная^ а если производная Ф непрерывна по Липшицу в окрестности точки ж" и существуют окрестность V точки ж и число N > 0 такие^ что |Ф(ж)-Ф/(ж)|| ^ ЛГ|ж-ж| Уж ? У, тео квадратичная. Задача 1. Доказать следствие 1. Другая важная модификация метода Ньютона, направленная на снижение трудоемкости его итерации, носит название метода хорд: xk+1 = xk-(Ф'(х°))-1Ф{хк), к = 0, 1, ... (8) Здесь нужно вычислять производную отображения Ф только один раз, а не на каждой итерации, и все решаемые линейные системы имеют одну и ту же матрицу, но, конечно, скорость сходимости тако- такого метода ниже, чем у метода Ньютона. Задача 2. Доказать, что в условиях теоремы 1 метод (8) локаль- локально сходится к ж" с линейной скоростью, причем скорость сходимости тем выше, чем ближе х° к ж. На практике обычно используют схему, в которой Ф'(ж^) вычис- вычисляется не только при к = 0, но и не на каждом шаге /г, а для некоторой бесконечно возрастающей последовательности значений к.
§8.2. Метод Ньютона. Квазиньютоновские методы 85 Такой «компромисс» между схемами C) и (8) имеет целью снижение суммарной трудоемкости первой и повышение скорости сходимости второй. В течение двух последних десятилетий большое внимание исследо- исследователей привлекало изучение поведения метода Ньютона в условиях более слабых, чем невырожденность Ф'(з:), а также построение моди- модификаций метода, работоспособных и эффективных в таких ослаблен- ослабленных предположениях (по этим вопросам см. [20, 21]). Задача 3. Из начального приближения х° = 1 сделать два ша- шага метода Ньютона для уравнения хр = 0, где р ) 2 — целочисленный параметр. Проанализировать скорость сходимости; объяснить наблюдаемый эффект. Модифицировать ме- метод Ньютона, введя параметр длины шага, равный р; проанализиро- проанализировать скорость сходимости. Задача 4. Доказать следующее утверждение. Пусть функция Ф: R —> R р раз дифференцируема в точке ~х G R, р ^ 2, при- причем ~х — корень кратности р уравнения A), т.е. Ф(х) = Фг(х) = . . . = Ф(р~1}(ж) = 0, Ф(р)(ж) ф 0. Тогда метод Ньютона локально сходится к ~х с линейной скоростью, а если ввести параметр длины шага, равный р, то скорость сходимо- сходимости станет сверхлинейной. 3.2.2. Метод Ньютона для задачи безусловной оптимизации. Те- Теперь обратимся к задаче безусловной оптимизации f{x) -> min, x e Rn, (9) где /: Rn —> R — дважды дифференцируемая на Rn функция. Ста- Стационарные точки этой задачи описываются уравнением A), где Ф:Rn^Rn, Ф(х) = /;(ж), — градиентное отображение^ поэтому стационарные точки можно искать, применяя метод Ньютона к такому уравнению. Пусть xk G Rn — текущее приближение к искомой стационарной точке ~х задачи (9); тогда следующее приближение ж^+1 ищется как решение линейного уравнения f'(xk) + f"(xk)(x-xk) = 0, A0) т. е. х^1 = хк - (/"(ж*))-1/'^*), * = 0, 1, . . . A1) Заметим, что описанная итерация допускает следующую оптими- оптимизационную трактовку. Вблизи точки хк задачу (9) можно аппрокси- аппроксимировать задачей безусловной оптимизации с квадратичной целевой
86 Гл. 3. Методы безусловной оптимизации функцией: f(xk) + (f'(xk), х - хк) + \ (f"(xk)(x - хк), х-хк)^ min, x € R", A2) причем A0) есть в точности уравнение для стационарных точек такой задачи. Таким образом, метод Ньютона для задачи безусловной оп- тимизации состоит в следующем. Алгоритм 2. Выбираем ж0 Е Rn и полагаем к = 0. 1. Вычисляем xk+1 E Rn как стационарную точку задачи A2). 2. Увеличиваем номер шага к на 1 и переходим к п. 1. Из теоремы 1 немедленно вытекает Следствие 2. Пусть функция /: Rn —» R дважды дифферен- дифференцируема в некоторой окрестности точки ~х Е Rn, причем ее вто- вторая производная непрерывна в этой точке. Пусть ~х является ста- стационарной точкой задачи (9), причем в этой точке выполнено сфор- сформулированное в теореме 1.2.5 достаточное условие второго порядка оптимальности. Тогда любое начальное приближение х° Е Rn, достаточно близ- близкое к ж", корректно определяет траекторию алгоритма 2, которая сходится к ~х. Скорость сходимости сверхлинейная, а если вторая производная f непрерывна по Липшицу в окрестности точки ж, то квадратичная. В условиях следствия 2 наиболее рациональным способом реше- решения итерационного линейного уравнения A0) является, видимо, ал- алгоритм Холецкого (квадратного корня), который позволяет получить LLT -разложение положительно определенной симметрической мат- матрицы за порядка пл/6 умножений и столько же сложений [12] (L — нижняя треугольная матрица с положительными диагональными эле™ ментами). Такую процедуру можно снабдить дополнительным меха- механизмом с тем, чтобы в случае нарушения положительной определен- определенности текущей матрицы f"{xk) она автоматически заменялась поло- положительно определенной матрицей (например, вида fff(xk)^rjEn при достаточно большом j > 0; см. [6, 13, 16, 40, 48]), что важно с точки зрения глобализации сходимости метода (см. п. 3.2.3 и § 5.1). Кроме того, без указанной модификации следствие 2 полностью сохраняет силу, если вместо достаточного условия оптимальности в стационар- стационарной точке ~х предполагать выполненным лишь более слабое условие det/"(af) ф 0. В этом смысле метод Ньютона «не отличает» локаль- локальные минимумы от других стационарных точек задачи (9). Главное достоинство метода Ньютона — сверхлинейная скорость сходимости. Напомним, что для рассмотренных в § 3.1 градиентных
§3.2. Метод Ньютона. Квазиньютоновские методы 87 методов в лучшем случае можно гарантировать лишь линейную ско- скорость сходимости. Основные же недостатки метода Ньютона следую- следующие. Прежде всего, метод обладает лишь локальной сходимостью в от- отличие, например, от тех же градиентных методов, которые в разум- разумных пред пол ожениях сходятся глобально в том смысле, что любая предельная точка любой траектории такого метода является стацио- стационарной точкой задачи (9). Ясно, что если / — квадратичная функ- функция, т. е. f(x) = (Ах, х) + F, ж), х е Rn, A3) где А Е R(n, п) — симметрическая матрица, Ъ Е Rn, причем мат- матрица А невырождена, то метод Ньютона найдет ее единственную критическую точку из любого начального приближения за один шаг. Однако в неквадратичном случае это уже не так: траектория мето- метода может вообще не иметь стационарные точки задачи в числе своих предельных точек, если она определяется неудачным начальным при- приближением. Следующий пример заимствован из [10]. Пример 1. Рассмотрим функцию х / 3 \ х -—з + A + - )—, если |ж| ^ сг, 4сг \ а / 2 R, f(x) = х _, Зет - — + 2\х —, если \х > где а > 0 — параметр. Нетрудно убедиться, что при любом таком а функция / дважды непрерывно дифференцируема на R, и зада- задача (9) с такой целевой функцией имеет единственную стационарную точку ~х = 0. Более того, f"{x) = 1 + 3/а > 0, т.е. выполнены все условия следствия 2. Возьмем х° = сг; тогда для траектории {ж^}, генерируемой алгоритмом 2, имеем: xk = 2(^l)fc, к = 1, 2, . . ., и ~х не является предельной точкой {ж^}, каким бы малым ни было сг. Вопросы глобализации сходимости методов ньютоновского типа будут обсуждаться в гл. 5. Пока заметим лишь, что для глобализа™ ции может быть полезна приведенная выше оптимизационная трак- трактовка метода, а также введение параметра длины шага, т. е. замена схемы A1) схемой xh+1 = xk- afcCf'V))/V), к = 0, 1, ..., где ctk > 0 может быть отлично от 1. Вдали от решения единич™ ный параметр длины шага, характеризующий чистый метод Ньюто- Ньютона, может не обеспечивать монотонного убывания последовательно- последовательности {f(xk)}J ив этом смысле чистый метод Ньютона не является ме- методом спуска.
88 Гл. 3. Методы безусловной оптимизации Кроме того, на каждой итерации метода Ньютона нужно вычис- вычислять вторую производную целевой функции и решать соответствую- соответствующую линейную систему. В целом итерация метода существенно более трудоемка, чем, например, итерации градиентных методов. Модифи- Модификациям метода, позволяющим в определенном смысле избавиться от этого недостатка и при этом сохранить высокую скорость сходимости, посвящен п. 3.2.3. Задача 5. Из начального приближения х° = A, 1) сделать два шага метода Ньютона для задачи безусловной минимизации функции Проанализировать скорость сходимости. Показать, что в данном случае метод Ньютона сходится глобально. 3.2.3. Квазиньютоновские методы. Целый ряд методов безуслов- безусловной оптимизации может быть записан в виде итерационной схемы x k+1 =xk + akdk dk = -Qkf'(xk akdk, dk = -Qkf'(xk), k = 0, 1, ..., A4) где для каждого к симметрическая матрица Qk Е R,(n, n) поло- положительно определена, а а*. > 0 — параметр длины шага, выби- выбираемый посредством одной из процедур одномерного поиска, опи- описанных в п. 3.1.1 применительно к методам спуска. Заметим, что метод A4) — действительно метод спуска, поскольку если хк не является стационарной точкой задачи (9), то </V), dh) = -(Qkf(xk), f'(xk)) < О, т.е. согласно лемме 3.1.1 dk Е Vf(xk). При Qk = Еп получаем, что схема A4) — один из градиентных методов, а при Qk = {1"{жк))~г и а^ = 1 — метод Ньютона. Алгоритм 3. Выбираем х° Е Rn и полагаем к = 0. Выбираем одно из трех основных правил одномерного поиска из п. 3.1.1 и не- необходимые для реализации этого правила параметры: а > 0 (либо а = +оо) в случае правила одномерной минимизации, а > 0, е, в Е Е @, 1) в случае правила Армихо и сЕ > 0 в случае правила постоян- постоянного параметра. 1. Полагаем dk = —Qkff(xk), где Qk E R(n, n) — симметриче- симметрическая положительно определенная матрица, и вычисляем а& в соот- соответствии с выбранным правилом одномерного поиска по направле- направлению dh (если f'{xk) = 0, то формально полагаем а*. = 1). 2. Полагаем хк+1 = хк + otkdk. 3. Увеличиваем номер шага к на 1 и переходим к п. 1. Квазиньютоновские методы — это методы вида A4), в которых матрицы Qk выбираются таким образом, чтобы они в некотором
§3.2. Метод Ньютона. Квазиньютоновские методы 89 смысле аппроксимировали (/"(af))^1 в искомом решении ~х. А имен- именно, матрицы Qk должны удовлетворять условию A6) из следующей теоремы, называемой теоремой Денниса-Морэ. Теорема 2. Пусть выполнены условия следствия 2. Пусть, кро- кроме того^ траектория {хк} алгоритма 3, использующего правило Ар- михо при а = 1 и ? Е @, 1/2), сходится к ~х. Тогда следующие два утверждения эквивалентны: а) скорость сходимости последовательности {хк} к !с является сверхлинейной, причем а^ = 1 для любого достаточно большого к и \Qkf'(xk)\^M\f'(xk)\ V* = 0,l, ..., A5) где М > 0 — не зависящая от к константа; б) имеет место предельное соотношение (Qk - U"{x))-1)f{xk) = o{\f{xk)\). A6) Доказательство. Предположим сначала, что выполнено а); тогда в силу A4) и равенства а& = 1 для достаточно большого к имеем ((/"СЮ) - Qk)f'(xk) = (Г(х))-гГ(хк) + хк+1 -хк^ = (f"(x))~1(f'(xk) - f'(x) - f"{x){xk - х)) + xk+1 -х = С учетом того, что \Qkf'{xk)\ ^ \хк -х\- \хк+г -х\ = \хк -х\+ о(\хк - х\), последнее соотношение влечет ((fix))-1 - Qk)f(xk) = o(\Qkf'(xk)\), поскольку (I к —1\ /1 к —1\ \Qkf'(xk)\ \хк-х\ + о(\хк-х\) о о{\хк - ж| 1 I п(\тк — "тП /lrfe — "г Остается заметить, что в силу A5) o(\Qkff(xk)\) = o(\ff(xk)\). Пусть теперь выполнено б). Выполнение A5) очевидно. Докажем, что ctj, = 1 при достаточно большом к. В силу классической теоре- теоремы о среднем найдется число tk € [0, 1] такое, что f(xk - Qkf'{xk)) = f(xk) - (f'(xk), Qkf'{xk)) + + \(f"(xk)Qkf(xk),Qkf'{xk)), где xk = xk — ikQkf'ixk)- Достаточно показать, что
90 Гл. 3. Методы безусловной оптимизации </V), Qkf'{xk)) - \ {f"(xk)Qkf'(xk), Qkf'(xk)) > >e(f'(xk),Qkf(xk)). A7) Заметим, что {хк} —> ~х (к —» оо), поскольку {хк} —>- ~х и {Qkf'{xk)} —>• 0 (последнее следует из A5)). Тогда согласно A6) неравенство A7) переписывается в виде \ (f'(xk), i -e) что выполнено при больших к, поскольку е G @, 1/2), а положи- положительная определенность f"{x) влечет положительную определен- определенность (/"(ж)). Докажем, наконец, что скорость сходимости последовательное™ ти {хк} является сверхлинейной. При достаточно больших к из со- соотношений A4), A6) и равенства а& = 1 имеем I «Л» Л/ — IJL JL \cgfa J \"L J\ — \*L/ JL yj yJu j j J yJu J^ I что и требовалось доказать. П Задача 6. Показать, что в условиях теоремы 2 соотношение A6) равносильно условию (Q,1 - f"(x))Qkf'(xk) = o(\Qkf'(xk)\). Задача 7. Доказать аналог теоремы 2 для случая использова- использования правила Голдстейна с начальным пробным значением параметра длины шага а = 1. Заметим, что для самого метода Ньютона, как и для усечен- усеченных методов Ньютона, при наличии сходимости к точке ~х усло- условие A6) выполняется автоматически. Однако основная идея квази- квазиньютоновских методов состоит в том, чтобы полностью заменить вычисление f"{xk) и решение соответствующей линейной системы непосредственной аппроксимацией (/"(af)). Эти аппроксимации должны рекуррентно пересчитываться без использования информа- информации о второй производной /, и, к счастью, такое построение возмож- возможно осуществить, причем многими способами.
§8.2. Метод Ньютона. Квазиньютоновские методы 91 Существует общие схемы построения и исследования квазиньюто- квазиньютоновских методов [13, 16, 31, 33, 40, 44, 48]. Эти схемы должны ли™ бо излагаться полностью, чтобы читатель смог почувствовать, отку- откуда на самом деле берутся квазиньютоновские конструкции и как об- обосновываются их полезные свойства, либо не излагаться вообще. Вви- ду ограниченности объема курса, а также ввиду наличия прекрас- прекрасной специальной литературы по квазиньютоновским методам (в том числе цитированной выше) здесь выбрано второе. В качестве при- примера приведем характерный конечный результат применения таких схем. Исторически первым квазиньютоновским методом является ме- метод Давидона-Флетчера-Пауэлла (ДФП), в котором Qq — произ- произвольная положительно определенная симметрическая матрица (на- (например, Qq = Еп), и для каждого к Wi "Л (rk,sk) (Qksk,s*) ' где rfe = ж^1 - xk, sk = f'(xk+1) - f'(xk). A9) Заметим, что генерируемые по таким формулам матрицы остаются симметрическими. Можно показать, что если / — квадратичная функция вида A3) с положительно определенной матрицей Л, а а к выбирается по пра- правилу одномерной минимизации, то метод ДФП найдет единственную критическую точку функции / (по необходимости являющуюся гло- глобальным решением задачи (9); см. задачу 1.1.11) из любого начально- начального приближения за к ^ п шагов, причем Q-^ = (fff(xk))^1 = Л-1/2 [6, 40]. Результаты о сходимости и скорости сходимости метода ДФП в неквадратичном случае можно найти, например, в [16, 31, 33, 44, 48]. В этом случае ожидать конечности квазиньютоновских мето- методов, разумеется, не приходится, однако, согласно теореме Денниса— Морэ, скорость сходимости (при наличии сходимости) обычно являет- является весьма высокой. Подчеркнем, что на практике в неквадратичном случае парамет- параметры длины шага в квазиньютоновских методах часто определяют с по- помощью правила Вулфа, в частности, потому, что, согласно следую- следующему предложению, это правило гарантирует положительную опреде- определенность генерируемых матриц Qk, как и более трудоемкое правило одномерной минимизации (а вот, скажем, правило Армихо или прави- правило Голдстейна этим свойством не обладает). Предложение 1. Пусть функция /: Rn —>> R дифференцируе- дифференцируема в точке xk E Rn, причем ff(xk) ф 0. Пусть Qk E R(n, n) — симметрическая положительно определенная матрица.
92 Гл. 3. Методы безусловной оптимизации Тогда формулы A4), A8), A9), в которых параметр длины ша- шага Q,k > 0 выбран так, что выполнено неравенство </V+1), dk) > </V), dk), B0) корректно определяют матрицу Q^^ij которая является положи- положительно определеной. Доказательство. Согласно A4), A9) и B0) (г*, sk) = ak(dk, f'(xk+1) - f'(xk)) > 0. B1) В частности, sk ф 0, и (Qksk^ sk) > 0 в силу положительной опре- определенности матрицы Qkj поэтому матрица Qk+i корректно опре- определена. Для произвольного ? Е Rn имеем т с с\ /п с с\ . (rk> О2 A2 (г*, О2 , \QTi\2\QTsk\2-(Q\'4,QTskJ >(] поскольку оба слагаемых в правой части неотрицательны в силу B1) и неравенства Коши-Буняковского-Шварца. Более того, равенст- равенство (Qfc+i?, ?) = 0 может иметь место только в том случае, когда оба эти слагаемых нулевые, т. е. (rk, О = 0 B2) Последнее равенство означает, что Qj ? = tQk' sk при некото- некотором числе t, что в силу обратимости матрицы Qk приводит к ра- равенству ? = tsk. Но тогда согласно B2) 0 = (rfe, ?) = t(rk, sfe), что в силу B1) возможно лишь при t = 0, т.е. при ? = 0. ? Наиболее эффективным из известных квазиньютоновских методов общего назначения принято считать метод Бройдена-Флетчера-Голд- фарба-Шэнно (БФГШ), в котором для каждого к B3) Qk+i = Як н {rk-Qksk,sk)rk(rk)T где гк и sfe те же, что и в методе ДФП. Задача 8. Показать, что методы ДФП и БФГШ являются «взаимодвойственными» в следующем смысле. Для произвольной симметрической положительно определенной матрицы Q^ E R(n, n)
§3.3. Методы сопряженных направлений 93 положим Hk = Q^ . Пусть матрица Qk+i сгенерирована по фор- формуле B3), а матрица Hk+i — по формуле нк+1 = нк+ р-^ - __J_S_ (ср. с A8)), причем матрица //&+! невырождена. Тогда матри- матрица Qfc+i невырождена, причем //fc+i = Q^~+1- Вывести отсюда аналог предложения 1 для метода БФГШ. Отметим одно важное обстоятельство. При использовании негра™ диентных методов спуска вида A4) обычно рекомендуют время от времени делать градиентные шаги, полагая Qk = Еп на некоторых итерациях с бесконечно возрастающими номерами к. Оказывается, что такие «встроенные» градиентные шаги обеспечивают глобальную сходимость (в некотором смысле) неградиентного в целом метода [6]. Глобальная сходимость алгоритма 3 без встроенных шагов будет уста- установлена в § 5.1 в некоторых дополнительных предположениях относи- относительно последовательности матриц {Qk}- Применительно к задачам безусловной оптимизации квадратичных функций квазиньютоновские методы оказываются тесно связанными с методами сопряженных направлений, рассматриваемыми в § 3.3. Напомним также, что для квадратичных функций выбор параметра длины шага по правилу одномерной минимизации сводится к вычисле- нию по явной формуле; см. п. 3.1.1. Квазиньютоновские методы чрезвычайно популярны среди пользо- вателей методов оптимизации в связи с тем, что они сочетают высокую скорость сходимости с невысокой трудоемкостью итерации. Практи- Практическое значение этих методов трудно переоценить, хотя с теоретиче- теоретической точки зрения любой квазиньютоновский метод есть не более чем умная реализация фундаментальной идеи метода Ньютона. § 3.3. Методы сопряженных направлений Здесь рассматривается еще один важный класс методов, которые вводятся не как квазиньютоновские и основаны на других принципах, однако обладают более высокой скоростью сходимости, чем градиент- градиентные методы, причем повышение скорости сходимости не связано с су™ щественным повышением трудоемкости итерации. В частности, прак- практически важные реализации методов этого класса являются метода- методами первого порядка. 3.3.1. Методы сопряженных направлений для квадратичных функций. Изначально методы сопряженных направлений вводятся для задачи безусловной минимизации f(x) -> min, x e Rn, A)
94 Гл. 3. Методы безусловной оптимизации с квадратичной целевой функцией /: Rn -> R, /(ж) = {Ах, х) + (Ь, ж), B) где A Е R(n, n) — положительно определенная симметрическая матрица, 6 € Rn. В основе методов этого класса лежит следующее понятие. Определение 1. Система векторов d°, d1,. . ., dk Е Rn \ {0} называется А-сопряженной, если (Ad\dj) = 0 Vi,j=O,l,...,k, гфз. Ясно, что это понятие обобщает понятие ортогональной системы векторов (последнее отвечает случаю А = Еп). Лемма 1. Для произвольной положительно определенной сим- симметрической матрицы А Е R(n, n) любая А -сопряженная система векторов линейно независима. Доказательство. Предположим, что один из векторов Л-со- пряженной системы d°, d1,. . ., dk линейно выражается через другие, например, при некоторых числах /3^, г = 1,. . ., к. Умножая скалярно обе части этого равенства на Ad®, получим к 0 < (Ad°, d°) = J2^i(Ad^ di) = °5 г=1 что невозможно. ? Из доказанной леммы, в частности, следует, что число векторов в Л-сопряженной системе в Rn не может превышать п. Общая схема методов сопряженных направлений для функции вида B) выглядит так: = х к . akdk, fc = 0, 1,. . . ,ra - 1, C) где d°, d1,. . ., cP™1 — генерируемая тем или иным способом Л-со- Л-сопряженная система векторов, а числовые параметры длины шага а к выбираются из условия т. е. Минимум в D) берется по всем а Е R, а не только по а ^ 0, поскольку dk вовсе не обязательно является направлением убывания
§3.3. Методы сопряженных направлений 95 функции / в точке хк. Более того, векторы dk и —dk могут оба не быть направлениями убывания, т. е. методы сопряженных направле- ний не являются, вообще говоря, методами спуска; в их основе лежит другой принцип. Разумеется, суть любого метода сопряженных направлений со- составляет конкретный способ построения А -сопряженной системы. Тем не менее каким бы ни был этот способ, имеет место следую- следующий фундаментальный факт: любой метод сопряженных направле- направлений позволяет найти решение задачи безусловной минимизации квад- ратичной функции вида B) с положительно определенной матрицей А не более чем за п шагов из любого начального приближения. Теорема 1. Пусть А Е R(n, n) — положительно определен- определенная симметрическая матрица, b E Rn, функция /: Rn —> R име- имеет вид B). Тогда, каким бы ни было начальное приближение ж0 € Rn, точ- точка жп, получаемая по схеме C), D) при любом выборе А-сопряэюен- ной системы векторов d°, d1,. . ., dn~1, является (глобальным) ре- решением задачи A). Доказательство. В силу положительной определенности мат™ рицы А задача A) имеет единственную стационарную точку ~х Е Rn, характеризующуюся равенством 6 = 0, F) причем эта стационарная точка по необходимости является глобаль- глобальным решением (см. задачу 1.1.11). В силу леммы 1 система векто- векторов d°, d1,. . ., dn^1 является базисом в Rn, поэтому вектор ~х — х° можно представить в виде п-1 x^x° = Y,Pkdk G) k=o при некоторых числах /3^5 & = 0, 1,. . . ,п — 1. С другой стороны, согласно C) имеем где числа а& определены в E). Остается показать, что /3k = ak У к = 0, 1,...,п- 1. Из равенства G) и Л-сопряженности векторов d°, cf1,. . ., dn~1 получаем V^ = 0, 1,. . ., n — 1 n-l (Ax, dk) = {Ax°, dk) + J^ i=0
96 Гл. 3. Методы безусловной оптимизации откуда следует, что _ (Ах^ Ах0, dk) _ BАх° + b, dk) _ (Adk,dk) " 2(Ad\dk) о и = (А(хк~1 где также принято во внимание равенство F). Вновь привлекая C) и А -сопряженность системы d°, d1,. . ., cF1, имеем = (Ахк~1, dk) = ... = (Дж°, dfe), что в совокупности с E) и (8) и дает требуемое утверждение. ? Задача 1. Доказать, что в условиях теоремы 1, каким бы ни было начальное приближение х° Е Rn, для произвольного к = О, 1, . . ., п — 1 точка a?fe+1, получаемая по схеме C), D) при любом выборе Л-сопряженной системы векторов d°5 tf1,. . ., dk ^ является (глобальным) решением задачи /(ж) —>• min, х Е Х^^ где Х^ = ж0 + spanjti0, d1,. . ., dh}. В частности, Оказывается, один из возможных способов построения Л-сопря- женной системы уже был упомянут выше: можно показать, что век™ торы dk = ^Qkf'{xk)i к = 0, 1,. . ., п — 1, где матрицы <5^ генери- генерируются в соответствии с методом ДФП (см. п. 3.2.3), будут обладать нужным свойством [6, 40]. Специфика метода ДФП состоит в том, что он позволяет одновременно с решением рассматриваемой зада- задачи оптимизации находить Л, что может быть весьма полезно. С другой стороны, реализация метода ДФП требует хранения в памя- памяти и пересчета на каждой итерации матрицы Qk E R(n, n), что при больших п может быть дорого. Более экономичная реализация мето- метода сопряженных направлений обсуждается ниже. 3.3.2. Метод сопрмженных градиентов. Важнейшим из методов сопряженных направлений является метод сопряженных градиен- градиентов, в котором d°^-f(x°), dk = -f'(xk) + pk.1dk-\ k = l,...,n-l, (9) а числа fik—i выбираются из условия А -сопряженности системы «соседних» векторов dk~1, dk: 0 = (Ad16-1, dk) = -(Ad16-1, f'{xk)) + Pk-^Ad1*-1, d*), т. e. (Ad*-1, /V))
§3.3. Методы сопряженных направлений 97 Алгоритм 1. Выбираем х° Е Rn и полагаем к = 0. 1. Если ff(xk) = 0, то останавливаемся. 2. Если к ^ 1, то вычисляем /3&_1 по формуле A0). 3. Вычисляем dk по формуле (9). Вычисляем ctk по формуле E). 4. Вычисляем хк+1 по формуле C). 5. Если к < п — 1, то увеличиваем номер шага А; на 1 и перехо- переходим к п. 1. Формула E) для аи подразумевает, что dk ф 0 (а формула A0) для /3k-i — что dk-1 ф 0). Если d° = — ff(x°) = 0, то алгоритм остановился бы еще до этапа определения d° и oq (и тем более /Зо). Предположим, что для какого-то А; ^ 1 впервые реализовалось ра- равенство dk = 0 (в частности, dk~1 / 0). Тогда в силу (9) 0 = (f'(xk), dk) = -\f'(xk)\2 + 0k_1(f'(xk), dk~l) = -\f'(xk)\2, где последнее равенство следует из того, что согласно определению величинв! а&_1 (f'(xk),dk-1)=0 A1) (см. C.1.5)). Таким образом, ff(xk) = 0, и алгоритм остановился бы еще до этапа определения dk и а^ (и тем более /3k)- Следующая теорема показывает, что предложенный алгоритм действительно является методом сопряженных направлений. Теорема 2. Пусть выполнены условия теоремы 1. Тогда, каким бы ни было начальное приближение х° Е Rn, ес- если для произвольного к = 1, ...,п алгоритм 1 сгенерировал век- векторы <i°, d1,. . . ,dfc~1, wo они образуют А-сопряженную систему\ а градиенты /;(ж°), /'(ж1),. . ., ff(xk^1) — ортогональную систему в Rn. Доказательство. Сразу заметим, что в силу сказанного вы- выше, если алгоритм сгенерировал векторы d°, d1,. . ., dk-1, то все они отличны от нуля, как и градиенты /;(ж°), /'(ж1),. . ., $'{хк~г). Доказательство проведем индукцией по к. При к = 1 утвержде- утверждение теоремы очевидно, поскольку система d°, d1 является Л-сопря™ женной по построению, а векторы /;(ж°) = d° и /'(ж1) ортогональ- ортогональны в силу A1). Пусть утверждение теоремы верно при к = s ^ 2; нуж:но дока- доказать, что {Ads,dl)=Q, </V),/V)>=0 V» = 0, l,...,e-l. A2) В силу (9), предположения индукции и утверждения из задачи 1 (f(xs), /V)> = (f(xs), -dl + Pi-id'-1) =0 Vi = 0, 1,..., в - 1, что доказывает второе равенство в A2). Далее, при г = s — 1 первое равенство в A2) верно по построению. При произвольном г = 0, 1,. . ., s — 2 в силу (9) и предположения 4 А.Ф. Измаилов, М.В. Солодов
98 Гл. 3. Методы безусловной оптимизации индукции имеем (Ada, dl) = -{Af'(xs), d*> + p.-tiAd-1, dl) = -(Af'(xs), dl). A3) Но согласно C) f'(xi+1) - /'(x*) = 2A(xi+1 - xl) = 2atAd\ поэтому {Af'(xs), <f) = ^ (f'{x>), f'(xi+1) - Г(х')) = 0 в силу уже доказанного второго равенства в A2). Вместе с A3) это завершает доказательство первого равенства в A2). ? Согласно доказанной теореме и теореме 1 метод сопряженных гра- градиентов находит решение задачи безусловной минимизации квадра- квадратичной функции вида B) с положительно определенной матрицей А из любого начального приближения не более чем за п шагов. При попытке применения метода сопряженных градиентов в не- неквадратичном случае первая проблема состоит в том, что в форму™ лу A0) для /3 k—i явно входит матрица А. К счастью, эта пробле- проблема чисто техническая. Например, формулу A0) можно переписать в виде _ {f"(xk)dk-\ /V)) Рк~1~ (f"{xk)dk-\ d*-1) ' однако вычисления f"{xk) желательно избежать. Задача 2. Показать, что формула A0) может быть переписана в виде I/V)!2 ИЛИ Pk-1 = , w, fc^l4,2 В неквадратичном случае приведенные формулы для /3k-i Да™ ют, вообще говоря, различные значения, а генерируемые векторы dk не образуют А-сопряженную систему относительно какой-либо мат- матрицы А. Ожидать конечности метода сопряженных градиентов при этом, разумеется, не приходится, однако можно ожидать, что ско- скорость сходимости (при наличии сходимости) останется высокой, по- поскольку локально гладкая функция хорошо аппроксимируется квад- квадратичной частью своего ряда Тейлора. Вычислительная практика свидетельствует о том, что предпочти- предпочтительно пользоваться первой формулой из задачи 2; объяснение это- этому см. в [6, 40, 48]. В литературе можно найти и другие формулы для Pk-i-
§3.4- Методы нулевого порядка 99 Напомним также, что в силу (9) и A1) если f'{xk) ф О, и в этом случае dk G Vf(xk) согласно лемме 3.1.1. Поэтому молено брать минимум в D) только по а ^ 0 и считать, что a,k > 0; с этими оговорками метод сопряженных градиентов являет- является методом спуска. В неквадратичном случае точная одномерная ми™ нимизация обычно невозможна, и ее часто заменяют менее трудоем- трудоемкими правилами одномерного поиска, например правилом Вулфа [48]. Для улучшения глобального поведения метода рекомендуется исполь- зовать «встроенные» градиентные шаги (см. п. 3.2.3). Результаты о сходимости и скорости сходимости метода сопря- сопряженных градиентов в неквадратичном случае имеются в [10, 23, 31, 33, 48]. В силу указанных выше причин в настоящее время квазиньюто- квазиньютоновские методы и метод сопряженных градиентов являются наиболее популярными алгоритмами решения гладких задач безусловной опти- оптимизации. Детальный сравнительный анализ этих методов можно най- найти в [6, 33, 40]. Задача 3. Решить методом сопряженных градиентов задачу безусловной минимизации функции /: R2 ->> R, f(x) = х\ + 2х\, используя начальное приближение х° = A, 1). § 3.4. Методы нулевого порядка Этот короткий параграф не содержит никаких теорем, поскольку его материал лежит несколько в стороне от основного круга вопросов, обсуждаемых в данном курсе. С другой стороны, практическая зна- значимость методов нулевого порядка не позволяет опустить этот мате- материал полностью. Компромиссным решением является краткий обзор, который и приводится ниже. Пусть /: Жп —>• R — заданная функция. Реализация методов ре- решения задачи безусловной минимизации f(x) -> min, x e Rn, A) о которых шла речь выше, требует вычисления первых или даже вторых производных целевой функции задачи. Однако на практи- практике такие вычисления часто оказываются слишком трудоемкими ли- либо их принципиально невозможно осуществить точно по причине от- отсутствия явных выражений не только для производных, но и для са- самой функции. Иногда самое большее, на что можно рассчитывать, это умение вычислять значение целевой функции задачи в заданной
100 Гл. 3. Методы безусловной оптимизации точке (например, так обстоит дело, если значение получается в ре- результате эксперимента, параметры которого определяются аргумен- аргументом целевой функции). В таких ситуациях речь может идти либо об аппроксимации производных по информации о значениях функции, либо о построении совершенно иных методов оптимизации, не связан- связанных с вычислением производных (такие методы иногда называют ме- методами прямого поиска). Принципиально иные трудности связаны с тем, что целевая функ- ция может просто не иметь производных, и тогда обсуждавшиеся вы- выше методы также неприменимы, не говоря уже об их теоретическом обосновании. Один из подходов к решению негладких задач обсужда- ется в конце этого параграфа. Подчеркнем, что данная проблематика связана с преодолением принципиальных трудностей, особенно когда негладкость не сопровождается наличием какой-либо дополнительной структуры, такой, как выпуклость. Методы негладкой выпуклой оп- оптимизации значительно более развиты; им посвящена гл. 6. Каждому из рассматривавшихся выше методов первого и второ- второго порядков можно поставить в соответствие целый ряд методов ну- нулевого порядка, если заменить производные их конечно-разностными аппроксимациями. Например, для приближенного вычисления гради- градиента функции / в точке xk Е Rn можно использовать разделенные разности вперед: (Г) s dXj(X > ~ gi tk либо центральные разделенные разности: - l, ..., n, где tfe > 0 — малое число, a e1, . . ., en — стандартный базис в Rn. Аппроксимация центральными разностями существенно точнее, одна- однако она требует почти вдвое больше вычислений значений функции /. Например, конечно-разностный аналог градиентного метода зада- задается схемой xk+i = xk-akgk, k = 0,1,..., B) где векторы gk E Rn вычисляются одним из указанных выше спосо- способов, а параметры длины шага otk определяют в соответствии с одним из правил одномерного поиска по направлению ^gk (см. п. 3.1.1). Интересно отметить, что обоснование разумного поведения такого ме- метода вряд ли возможно без предположений о гладкости функции /, хотя сам метод не использует ее производных. Пример 1. Для функции /: R2 —>> R, /(ж) = max{|xi|, |ж2|},
§3.4- Методы нулевого порядка 101 в точке х = (—1, — 1) вектор g , вычисленный с помощью раз- разделенных разностей вперед, будет нулевым, и соответствующий конечно-разностный аналог градиентного метода «застрянет» в точ- точке хк, тогда как единственным безусловным локальным минимумом этой функции является ее глобальный минимум 0. Впрочем, это не удивительно: обсуждаемый метод основан на ап- аппроксимации градиентного метода, поэтому обоснования его разум- разумных свойств естественно ожидать лишь при корректности самого объекта аппроксимации. Наиболее очевидным методом, не связанным с (точным или при- приближенным) вычислением производных, является метод покоорди- покоординатного спуска, задаваемый схемой xk+x = xk + akdk, ife = 0, 1, ..., C) где d° = e\ ..., dn~1 = en, dn = e\ ..., d2" = en, ... Числовые параметры длины шага а& могут выбираться с помо- помощью одномерной минимизации, т. е. из условия f(xk + akdk) = mln f(xk + adk); минимум берется по всем а ? R, поскольку dk может не быть на- направлением убывания функции / в точке хк. Тогда итерация ме- метода состоит в решении одномерной задачи минимизации функции / по одной координате при фиксированных остальных; координаты, по которым производится минимизация, циклически меняются. В методе покоординатного спуска могут использоваться и другие способы выбора параметров длины шага. Например, перед началом процесса фиксируют числа а > 0 и ^ G @, 1) и полагают а = а. На каждом шаге проверяют выполнение неравенства f(xk + adk) < f(xk); если оно выполнено, то полагают а к = а. В противном случае прове- проверяют выполнение неравенства f(xk-adk)<f(xk); если оно выполнено, то полагают о^ = —а. Если и это неравенство не выполнено, то либо полагают а^ = 0 (это имеет смысл делать не более чем на п последовательных шагах), либо заменяют а на 9а и повторяют всю процедуру для данного шага. Теоремы о сходимости различных вариантов метода покоординат- покоординатного спуска для выпуклых функций можно найти в [4, 10, 23]. Ин- Интересно, что и здесь, несмотря на то, что метод никак не связан с вычислением производных, гарантировать его «разумное» поведение
102 Гл. 3. Методы безусловной оптимизации можно лишь для гладких функций; см. пример 1 выше. Кроме то- того, без требования выпуклости доказать глобальную сходимость ме- метода покоординатного спуска не удается: предельные точки траекто- рии метода могут не быть стационарными в задаче A); см. [48]. Метод покоординатного спуска легко распространить на задачу условной минимизации, допустимое множество которой является па- параллелепипедом. В методе случайного покоординатного спуска в качестве dk в C) берется eJ, где j есть реализация случайной величины, принимаю- принимающей значения 1, . . ., п с равными вероятностями. В методе случай- случайного поиска в качестве dk берется реализация случайного вектора, равномерно распределенного на единичной сфере в Rn. Парамет- Параметры длины шага выбираются с помощью тех или иных процедур од- одномерного поиска, обеспечивающих по крайней мере монотонное не- невозрастание последовательности {/(ж )}. Для методов такого типа характерны утверждения о сходимости с вероятностью 1; см. [23]. Наконец, обратимся к случаю, когда функция / не предпола- предполагается гладкой. Чрезвычайно важным (и даже решающим) при ра- работе с невыпуклыми негладкими задачами является следующее об- обстоятельство: если функция непрерывна по Липшицу в некоторой окрестности каждой точки в Rn, то она дифференцируема почти всюду на Rn в смысле меры Лебега (см. п. 4.5.2). Поэтому можно ожидать, что функция / будет дифференцируема в точке ж^, слу- случайно выбранной, например, в кубе со стороной 4 > 0 с центром в текущем приближении хк. Это соображение приводит к стоха- стохастическому конечно-разностному аналогу градиентного метода, за- задаваемому схемой B), в которой сг . — - i — 1 ri S,- tk , j - l, .. ., n, где tk > 0. При определенном согласовании параметров о^, 5k и tk можно установить сходимость такого метода к множеству стационар- стационарных точек задачи A) с вероятностью 1; см. [27] (правда, в силу от- отсутствия требований гладкости это предполагает уточнение самого понятия стационарной точки). Задача 1. Из начального приближения ж0 = 0 сделать для за- задачи безусловной минимизации функции /: R2 —>• R, f(x) = ж2 + 2ж]_Ж2 + Зж2 + 4жх, два шага метода покоординатного спуска с выбором парметров длины шага с помощью одномерной минимизации. Задача 2. То же задание для функции /: R2 -> R, /(ж) = 2ж2 - хгх2 + ж2, и начального приближения ж0 = B, 0).
Глава 4 МЕТОДЫ УСЛОВНОЙ ОПТИМИЗАЦИИ Эта глава занимает в курсе центральное место. Материал осталь- остальных глав в значительной степени является подготовительным, вспо- вспомогательным либо дополнительным по отношению к материалу этой главы. § 4.1. Методы решеним задач с простыми ограничениями Изложение методов условной оптимизации начнем с рассмотрения задачи с прямым ограничением f(x) -> mm, х ? Р, A) где Р С Нп — множество «простой структуры» (во всяком случае замкнутое и выпуклое), а /: Жп —> R — гладкая функция. Обычно такие задачи возникают как вспомогательные при реализации мето- методов решения задач с более сложными ограничениями. Напомним, что в сделанных предположениях для всякой точки х € Rn существу- существует единственная проекция ттр(х) на Р (см. следствие 1.1.2 и зада- задачу 1.1.6). Напомним также, что точка жЕР является стационарной в задаче A) в смысле определения 1.2.2 в том и только том случае, когда (f'{x),x-x)^0 УжеР, B) или, что то же самое, TTP(x-tf'(x)) = х C) для некоторого t > 0, причем выполнение этого условия для какого- то t > 0 влечет его выполнение для любого t > 0 (см. предложе- предложение 1.2.1, следствие 1.2.1 и задачу 1.2.4). 4.1.1. Методы проекции градиента. Методы проекции градиента могут рассматриваться как результат соединения идеи градиентных методов безусловной оптимизации с проектированием генерируемых приближений на допустимое множество условной задачи. В результа- результате приходим к схеме xk+1^irP(xk-akf'(xk)), * = 0, 1, ..., D)
104 Гл. 4- Методы условной оптимизации где х° ? Р , а для выбора параметров длины шага о^ > 0 использу- используются процедуры одномерного поиска, являющиеся обобщением соот- соответствующих процедур для методов спуска из п. 3.1.1. Одномерный поиск выполняется для функции <рк: R+ ->> R, <рк{а) = f(xk(a)), где Например, может использоваться правило одномерной минимиза- минимизации, когда a,k ищется как решение одномерной задачи (fik((%) —> mm, a G R+, либо где а > 0 — параметр. Однако ввиду высокой трудоемкости этого правила его редко применяют на практике. Значительно чаще применяется правило Армихо, которое реализу- реализуется по той же схеме, что и в п. 3.1.1, только вместо C.1.6) использует неравенство f(xk(a)) < f(xk) + e(f'(xk), x\a) - хк). E) Напомним, что перед началом процесса должны быть выбраны параметр е G @, 1), начальное значение для дробления а > 0 и параметр дробления в G @, 1). Применяют также различные мо- модификации правила Армихо (например, аналоги правила Голдстейна) и правило постоянного параметра, когда полагают ак = ~oi при фик- фиксированном (не зависящем от к) числе ~Ш > 0. Алгоритм 1. Выбираем z° G Р и полагаем к = 0. Выбираем одно из трех правил одномерного поиска и необходимые для реали- реализации этого правила параметры: а. > 0 (либо а = +оо) в случае правила одномерной минимизации, а > 0, е, в Е @, 1) в случае правила Армихо и ~а > 0 в случае правила постоянного параметра. 1. Вычисляем ctk в соответствии с выбранным правилом одномер- одномерного поиска. 2. Вычисляем хк+1 по формуле D). 3. Увеличиваем номер шага к на 1 и переходим к п. 1. Заметим, что если для некоторого к точка хк оказывается ста- стационарной в задаче A), то хк = хк^г = . . ., как бы ни выбирался параметр длины шага а^- Заметим также, что в случае, когда Р = = Rn, методы проекции градиента с указанными выше способами выбора otk превращаются в соответствующие градиентные методы. Свойства сходимости методов проекции градиента во многом анало- аналогичны свойствам градиентных методов. Ограничимся двумя резуль- результатами, обобщающими теоремы 3.1.1 и 3.1.4 соответственно.
§4-1- Методы решения задач с простыми ограничениями 105 Важную роль в предлагаемом анализе будет играть следующее не- неравенство: (f'(xk), хк{а)-хк) <: -- \хк(а)-хк\2 Va > 0. F) Оно получается прямой выкладкой: V а > 0 имеем (fix1"), хк(а) ^хк} = ^ (хк + af(xk) - хк, хк(а) - хк) = = - (хк - хк{а), хк(а) - хк) + - (хк{а) - (хк - af'(xk)), где использован результат задачи 1.1.7. Лемма 1. Пусть множество Р С Rn замкнуто и выпукло, функция /: Rn —>> R дифференцируема на Rn, а ее производная не- непрерывна по Липшицу на Rn с константой L > 0. Тогда для произвольного xk E Rn неравенство E) имеет место для любого а Е (O,cF], г^е ^=^>0. G) Доказательство. Из леммы 3.1.4, неравенства F) и форму- формулы G) для любого а Е @, ск] получаем /(xfc(a)) - /(^) ^ (f (xfe), ^(a) -**> + ! Из доказанной леммы следует, что в ее условиях, которые предпо- предполагаются выполненными в обеих приводимых ниже теоремах, количе- количество дроблений в правиле Армихо будет конечным равномерно по /г, т. е. ак S* а > 0, (8) где а, — не зависящая от к константа. Кроме того, использование правила постоянного параметра при а < | (9) равносильно использованию правила Армихо при S = а и достаточ- достаточно малом ?>0 и поэтому не требует отдельного рассмотрения. Теорема 1. Пусть множество Р С Rn замкнуто и выпукло^ а функция /: Rn —> R дифференцируема на Rn, и ее производная непрерывна по Липшицу на Rn с константой L > 0.
106 Гл. 4- Методы условной оптимизации Тогда любам предельная точка любой траектории {хк} алгорит- алгоритма 1 является стационарной точкой задачи A). Если предельная точка существует или если функция f ограничена снизу на Р, то для любой ограниченной последовательности {tk} С R+ 7тР(хк -tkff(xk)) -хк\ ^0 (Jfc-»oo). A0) Доказательство. Пусть используется правило Армихо; тогда в силу F) для любого к имеем f(xk) - f{xk+1) > -e(f'(x% xk+1 - xk) > ^-^\хк+1-хк\2^^\хк+1-хк\2. A1) Если ни для какого к точка хк не является стационарной в зада™ че A), то \хк+г - хк\ = \жР(хк - akf'(xk)) - хк\ > 0, поскольку ak > 0. Поэтому из A1) вытекает монотонное убывание последовательности {f(xk)}. Пусть последовательность {хк} име- имеет предельную точку ~х G Rn; тогда из монотонного убывания по- последовательности {/(ж^)} следует ее ограниченность снизу (вели- (величиной /(af)), а значит, и сходимость (если функция / предполага- предполагается ограниченной снизу на R/1, то это верно и при отсутствии у последовательности {хк} предельной точки). Таким образом, левая часть A1) стремится к нулю при к —>> оо, поэтому хк+1-хк\^0 (А;-юо). A2) Пусть последовательность {tk} С R+ ограничена сверху чис- числом t; тогда из результата задачи 1.1.9 и соотношений (8) и A2) выводим \xk(tk) - хк\ < maxf 1, —} \хк(ак) - хк\ < ^ max 11, 4 1 \xk+1 - хк\ -> 0 (Л ^ оо), а это и есть A0). Выберем сходящуюся к ~х подпоследовательность {xkj} последо- последовательности {хк}; тогда из соотношения A0) при tk = t Vic, где t > 0 — произвольное число, и из непрерывности оператора проек- проектирования (см. задачу 1.1.8) вытекает равенство C), что и означает стационарность точки ~х. Случай использования правила одномерной минимизации сводит- сводится к доказанному так же, как и в теореме 3.1.1. ? Обозначим множество стационарных точек задачи A) через Sq.
§4-1- Методы решения задач с простыми ограничениями 107 Задача 1. Пусть в дополнение к условиям теоремы 2 множе- множество Lf^p(f(x0)) ограничено. Доказать, что при этом distfa*, So П Lfi р(/(ж0))) ^ 0 (к -+ то) (ср. с задачей 3.1.3). Теперь предположим дополнительно, что выполнено условие от- отделимости критических поверхностей уровня, которое формулирует™ ся точно так же, как в п. 3.1.2 (с учетом нового определения множе- множества So), и оценка расстояния \ттр(х - ff(x)) -х\^ 7<"st(a;, 50) Ух е U, A3) где U = {xe Шп\ \ттР(х - f(x)) ^x\< 5}, A4) а 6 > 0 и 7 > 0 ~~ некоторые константы. В случае Р = Rn ука- указанные два условия обсуждались в п. 3.1.2. Не вдаваясь в детали, от- отметим, что оба они выполнены, если, например, / — квадратичная либо сильно выпуклая функция, Р — полиэдр и S® ф 0 (ср. с зада- задачей 3.1.8). Теорема 2. Пусть в дополнение к условиям теоремы 1 значе- значение задачи A) конечно и выполнено A3) при множестве 17, задан- заданном в A4), 11 некоторых S > 0 и j > 0. Пусть^ кроме того, выпол- выполнено условие отделимости критических поверхностей уровня. Тогда любая траектория {xk} алгоритма 1 сходится к некото- некоторой стационарной точке задачи A). Скорость сходимости по функ- функции линейная, а по аргументу геометрическая. Доказательство этой теоремы получается несложной модифика- модификацией доказательства теоремы 3.1.4. Нужно только принять во внима- внимание используемое здесь понятие стационарности, а также результаты задач 1.1.9 и 1.2.4. Задача 2. Доказать теорему 2. Количественно более точные (и даже в определенном смысле не- улучшаемые) оценки скорости сходимости методов проекции гради- градиента в дополнительных предположениях о выпуклости функции / на Р можно найти в [10, 23, 36]. Каждая итерация любого метода проекции градиента требует вы- вычисления проекций определенных точек на множество Р (возможно, неоднократного — в зависимости от используемой процедуры одно- одномерного поиска). Поэтому метод может быть эффективен лишь в тех случаях, когда проектирование выполняется легко, что определяет- определяется простотой устройства множества Р. Действительно эффективные алгоритмы на основе методов проекции градиента и их обобщений по-
108 Гл. 4- Методы условной оптимизации лучены для задач оптимизации с линейными ограничениями, т. е. ко- когда Р — полиэдр; см. [6, 26]. Заметим что в этом случае вычисление проекции сводится к решению задачи квадратичного программирова- программирования; см. § 7.3. Задача 3. Получить следующие формулы для проекций: а) если Р = ~В(х, 5), где х ? Rn, 5 > 0, то У у G W1 ПР[У) ~\ х если У е Р^ х- у)/\х - 2/|, если у еЖп\Р; б) если Р = R+5 то У у G Rn (тгP(y))j = max {0, 2/j}, j = 1,. . ., n; в) если Р = {х G Rn| Xj G [а^, 6j], j = 1,..., n}, где aj и 6j — заданные числа, aj ^ bj, j = 1,. . ., n, то V|/ G Rn {aj, если г/j < aj, t/j, если ^ ^ i/j ^ 6i? j = 1,. . ., щ bj, если yj > bj, г) если F = {x G Rn| (а, ж) = 6}, где a G Rn \ {0}, 6 G R, то V|/eRn vrpB/) = 2/ + F- (a, i2 a д) если Р = {х Е Rn| (а, х) ^ &}, где а € Rn \ {0}, 6 G R, то V2/GRn тгр(^) = У + min{0, 6 - (а, 2/)} рз 5 е) если Р = {х G Rn Лж = 6}, где Л G R(/, n), b G R1, причем rank Л = I, то V2/ G Rn Чтобы избавиться от необходимости многократного проектирова- проектирования точек на множество Р на каждой итерации метода, иногда вме- вместо схемы D) рассматривают схему xk+l = A - ак)хк + аккР(хк - tkf'(xk)), к = 0, 1, ..., где параметры tk > 0 выбираются более-менее произвольно, а оц« определяется согласно правилу одномерной минимизации либо пра- правилу Армихо при а = 1. Разумеется, в этих правилах одномерного поиска нужно переопределить xk(cx), положив для каждого а ^ 0 хк(а) = A - а)хк + аттР(хк - tkf{xk)).
§4-1- Методы решения задач с простыми ограничениями 109 Можно показать, что если последовательность {tk} отделена от нуля, то так построенные методы обладают глобальной сходимостью в смысле теоремы 1. Вместе с тем линейную скорость локальной схо- димости для них установить не удается, по крайней мере в обычных предположениях. Теоретическое значение методов проекции градиента определяет- определяется главным образом тем фактом, что многие другие методы, генери- генерирующие допустимые траектории, вдоль которых соблюдается свойст- свойство монотонного невозрастания значений целевой функции, могут ин- интерпретироваться как возмущения или модификации соответствую™ щих методов проекции градиента. Задача 4. Из начального приближения ж0 = C, 1) для задачи xi - х2 -> min, х Е D = {х Е R2| 1 ^ хг ^ 3, 1 ^ х2 ^ 2}, сделать два шага метода проекции градиента, использующего прави- правило постоянного параметра. 4.1.2. Возможные направления и методы спуска. Оставшаяся часть этого параграфа посвящена изложению общей схемы и неко- некоторых конкретных примеров методов, получаемых распространением идей методов спуска, рассмотренных в § 3.1, на задачи условной опти- оптимизации. Для таких задач наряду с понятием направления убывания целевой функции используется понятие возможного направления. Определение 2. Вектор d Е Шп называется возможным на- направлением относительно множества D С Rn в точке х Е D, если для любого достаточно малого t > 0 выполняется х + td G D. Множество всех возможных относительно множества D в точ- точке х Е D направлений является конусом и обозначается Td{x). Та- Таким образом, d G J~d{x) в том и только том случае, когда любой до- достаточно малый сдвиг из точки х в направлении d не выводит из множества D; в частности, всегда 0 G J~d(x). Следующие две леммы дают очевидные признаки возможности данного направления. Лемма 2. Пусть множество D С Нта замкнуто и выпукло. Тогда Лемма 3. Пусть D = {x ERn| G(x) ^0}, где отображение G: Rn —> Rm дифференцируемо в точке х G D. Тогда: а) для любого d E J~d{x) выполнено (^(ж),с!) ^0 Vг Е 1(х);
110 Гл. 4- Методы условной оптимизации б) если d G Rn удовлетворяет условию (g^(#),d) < 0 Vi G /(ж), mo d G J~d(x). Здесь, как и всюду ранее, gi(*) — компоненты отображения G, г = 1,. . ., т, а /(ж) = {г = 1,. . ., т\ gi{x) = 0} — множество индек- сов активных в точке х ограничений. Задача 5. Показать, что в случае линейных ограничений (т.е. в случае аффинного отображения G) строгие неравенства в утверж- утверждении б) леммы 3 можно заменить нестрогими. Методы спуска вводятся для общей задачи оптимизации f(x) —> min, x G D, A5) допустимое множество D С Rn которой, вообще говоря, не предпо- предполагается ни замкнутым, ни выпуклым, а целевая функция гладкой. К этой группе относятся методы, укладывающиеся в следующую ите- итерационную схему: xk+1 = xk + akdk, dfeGP/(^)nfDD A; = 0,1,..., A6) где x°gD, а параметры длины шага а& > 0 выбираются так, что- чтобы по крайней мере выполнялось f(xk+1) < f(xk), xk+1 e D. A7) Заметим, что поскольку dk E Vf{xk) Г)То(зск), условие A7) будет выполнено при любом достаточно малом а к > 0. Подразумевается, что если Vf(xk) П J-*d(xIc) = 0, то процесс останавливают. Таким образом, происходит «спуск» генерируемых приближений на поверх- поверхности все более низкого уровня целевой функции в пределах допусти- допустимого множества задачи. Конкретный метод спуска характеризуется способом выбора возможных направлений убывания dk, а также ис- используемой процедурой одномерного поиска вдоль этого направления для выбора параметра длины шага ад.. Если D = Rn, то схема A6), A7) совпадает с общей схемой методов спуска для задач безусловной оптимизации, введенной в п. 3.1.1. Если D = Р — замкнутое и выпуклое множество, то второе усло- условие в A7) выполнено Va^ E [0, а&], где a,k = sup a > 0 A8) (если ak = +oo, то второе условие в A7) выполнено Va^ ^ 0). Для выбора ak могут применяться те же процедуры одномерного поиска, что рассматривались в п. 3.1.1, но с учетом дополнительного ограни- ограничения ak ^J Sfc. Процедура существенно упрощается в тех случаях, когда а.к можно явно вычислить либо оценить снизу.
§4-1- Методы решения задач с простыми ограничениями 111 Задача 6. Показать, что если Р = {х епп\ Ах <: 6}, где A G R(ra, п) — матрица со строками ац, г = 1,. . ., га, Ь Е Rm, то У хк Е Р, У dk G Тр{хк) для введенной в A8) величины а^ спра- ведливо следующее: а) если (а^ ^fe) > 0 хотя бы для одного номера г = 1,. . ., га, то -v . 6» — («*, ж ) аи = mm —т—- ; ( ) б) если (di, dfe) ^ О Уг = 1,. . ., га, то S& = +оо. В следующем пункте приводятся два примера реализации методов спуска для условных задач с простыми ограничениями. 4.1.3. Методы условного градиента. Условные методы Ньютона. Будем предполагать, что допустимое множество Р задачи A) не только замкнуто и выпукло, но и ограничено. Методы условного градиента характеризуются следующим способом выбора возможных направлений убывания dk в схеме A6) (в которой D = Р). Для те- текущего приближения хк Е Р решается задача (f'{xk),x-xk}^min, xeP, A9) получаемая линеаризацией целевой функции задачи A) в точке хк с последующим отбрасыванием константы f(xk). Пусть 1Ек G Р — любое решение задачи A9), a Vk = (/'(ж^), ~хк — хк) — ее значение (решение существует в силу теоремы Вейерштрасса). Заметим, что Vk ^ (ff(xk)i хк — хк) = 0, поскольку хк G Р. Если vk = 0, то (f(xk), x-xk) ^ vk =0 Уж СЕР, т.е. точка хк является стационарной в задаче A) (см. B)); в этом случае процесс останавливают. Если же Vk < 0, то, как следует из лемм 3.1.1 и 2, вектор dk = ~хк — хк удовлетворяет условию dk G G Vf{xk) П Тр{хк). Такой вектор dk называют условным антигра- антиградиентом функции / в точке хк относительно множества Р. Легко видеть, что при указанном способе выбора dk величи- величина йд., введенная в A8), равна 1, поэтому организация процедур од™ номерного поиска для выбора параметров длины шага ак не вызыва- вызывает затруднений. Для методов условного градиента имеет место аналог теоремы 1; см. [36, 40]. Более того, в дополнительных предположениях о выпук- выпуклости / на Р удается установить арифметическую скорость сходи- сходимости метода (см. [10, 23, 32, 33]), причем эта оценка оказывается не- улучшаемой в естественных классах задач [32, 40]. Таким образом, скорость сходимости методов условного градиента весьма невысока.
112 Гл. 4- Методы условной оптимизации Кроме того, такие методы имеют практический смысл лишь в тех случаях, когда отыскание решения вспомогательной задачи A9) с ли- линейной целевой функцией не вызывает затруднений. Если Р — поли- полиэдр, то A9) — задача линейного программирования; см. гл. 7. Задача 7. Пусть функция /: Rn —>- R дифференцируема в точ- точке хк Е Р С Rn, ff(xk) ф 0. Получить следующие формулы для ре- решения 1Ек задачи A9): а) если Р = ~В(х, 5), где х G Rn, S > 0, то и f'(xk) хк = х - 5 v J ; б) если Р = {ж G Rn Xj G [flj, 6j], j* = 1,..., n}, где aj и bj — заданные числа, a,j ^ bj, j = 1,. . ., n, то решением служит любая точка ж12 такая, что для j = 1,. . ., п -хк = aj, если ^- (ж12) > 0, ж^ = 6j, если -^- (хк) < 0, (У X j _iu г , 1 6>/ , кх Л j \- j > л> Her.a Несмотря на весьма ограниченную область применения и низкую скорость сходимости методы условного градиента представляют опре- определенный теоретический интерес, поскольку являются простейшей реализацией фундаментальной идеи линеаризации функций, участ- участвующих в постановке оптимизационной задачи. Свою окончательную форму эта идея обретает в рассматриваемых в § 4.2 методах воз- возможных направлений для задач с функциональными ограничения- ограничениями-неравенствами, где линеаризуется не только целевая функция, но и ограничения. Естественным развитием идеи линеаризации является использова™ ние не линейной, а более точной квадратичной аппроксимации целе- целевой функции. В результате приходим к условному методу Ньютона, т. е. к схеме A6), в которой dk = ~хк — хк, где ~хк ищется как решение задачи (ff(xk), x-xk)^c i (fff(xk)(x - хк), х - хк) -* mm, x G Р. B0) Если Р — полиэдр, то B0) — задача квадратичного программиро- программирования; см. § 7.3. В остальных случаях отыскание решения задачи B0) может быть немногим проще, чем исходной задачи A). Если множе- множество Р задается функциональными ограничениями, то их можно ли-
§ 4-2. Методы возможных направлений 113 неаризоватъ в текущей точке х . Однако при этом более эффектив- эффективным оказывается использование другого квадратичного члена в целе- целевой функции соответствующей вспомогательной задачи: для обеспе- обеспечения глобальной сходимости этот член может задаваться любой по- положительно определенной матрицей (вместо fff(xk)) в то время как для обеспечения высокой скорости локальной сходимости этот член должен вбирать в себя информацию о «кривизне» не только целевой функции, но и ограничений задачи. Получаемым на этом пути ме- тодам последовательного квадратичного программирования посвяще- посвящены § 4.4 и § 5.4. Задача 8. Из начального приближения х° = 0 для задачи х\ + 2х\ - Ъх\ + 4ж2 -Л min, x е В@, 2), сделать два шага метода условного градиента с выбором параметров длины шага по правилу одномерной минимизации. § 4.2. Методы возможных направлений На каждой итерации методов условной оптимизации, рассматри- рассматривавшихся в § 4.1, допустимое множество задачи используется как це- целое: в методах проекции градиента на него осуществляется проекти- проектирование, а в методах условного градиента и условных методах Нью- Ньютона ищется глобальное решение вспомогательной оптимизационной задачи с тем же допустимым множеством. Разумеется, возможность такого «глобального видения» ограничивается лишь случаями, когда глобальное устройство допустимого множества является достаточно простым. Для более сложных задач более реалистичным представляется строить методы, использующие вместо глобальной локальную инфор- информацию, доступную в окрестности текущего приближения к решению. Этот подход реализуется, в частности, в методах возможных направ- направлений, как принято называть методы спуска для задачи с функцио- функциональными ограничениями-неравенствами f{x) —> min, x E D, A) D = {x еШп\ G(x) ^0}, B) где функцию /: Rn —>> R и отображение G: Rn —> Rm будем счи- считать гладкими. Об основных идеях таких методов и пойдет речь в этом параграфе. Напомним введенную в п. 4.1.2 общую схему методов спуска для условных задач: хк+г = xk + akdk, dk eVf{xk)nJ:D{xk), A; = 0,1,..., C) где х° G D, а параметры длины шага а^ > 0 выбираются так,
114 Гл. 4- Методы условной оптимизации чтобы по крайней мере выполнялось f(xk+1) < f(xk), xk+1eD. D) Подчеркнем, что если в задаче присутствуют нелинейные огра- ограничения-равенства, то нетривиальность конуса возможных относи- относительно допустимого множества направлений — совершенно нетипич- нетипичное явление, поэтому при рассмотрении методов спуска для задач с функциональными ограничениями обычно обсуждают случай чистых ограничений-неравенств. Эти рассмотрения легко распространяются на случай наличия линейных ограничений-равенств, а также «про- «простых» прямых ограничений. Базовая реализация методов возможных направлений основана на следующем способе выбора dk в схеме C). Для текущего прибли™ жения хк G D решается задача линейного программирования а -> min, (<т, d) e Uk, E) Uk = {u = (ст, d) e R х Rn| {f'{x% d) ^ a, (gfi(xk), d)^aJie /ь -1 ^ dj ^ 1, j = 1, - . . , п}, F) где, как обычно, gi(-) — компоненты отображения G, г = 1,. . ., т, a Ik = 1{хк) = {г = 1, ...,??г| gi(xk) = 0} — множество индексов активных в точке хк ограничений задачи A), B). В определении множества 11к условие нормировки — 1 ^ dj ^ 1, j = 1,. . ., 7i, служит для обеспечения гарантированной разрешимос- разрешимости задачи E), F). Действительно, @, 0) G C/&, т.е. Uk ф 0, и раз™ решимость задачи E), F) немедленно вытекает из следствия 1.1.1. Пусть ик = (crjfe, dk) — любое решение задачи E), F). Очевид- Очевидно, dk ^ 0, поскольку в допустимой точке @, 0) целевая функция задачи E), F) принимает нулевое значение. Если ак = 0, то процесс останавливают. Предложение 1. Пусть функция /: Rn —>- R и отображение G: Rn —>• Rw дифференцируемы в точке хк ? D, где множество D введено в B). Тогда если в точке хк выполнено условие регулярности Мангаса- риана-Фромовица и при некотором dk G Rn точка @, dk) являет- является решением задачи E), F) при Ik = I(xk) , то хк — стационарная точка задачи A), B). Доказательство. Напомним, что условие Мангасариана^Фро- мовица в данном случае состоит в существовании такого вектора h E Е Rn, что (g'i{xk),h)<0 yiel(xk) = lk. G) Если точка @, dk) является решением задачи E), F), то точ- точка @, 0) также является ее решением. Применяя теорему 1.4.3, учи-
§ 4-2. Методы возможных направлений 115 тывая то обстоятельство, что ограничения задачи E), F) удов- удовлетворяют условию линейности, и принимая во внимание утвержде- утверждение из задачи 1.4.3, получаем существование чисел До ^ 0 и рц ^ О, i E Ikj таких, что 1 - До - 51 & = 0, (8) Равенство (8) означает, в частности, что среди чисел До, Дг? * ? Е /jfe, есть положительные. Тогда, умножая левую и правую части равенства (9) скалярно на h и используя G), получаем, что До не может равняться нулю. Разделив левую и правую части (9) на До? приходим к равенству / Vs) + Е ^(^) = о, ieik где ~pi = Дг/До ^ 0, г G /fe, а это и означает стационарность точ- ки ж^ в задаче A), B). ? Предложение 1 может быть доказано и другими способами, напри- например непосредственно через прямые условия оптимальности. Если же (Jk < 0, то, как следует из лемм 3.1.1 и 4.1.3, вектор dk удовлетворяет условию dk Е Vf{xk) Г) То(хк). Собственно гово- говоря, суть вспомогательной задачи E), F) состоит в том, что с умень- уменьшением а вторая компонента d допустимой точки (a, d) этой за- задачи приобретает все более ярко выраженные свойства возможно- возможного направления убывания. В частности, при 1(хк) = 0 выбираемый вектор dk совпадает по направлению с антиградиентом функции / в точке хк. Далее, выбор параметров длины шага а^ посредством процедур одномерного поиска из п. 3.1.1 должен производиться с учетом допол- дополнительного ограничения а^ ^ йд., где а^ > 0 — максимальное чи- число, для которого хк + adk E D У а Е [0, й&]. Это ограничение обеспечивает выполнение второго условия в D). Если множество D выпукло (например, если функции gi выпуклы, г = 1, ...,га), то указанная величина 3^ дается формулой Sk = sup a. а^О: x + adED Но даже при этом й^ удается явно вычислить либо оценить снизу лишь в специальных случаях (см. п. 4.1.2). Если же нет оснований считать D выпуклым, то сколько-нибудь осмысленный выбор пара- параметров длины шага вообще представляет серьезную проблему. Кроме того, даже если считать а^ известным для каждого к и да- даже в очень сильных предположениях, описанные методы возможных
116 Гл. 4- Методы условной оптимизации направлений могут либо вообще не сходиться ни в каком смысле, либо «застревать» вблизи точек, не являющихся стационарными в зада™ че A), B). Соответствующий пример имеется, скажем, в [4]. Дело в том, что при Ik = 1(хк) вспомогательная задача E), F) никак не принимает в расчет ограничения исходной задачи A), B), которые не активны, но «почти» активны в точке хк. Это может приводить к тому, что по выбранному направлению dk величина ак оказывается слишком малой, в то время как существуют возможные направления убывания, по которым можно сделать значительно больший шаг. Идея учета «почти» активных ограничений реализована в мето- методах Зойтендейкщ в которых перед началом процесса фиксируют чи- числа <5q > О и j/ E @, 1) и для каждого к полагают Ik = {i = 1,. . ., т\ gi(xk) ^ -ёк}« Если для решения ик = (dk^ dk) соответствующей задачи E), F) вы- выполняется неравенство ак ^ — <5*а? ? т0 dk принимается в качестве подходящего возможного направления убывания. В противном слу- случае 8k заменяют на i/Sk и повторяют процедуру для данного шага. Для методов Зойтендейка в определенных предположениях уже уда™ ется установить глобальную сходимость ко множеству стационарных точек (см. [10, 23]). Заметим, что как методы проекции градиента, так и методы спуска для условных задач предполагают знание начальной точки ж0, которая допустима. В случае задачи с простым допустимым множеством, т. е. в ситуации § 4.1, отыскание такой точки обычно не составляет труда. В общем же случае применяют специальные методы поиска начальной допустимой точки [23, 40], однако нужно отметить, что этот поиск может быть сравним по сложности с поиском решения исходной за- дачи A), B). Подробнее методы спуска здесь не обсуждаются, поскольку при всей их естественности и важности в идейном плане эти методы вряд ли могут считаться «правильным» подходом к решению задач оптимиза- оптимизации с нелинейными функциональными ограничениями, не говоря уже о том, что эти методы применимы лишь при отсутствии нелинейных ограничений-равенств. Значительно более эффективные и практически востребованные методы общего назначения обсуждаются ниже. § 4.3. Методы решения задач с ограничениями-равенствами В этом параграфе речь пойдет о методах решения задачи f(x) —> min, х Е D, A) D = {xeUn\ F(x) = 0}, B)
§4-3- Методы решения задач с ограничениями-равенствами 117 где /: Rn —> R — гладкая функция, F: Rn —>> R1 — гладкое отоб- отображение. Напомним, что задачу, в которой присутствуют также и ограничения-неравенства, всегда можно привести к виду A), B) за счет введения дополнительных переменных; см. начало § 1.4. По- Поэтому излагаемые здесь методы в принципе применимы и к задачам со смешанными ограничениями. Упомянутый прием может оказаться эффективным, особенно в тех случаях, когда, используя конструкцию метода, удается явно выразить дополнительные переменные через исходные, тем самым избежав искусственного повышения размер- размерности задачи. В частности, этот прием будет использоваться в § 4.7 при распространении на случай смешанных ограничений материа- материала из пп. 4.3.2, 4.3.3 настоящего параграфа. Вместе с тем, как уже отмечалось выше, непосредственный учет ограничений-неравенств часто приводит к лучшим результатам. Ограничимся простым при- примером: система Лагранжа для задачи с ограничениями-равенствами в равной мере описывает как локальные минимумы, так и локальные максимумы, в то время как для системы Каруша^Куна^Таккера это, вообще говоря, не так (из-за условия неотрицательности множителя, отвечающего ограничениям-неравенствам). О методах, специально разработанных для случая смешанных ограничений, речь пойдет в § 4.4-4.6. 4.3.1. Методы решения системы Лагранжа. Стационарные точки задачи A), B) описываются системой Лагранжа L'{x, А) = 0, C) где L: Rn х R1 ->> R, L(x, A) = f{x) + (A, F(x)), — функция Лагранжа. Но C) есть система п -\- I уравнений отно- относительно (ж, А) Е Rn х R , поэтому стационарные точки вместе с соответствующими множителями Лагранжа можно искать, приме- применяя к C) метод Ньютона, рассмотренный в п. 3.2.1: / fe+l \k + l\ _ ( к \к\ ( Т"(™к \к\\ — 1-т1(„к \к\ l _ л i ух , л j — ух , л j — y±j ух , л jj Lj ух , л j, к — и, 1,... Распишем ньютоновскую итерацию, вычисляя явно производные функции Лагранжа. Пусть хк — текущее приближение к искомой стационарной точке "х задачи (9), а Хк ? Ж1 — к отвечающему ~х множителю Лагранжа. Тогда следующее приближение (ж^+1, Afe+1) ищется как решение линейной системы ^4 ОД Xk)(x-xk)^{Ff(xk)f(X-Xk) = -//(^lc)-(F/(xfc))TAfe, D) Ff(xk)(x-xk) = -F(xk) E) относительно (ж, A) G W1 x R1.
118 Гл. 4- Методы условной оптимизации Таким образом, метод Ньютона для системы Лагранжа состоит в следующем. Алгоритм 1. Выбираем (ж0, А0) ? Rn x R1 и полагаем к = 0. 1. Вычисляем (ж^+1, Afc+1) G Rn x R1 как решение систе- мы D), E). 2. Увеличиваем номер шага к на 1 и переходим к п. 1. Теорема 1. Пусть функция /: Rn —>> R и отображение F: Жп —>- R1 дважды дифференцируемы в некоторой окрестности точ- точки ~х ? Rn, причем их вторые производные непрерывны в этой точ- точке. Пусть в точке ~х выполнено условие регулярности ограничений, причем ж — стационарная точка задачи A), B), a AeR1 — од- однозначно отвечающий ей множитель Лагранжа. Пусть, наконец, в точке ж выполнено сформулированное в теореме 1.3.7 достаточное условие второго порядка оптимальности. Тогда любое начальное приближение (ж0, А0) ? Rn x R1, доста- достаточно близкое к точке {х, А), корректно определяет траекторию алгоритма 1, которая сходится к (ж", А). Скорость сходимости сверхлинейная, а если вторые производные f и F непрерывны по Липшицу в окрестности точки "ж, wo квадратичная. Доказательство. Требуемый результат будет немедленно еле™ довать из теоремы 3.2.1, если показать невырожденность матрицы **И о Рассмотрим произвольный элемент и = (ж, А) Е kerb"(ж", А); тогда ^(x,J)x + (F'(x))TX = 0, F) дх F'{x)x = 0. G) Умножая левую и правую части F) скалярно на ж и используя G), получим 0 = ^ 0 (х, Х)х, х^ + (A, F'{x)x) = ^ 0 (х, Это означает, что ж = 0, поскольку иначе было бы нарушено доста- достаточное условие второго порядка оптимальности в точке ~х. Но тогда из F) вытекает, что (F'(aO)TA = 0. (8)
§4-3- Методы решения задач с ограничениями-равенствами 119 Условие регулярности ограничений в точке ~х эквивалентно вы- выполнению равенства ker(Ff(~x))T = {0}, поэтому (8) может иметь ме- место лишь при Л = 0. Тем самым показано, что и = (ж, Л) = 0, т.е. матрица Ь"{х^ А) невырождена. ? Квадратичная скорость сходимости траектории в прямодвойствен- ных переменных, вообще говоря, не влечет сверхлинейную скорость сходимости в прямых переменных (см. задачу 2.1.1). Эта пробле- проблема, а также проблема глобализации сходимости метода Ньютона для системы Лагранжа будет рассмотрена ниже в контексте методов по- последовательного квадратичного программирования (см. § 4.4 и § 5.4). Интересно отметить, что если в искомой стационарной точке вы- выполнено условие регулярности ограничений и известно достаточно хо- хорошее начальное приближение х° в прямых переменных, то хорошее начальное приближение А0 в двойственных переменных всегда может быть указано. Действительно, условие регулярности ограничений дает невырожденность матрицы Ff(Hc)(Ff('x))T, поэтому из определения стационарной точки и отвечающего ей множителя Лагранжа имеем J=-(F'(x)(F'(x)f)-1F'(x)f'(x). Полагая а° = -(F в силу теоремы о малом возмущении невырожденной матрицы полу- получим требуемое. Задача 1. Зададим множество П={х ЕПп\ mnkFf(x) = 1} и отображение Ат: П -»¦ R', ХТ(х) = (F'(a;)(JP'(x))T)-1(TF(rC) - F'(x)f'(x)), где tGR — параметр. Вычислить производную Ат(-) в стационар- стационарной точке ~х задачи A), B), предполагая выполнение в этой точке условия регулярности ограничений. На этой основе построить и обос- обосновать усеченный метод Ньютона для уравнения относительно х € Rn при подходящем выборе т. Разумеется, к системе Лагранжа C) может применяться не только метод Ньютона, но и различные его модификации (см. п. 3.2.1 и [6]), а также другие методы решения систем нелинейных уравнений [30]. В частности, систему C) можно решать, применяя методы безуслов- безусловной оптимизации к задаче |1/(ж, А)|2 ->min, (ж, A)eRnxR/. (9)
120 Гл. 4- Методы условной оптимизации Глобальные решения этой задачи совпадают с решениями систе- системы C) (в случае разрешимости последней). Принципиальным недо- недостатком такого подхода, как и других методов непосредственного ре™ шения системы Лагранжа, является то, что при этом пропадает оп- оптимизационная сущность исходной задачи A), B), и, в частности, ло- локальные максимумы и минимумы этой задачи не различаются. Ниже в этом параграфе речь идет о методах, в определенном смысле свободных от указанного недостатка. 4.3.2. Метод квадратичного штрафа. Идея снятия функциональ- функциональных ограничений задачи условной оптимизации за счет введения в ее целевую функцию дополнительных слагаемых, обеспечивающих «штрафование» за нарушение снимаемых ограничений, находит при- применение при построении многих оптимизационных алгоритмов. Непо- Непосредственно эта идея реализуется в так называемых методах штраф- штрафных функций, которые с более общих позиций будут рассмотрены в § 4.7. Здесь же речь пойдет об одном из наиболее естественных ме- методов такого рода для задачи A), B) с чистыми ограничениями-ра- ограничениями-равенствами. Введем семейство штрафных функций^ получаемых добавлением к / квадратичного штрафа |F(-)|2/2, умноженного на параметр штрафа с ^ 0: ^C:R"^R, <pc(x) = f(x)+ l\F{x)\2. A0) Заметим, что (рс(•) = /(•) на D, в то время как в любой точке вне допустимого множества D значение штрафного слагаемого неогра- неограниченно возрастает с ростом с. В этом смысле задача безусловной оптимизации (fc{x) —> min, x G Rn, A1) аппроксимирует исходную задачу A), B) при с —>• +оо. Метод квадратичного штрафа для задачи A), B) состоит в сле- следующем. Алгоритм 2. Выбираем последовательность {с^} С R+ такую, что Ck —> оо (к —> оо), и полагаем к = 0. 1. Вычисляем хк Е Rn как стационарную точку задачи A1) с це- целевой функцией, задаваемой формулой A0) при с = Ck- 2. Увеличиваем номер шага к на 1 и переходим к п. 1. Для отыскания стационарных точек задачи A1) могут использо- использоваться методы безусловной оптимизации, рассмотренные в гл. 3. За- Заметим, что достаточная гладкость функции / и отображения F обеспечивает любую нужную гладкость целевой функции задачи A1). Алгоритму 2 можно придать последовательный характер, если, на- например, фиксировать используемый метод безусловной оптимизации
§4-3- Методы решения задач с ограничениями-равенствами 121 и для каждого к = 1,2,... в качестве начального приближения для этого метода брать точку хк^г (что вполне естественно). Чтобы та- такое начальное приближение было «достаточно хорошим», с^ не дол- должно сильно отличаться от c^_i; иными словами, увеличение штраф- штрафного параметра с ростом к не должно происходить слишком быстро. Имеет место следующая теорема о сходимости метода квадратич- квадратичного штрафа. Теорема 2. Пусть функция /: Rn —> R и отображение F: Rn —>- R1 непрерывно дифференцируемы на Rn. Тогда если алгоритм 2 генерирует последовательность {хк}, то любая ее предельная точка ~х Е Rn, в которой выполнено усло- условие регулярности ограничений, является стационарной точкой зада- задачи A), B). Более того, для любой сходящейся к ~х подпоследователь- подпоследовательности {xkj} справедливо {ckjF(xk^}^J (г->оо), A2) где А Е R1 — (единственный) отвечающий ~х множитель Лаг- ранжа. Доказательство. Для каждого /г, полагая Afc = CkF(xk), имеем < (ж) = f{*k) + (F'ix^fX" = 0, A3) следовательно, F'{xk)f'{xk) + F'(xk)(F'(xk))T\k = 0. Из условия регулярности ограничений в точке ~х и теоремы о ма- малом возмущении невырожденной матрицы вытекает, что при доста™ точно больших j матрица F'(xkj)(F/(xkj))T невырождена, поэтому Отсюда и из непрерывной дифференцируемости / и F следует пре- предельное соотношение {А^}^А (г->оо), A4) где Но тогда, с учетом A3), справедливо равенство Кроме того, в силу стремления с д. к бесконечности и A4) \кз F(x) = lim F(xk*) = lim — = 0.
122 Гл. 4- Методы условной оптимизации Тем самым показано, что ~х — стационарная точка задачи A), B), а Л = Л — единственный множитель Лагранжа, отвечающий этой стационарной точке. Соотношение A2) следует из A4). ? В общем случае задача A1) может не иметь стационарных то- точек либо иметь более одной стационарной точки. Следующая теорема содержит, в частности, достаточные условия того, что первое не име- имеет места. Теорема 3. Пусть функция /: Rn —> R и отображение F: Rn —> R1 непрерывны на Rn. Пусть точка ~х G Rn является стро- строгим локальным решением задачи A), B). Тогда для любого достаточно большого числа с задача A1) с це- целевой функцией, задаваемой формулой A0), имеет такое локальное решение х(с) Е Rn, что ж(с)^ж (с^+оо). A5) Доказательство. Зафиксируем число 5 > 0 такое, что точ- точка ~х является единственным глобальным решением задачи /(z)-nnin, х ? Df)T](x, S), A6) Из теоремы Вейерштрасса (теорема 1.1.1) следует, что для любо- любого с задача (рс(х) —>• min, х € B(Uc, <5), имеет глобальное решение ж (с). Значения функции ж(-): R —>¦ Rn содержатся в компакте В(х, 5), а значит, эта функция имеет пре™ дельную точку х G В(х, 8) при стремлении ее аргумента к +оо. До- Докажем, что х является глобальным решением задачи A6). Действительно, Vc имеет место (fc(^(c)) ^ <Рс(х) Ух е В(х, 5), поэтому в силу B) и A0) имеем f(x(c)) + \ \F(x(c))\2 = Vc{x{c)) ^ inf <pc(x) = inf f(x), где в правой части стоит значение v = v{x, S) задачи A6). Тог- Тогда, фиксируя последовательность {с{} С R такую, что с\ -Л +оо, {x(ci)} —>- х (г —> оо), получим f{x) + limsup Ц |^(а;(с4))|2 < v. A7) Отсюда следует, что F(x) = lim F(x(ci)) = 0, г>оо г—>-оо т.е. х G D П В(х, S). Поэтому v < f(x), A8)
§4-3- Методы решения задач с ограничениями-равенствами 123 и из A7) вытекает неравенство llmsupCi\F(x(сi))\2 ^ 0, которое может иметь место только при выполнении равенства llm Ci\F(x(Ci))\2 = 0. Таким образом, A7) принимает вид /B) ^ v, что в совокупности с A8) дает равенство f(x) = v, которое, с учетом допустимости х в задаче A6), означает, что х — глобальное решение этой задачи. Но тогда в силу выбора числа 8 справедливо равенство х = ж", т.е. единственной предельной точкой функции ж(-) является ~х. Поэ- Поэтому выполнено A5) и, в частности, ж (с) Е В(х, 8) для достаточно больших с. Отсюда следует, что для таких с точка ж (с) является локальным решением задачи A1). ? Задача 2. Доказать аналог теоремы 3 для случая, когда вместо существования у задачи A), B) строгого локального решения предпо- предполагается существование компактного изолированного множества ло- локальных решений. (Под изолированным множеством локальных ре- решений понимается состоящее из локальных решений множество S С С Rn такое, что для некоторого числа 8 > 0 в окрестности U(Я, 8) = = {х Е Rn| dist(x, S) < 8} не содержится локальных решений, не принадлежащих S. ) Задача 3. Убедиться, что доказательство теоремы 3 полностью проходит и для штрафной функции вида <рс(х) = /(ж) + с^(ж), х eR/\ где ф: Жп —> R — произвольный (не обязательно квадратичный) не- непрерывный на Rn штраф, т. е. функция, удовлетворяющая услови- условиям ф(х) = 0 VzGD, ф(х) > 0 \fxeUn\D. Согласно теореме 3 любое строгое локальное решение ~х зада- задачи A), B) может быть найдено как предел последовательности, ге- генерируемой алгоритмом 2, если в этом алгоритме стационарные точ- точки задачи A1) выбираются соответствующим образом. В некоторых дополнительных предположениях можно утверждать, что при доста- достаточно большом к задача A1) с целевой функцией, задаваемой фор- формулой A0) при с = с&, будет иметь в окрестности ~х единствен- единственную стационарную точку ж(с&); более того, можно оценить скорость сходимости последовательности {x(ck)} к Не. Подчеркнем, что при этом, если для каждого к в качестве начального приближения для
124 Гл. 4- Методы условной оптимизации используемого метода безусловной минимизации берется точка, до- достаточно близкая к "ж, то можно ожидать, что в качестве очередно- очередного приближения алгоритм будет находить именно хк = ж(с^). Это косвенно свидетельствует в пользу того, чтобы в качестве начально™ го приближения брать хк^г: попав однажды в достаточно малую окрестность точки ~х при достаточно большом к (а этого можно ожидать в силу теоремы 2), при таком выборе генерируемые алгорит- алгоритмом приближения хк уже не покинут этой окрестности, а значит, бу- будут совпадать с x(ck). Теорема 4. Пусть выполнены условия теоремы 1. Тогда существуют окрестность U точки ~х и числа с ^ О и М > 0 такие, что для каждого с > с задача A1) с целевой функцией^ задаваемой формулой A0), имеет в U единственную ста- стационарную точку ж (с), причем A9) Доказательство. Введем отображение /—(? ) = I дх Ф: R х (Rn х R1) -> Rn х R1, Ф(ст, х) = \F@ - ari) B0) Пусть Л G R^ — однозначно отвечающий стационарной точке х множитель Лагранжа. Положим % = (ж", А). Тогда Ф@, х) = 0 и дФ — Ъ^ @? х) = ^/;(^5 А)? причем невырожденность последней матрицы в условиях настоящей теоремы установлена при доказательстве тео- теоремы 1. Применяя к отображению Ф в точке @, "%) классическую теорему о неявной функции (теорема 1.3.1), получаем существование числа а > 0 и окрестности U точки х в Rn x R1 таких, что для всякого a G (—<т, о7) уравнение Ф(<7, х) = 0 B1) относительно х ^ ^п х li1 имеет в U единственное решение х(<т) = = (?(<т), г/(а)), причем функция %(•) дифференцируема на (^о7, о7) и ее производная непрерывна в точке 0. Кроме того, из теоре™ мы 1.3.2 следует оценка |хИ-хКМ|Ф(а,х)| = М|А|а Va e (-*, а) B2) при некотором М > 0, если сг достаточно мало. Положим с = l/o7, ж(с) = ^A/с), с > ~с. Тогда для любого тако- такого с из B0) имеем T || ^A)A)) =0,
§4-3. Методы решения задач с ограничениями-равенствами 125 т.е. х(с) является стационарной точкой задачи A1). Кроме того, из оценки B2) следуют оценки A9), поскольку по построению Наконец, рассмотрим произвольные последовательности {с^} С С Rn и {хг} С Rn такие, что {с{} —> оо, {хг} —> ~х (г —> оо), при™ чем для каждого г точка хг является стационарной в задаче A1). Как легко вывести из B0), для каждого г точка \% = (ж\ ciF{x%)) будет решением уравнения B1) при а = 1/с^, причем из теоремы 2 следует, что {аР{х1)} ^ А (г -» оо). Поэтому х* G W при достаточно больших г, а значит, %* = %A/q), и, в частности, хг = ж(с^). Это доказывает, что ж (с) — единственная в некоторой окрестности U точки ~х стационарная точка задачи A1) при достаточно большом с. ? Как указано в приведенном доказательстве, определенные в нем функции ?(•) и rj(-) дифференцируемы на (^<т, о7) (на самом де- деле, повышая требования гладкости на / и F, можно обеспечить любую нужную гладкость этих функций, а значит, и функции х(-) на (с, +оо)) . Кроме того, как следует из B0), для каждого а Е (^о7, о7) точка С(а) удовлетворяет уравнению ^/'@ + (^'(С))т^Ю = о B3) относительно ? Е Шп. Дифференцируя левую часть этого уравне- уравнения вдоль траектории ?(•), получаем, что последняя удовлетвори™ ет на (^о1, о7) следующей системе обыкновенных дифференциальных уравнений: о- -1)/"(О + 0 & ^@) + (^'(е))т^'(с)) ё + /'(о = о, B4) где точка обозначает производную по ст. К тому же результату при- приводит использование приведенной в теореме 1.3.1 формулы для про- производной неявной функции. При более высокой гладкости / и F можно получить уравнения и для старших производных ?(•). Сказанное мотивирует следующую «непрерывную» трактовку ме- метода квадратичного штрафа. Фиксируем число ад ф 0 и находим точку ^° Е Нте, которая является решением уравнения B3) при а = = о"о, после чего теми или иными средствами это решение непрерыв- непрерывно продолжаем (экстраполируем) по параметру а до значения а = = 0. В частности, при этом могут использоваться приближенные схе- схемы для решения начальной задачи, получаемой добавлением к B4) начального условия а также экстраполяция с помощью формулы Тейлора. Разумеется, если
126 Гл. 4- Методы условной оптимизации начальная пара (<tq, <^°) далека от пары @, ж"), где ~х удовлетворяет условиям теоремы 4, то такое продолжение не всегда возможно, а если возможно, то не обязательно единственным образом. С общих позиций методы продолжения по параметру обсуждаются в § 5.3. Далее, как следует из оценки A9), при Л = 0 (что в условиях теоремы 4 равносильно равенству f'{x) = 0) ж (с) = ?A/с) = ~х для любого достаточно большого с, т. е. квадратичный штраф оказывает- оказывается точным в следующем смысле: при достаточно большом значении штрафного параметра с стационарная точка вспомогательной задачи безусловной оптимизации A1), достаточно близкая к искомому реше- решению ~х задачи A), B), в точности совпадает с ~х. Штрафную функ- функцию if c при этом также называют точной. Если же Л ф 0, то из B4), условия регулярности ограничений и определения множителя Лагранжа имеем т.е. при а —> 0 траектория ?(•) «входит» в решение ж трансвер- сально допустимому множеству D в том смысле, что касательный вектор ?@) к этой траектории не содержится в касательном подпро- подпространстве ker Ff(x) к D в точке ж". В этом случае оценка A9) явля- является неулучшаемой по порядку. Задача 4. Доказать следующие факты, дополняющие утвержде- утверждение теоремы 4: а) для любого числа е > 0 найдется число с(е) ^ с такое, что ^ |ж(с) — ж| ^ - (||A/'(ж, А)) 1|||А| + е) Vc > с(е); б) для любого достаточно большого с > ~с матрица у?" (ж (с)) по- положительно определена, т.е. в стационарной точке ж(с) задачи A1) выполнено сформулированное в теореме 1.2.5 достаточное условие второго порядка оптимальности. Теоретически алгоритм 2 вполне надежен и сходится тем быстрее, чем быстрее возрастает последовательность {с^}; последнее видно из оценки A9). Ясно, однако, что все трудности здесь перенесены на этап решения вспомогательных задач безусловной оптимизации. Вы- Выше уже была указана причина, по которой слишком быстрое увеличение штрафного параметра нежелательно. Основной же недостаток метода квадратичного штрафа состоит в том, что параметр штрафа должен бесконечно увеличиваться (за исключением нетипичного случая, когда в искомом решении выполнено /;(ж) = 0). С ростом с задача A1) становится все хуже обусловленной: ее целевая функция приобретает
§4-3- Методы решения задач с ограничениями-равенствами 127 все более «овражный» характер (см. п. 3.1.2; подробный анализ ухуд- ухудшения обусловленности вспомогательной задачи метода квадратичного штрафа с ростом штрафного параметра можно найти в [6]). Поэтому отыскание решения вспомогательной задачи с ростом к становится все более трудоемким. В определенном смысле острота этой проблемы снимается с помощью использования на заключительном этапе работы метода (т. е. при больших к) упомянутых выше экстраполяционных процедур; подробнее об этом см. [37]. Кроме того, указанная трудность может быть преодолена, если перейти от чистого метода квадратичного штрафа к рассматриваемым в п. 4.3.3 более совершенным (и соответ- соответственно несколько более сложным) схемам, для которых бесконечное увеличение штрафного параметра оказывается ненужным. Задача 5. Решить задачу х —» min, xp = О, где р ^ 2 — целочисленный параметр, методом квадратичного штрафа. Проанализировать скорость сходимости; объяснить наблк> даемый эффект. Задача 6. Решить задачу 2х\ + (х2 - IJ ->> min, х е D = {х € R2| 2хг + х2 = 0}, методом квадратичного штрафа. 3 а д а ч а 7. То же задание для задачи х\ + 2х\ ->> min, х е D = {х е R2| Зхг + х2 = 3}. 4.3.3. Модифицированные функции Лагранжа и точные гладкие штрафные функции. Один подход, избавляющий от необходимости бесконечного увеличения штрафного параметра, основан на добавле- добавлении гладкого (например, квадратичного) штрафного слагаемого не к целевой функции задачи A), B), а к ее функции Лагранжа, в ре- результате чего получается семейство так называемых модифицирован- модифицированных функций Лагранжа задачи A), B): Lc: RnxR^ R, Lc(x, A) = L(x, A) + | |^О)|2, B5) где с > 0. Происхождение этого названия можно объяснить следую- следующим образом. Стационарная точка ж задачи A), B) является стацио- стационарной и для задачи L(x, A) -)> min, х Е Rn, B6) где А — отвечающий ~х множитель Лагранжа. Поэтому вместо ре- решения системы Лагранжа задачи A), B) можно искать стационарную точку задачи B6). Разумеется, множитель А заранее не известен,
128 Гл. 4- Методы условной оптимизации однако его можно так или иначе аппроксимировать, используя ин- информацию о текущем приближении к ~х (см., например, задачу 1). Недостаток же такого подхода состоит в том, что, например, выпол™ нение условий теоремы 1 не гарантирует положительной определен- д2Ь — ности матрицы —% (Ж ^)? и обоснованное применение к задаче B6) дх методов безусловной оптимизации возможно лишь в неестественно сильных предположениях. В анализе на оптимальность и при построении алгоритмов мо- модифицированная функция Лагранжа может использоваться наряду с обычной, поскольку, как легко видеть, V с справедливо ?Ь.(Х,\)= Ц(а;, A) V.6D,VAGR', ИЬ. (х, А) = || (ж, А) = F(x) VieR", VAeR/, и множество решений уравнения Ь'с{х,\) = 0 совпадает с множеством решений системы Лагранжа задачи A), B). При этом с алгоритмической точки зрения модифицированная функция Лагранжа обладает определенными преимуществами перед обычной. Задача 8. Пусть функция /: Rn —>- R и отображение F: Жп —> —>• R1 дважды дифференцируемы точке ж Е Rn. Пусть ж — стацио™ парная точка задачи A), B), и в ней выполнено достаточное условие второго порядка оптимальности с множителем Лагранжа А Е R1. До- Доказать, что для любого достаточно большого числа с матрица ^ (х, А) = 0 (х, А) + c(F'(x))TF'(x) положительно определена, т. е. в стационарной точке ~х задачи Ьс(ж, А) —>• min, х Е Rn, выполнено сформулированное в теореме 1.2.5 достаточное условие второго порядка оптимальности. Итерация метода модифицированных функций Лагранжа состоит в решении для данного с > 0 и данного приближения А к А задачи безусловной оптимизации Lc(x, A) -> min, х G Rn, B7) с последующим пересчетом значения А по специальному правилу. Происхождение этого правила несколько проясняет формула A2) (ес- (если принять во внимание, что эта формула получена для чистого ме- метода квадратичного штрафа, а не для модифицированной функции Лагранжа), а также задача 9 ниже. Что же касается величины с, то
§4-3- Методы решения задач с ограничениями-равенствами 129 в принципе она может оставаться одной и той же на всех итерациях; во всяком случае ее бесконечное увеличение не предполагается. Алгоритм 3. Выбираем монотонно неубывающую последова- последовательность {с^} С R+ и точку Л° Е R/ и полагаем к = 0. 1. Вычисляем хк Е Rn как стационарную точку задачи B7) с це- целевой функцией, задаваемой формулой B5) при с = Ck и Л = Хк. 2. Полагаем Afc+1 = Хк + ckF(xk). 3. Увеличиваем номер шага к на 1 и переходим к п. 1. Существуют также варианты метода, в которых последователь- последовательность {ск} не фиксируется заранее, а строится по ходу вычислитель- вычислительного процесса в зависимости от получаемой информации. Об эвристи™ ческих правилах выбора {с^} см. [6, 40]. Задача 9. Показать, что если для некоторого числа с и некото- некоторого А Е R1 точка х Е Rn является стационарной в задаче B7), причем rank .F'(ж) = I, то Л + cF{x) = -(F'(x)(F'(x))T)-1F'(x)f'(x) (ср. с задачей 1). Теорема 5. Пусть выполнены условия теоремы 1. Тогда существуют окрестность U точки IE и числа с ^ 0, 8 > > 0 и М > 0 такие, что: а) d/ш любой пары (Л, с) Е А (с, E), г^е А (с, 5) = {(Л, с) Е R1 х R| |А - А| < 8с, с > с}, задача B7) с целевой функцией, задаваемой формулой B5), имеет в U единственную стационарную точку ж (А, с), причем \х(Х, с)-х\ < M^^l, с _ B8) |А + cF(x(X, с)) - ЛК М^-=Д б) существует число S ? @, S] такое, что для любой монотонно неубывающей последовательности {с/ь} С R.+ и любой точки Л° G G R.', (?ля которых выполнено (А0, со) € Д(с, 5), B9) \\ Cfc)), fc = 0,1,..., корректно определяет последовательность {Хк} (в тжш смысле, чтео {(Afc, с^)} С А (с, 5), т.е. |9л«я всякого к точка х(Хк, с^) кор- корректно определена), причем {Хк} ^> А, {ж(А^, с^)} —>• ~х {к -^ —>- оо). Скорость сходимости последовательности {Хк} линейная, а если Ck —> оо (/?—>- оо), wo сверхлинейная. 5 А.Ф. Измаилов, М.В. Солодов
130 Гл. 4- Методы условной оптимизации Полное доказательство этой теоремы выходит за рамки настоя- настоящего курса; ограничимся лишь некоторыми комментариями. Прежде всего заметим, что при Л = 0 утверждение а) совпадает с утверж- утверждением теоремы 4. Доказательство а) строится по той же схеме, что и доказательство теоремы 4, однако требует несколько более тонких рассуждений, чем простое применение классической теоремы о не- неявной функции. При доказательстве утверждения б) основная труд- трудность состоит именно в том, чтобы установить существования числа 8 Е @, 8] такого, что для любой пары (А0, со), удовлетворяющей B9), последовательность {(Afc, сд.)} не покидает множества А (с, 8). Если это установлено, то в силу B8) V к имеем \х(\к, ск) -х\^ — \\к - ЛК = |А* - Л|, Ck С |А*+1_АК f\Xk-X\^ f\\k-\\, и если число с выбрано достаточно большим, то последователь- последовательность {Хк} сходится к А с линейной скоростью, а если {с&} —> оо (А; —> оо), то со сверхлинейной. Кроме того, последовательность {х(Хк, Ck)} сходится к ж", причем скорость ее сходимости не ниже, чем скорость сходимости {А^}, и во всяком случае не ниже геометрической. Полное доказательство можно найти в [6, 14]. Согласно теореме 5, если в алгоритме 3 начальные значения с® и А0 связаны включением B9), а хк выбирается как стационарная точка задачи B7), ближайшая к искомому решению ~х задачи A), B), то траектория {(хк, Хк)} алгоритма 3 корректно определяется и сходится к (ж, А) (о скорости сходимости см. выше). Для выбора «удачной» стационарной точки хк на практике используют стандартную схему, уже обсуждавшуюся в связи с методом квадратичного штрафа: при каждом к = 1, 2,. . . в качестве начального приближения для исполь- используемого метода безусловной оптимизации берется точка х . Обыч- Обычно генерируемая таким образом последовательность {хк} остается в окрестности одного локального решения задачи A), B), и этого оказы- оказывается достаточно для сходимости метода. Важно отметить, что как бы далеко А0 Е R/ не отстояло от А, условие B9) будет выполняться, если число с® достаточно вели- велико. Иными словами, не обязательно обеспечивать хорошее начальное приближения к множителю Лагранжа, но за грубость такого прибли- приближения приходится платить выбором большого начального значения штрафного параметра. Задача 10. Доказать следующее дополнение утверждения а) теоремы 5: для любой пары (А, с) Е А (с, 8), если число с достаточ- достаточно велико, то матрица ^ (ж(А, с), А) положительно определена, дх
§4-3- Методы решения задач с ограничениями-равенствами 131 т.е. в стационарной точке ж(А, с) задачи B7) выполнено сформули- сформулированное в теореме 1.2.5 достаточное условие второго порядка опти- оптимальности (ср. с утверждением б) из задачи 4 и задачей 8). С модифицированными функциями Лагранжа связаны так на- называемые точные гладкие штрафные функции: к функции Lc до- добавляется дополнительное гладкое слагаемое, штрафующее за нару- нарушение необходимых условий первого порядка оптимальности, после чего полученная функция минимизируется по совокупности прямой и двойственной переменных. Введем, например, семейство функций с, А) = LCl(x, A) + T —(ж, А) л ох 8L, = Цж, А) + —|F(a:)| + — —(ж, А) , C0) и для ci, C2 > 0 будем рассматривать задачу <рС1|С2(ж, Л)->min, (ж, А) СЕ Rn х R1 C1) (ср. с задачей (9)). Легко видеть, что любое решение системы Лагран- Лагранжа задачи A), B) является стационарной точкой задачи C1), а при определенном согласовании параметров с\ и с^ оказывается верным и обратное. Лемма 1. Пусть функция /: Rn —> R и отображение F: Rn —>- —>• Ш1 дважды дифференцируемы в некоторой окрестности точ- точки х Е Rn, причем их вторые производные непрерывны в этой точ- точке. Пусть rank Ff(x) = /. Тогда для произвольного А Е R1 найдется число С2 > 0 такое, 'что еслн С2 Е @,С2], тео окрестность U точки (ж, А) и число Ci(c2) ^ 0 могут быть выбраны таким образом, чтобы для любого с\ > Ci(c2) пара (ж", А) Е 17 была стационарной точкой задачи C1) с целевой функцией, задаваемой формулой C0), в г?тм w только том случае, когда ~х — стационарная точка задачи A), B), а А — ошве- чающий ей множитель Лагранжа. Доказательство. Выберем число Ъ^ > 0 настолько малым, что матрица 2 ^п + с2 —2 (^j ^) положительно определена Vc2 Е @, С2]. Далее, фиксируем с^ Е Е @, сг] и выберем число ~с\(с2) ^ 0 настолько большим, что матрица c1c2Ff(x)(En + с2 ^4 (^ A))^1(F/(x))T - Е11
132 Гл. 4- Методы условной оптимизации положительно определена Vci > Ci(c2). Если с\ и с^ удовлетво- удовлетворяют указанным условиям, то, как легко убедиться, для любой пары (ж, Л) G Rn х R1, достаточно близкой к (ж, Л), матрица ci(F'(a;))T 6R(l,n) невырождена (нужно показать невырожденность ДСьС2(ж, Л) и при™ менить теорему о малом возмущении невырожденной матрицы). Пря- Прямым вычислением получаем, что I т^—(ж, А) <p'CltC2(x, \) = ACliC2(x, А) дх т.е. точка (ж", Л), достаточно близкая к (ж, Л), может быть стацио- стационарной в задаче C1) лишь в том случае, когда (af, Л) — решение си- системы Лагранжа задачи A), B). ? Теорема 6. Пусть выполнены условия теоремы 1. Тогда: а) если функция / и, отображение F трижды дифференцируе- дифференцируемы в точке ~х, то для всякого с^ > 0 найдется число ~с\(с2) ^ О такое, что для любого с\ > Ci(c2) матрица ^ci,c2(^' ^) положиш тельно определена (где функция <рС1,с2 задана формулой C0)), т.е. в стационарной точке (з?, А) задачи C1) выполнено сформулирован- сформулированное в теореме 1.2.5 достаточное условие второго порядка оптималь- оптимальности; б) существует число С2 > 0 такое^ что если с^ Е @, сг], то окрестность U точки ("ж, А) м число ~с\(с2) ^ 0 могут быть вы- выбраны таким образом^ чтобы для любого с\ > ~с\(с2) задача C1) име- имела в U единственную стационарную точку (af, А). Доказательство. Для доказательства а) нужно вычислить второй дифференциал функции (fCl,c2 B точке (ж, А) и непосред- непосредственно убедиться в его положительной определенности при произ- произвольном С2 > 0 и достаточно большом с\. Справедливость б) следует из леммы 1 и изолированности реше- решения (ж", А) системы Лагранжа задачи A), B). Последнее же является очевидным следствием классической теоремы о неявной функции (тео- (теорема 1.3.1) и установленной при доказательстве теоремы 1 невырож- невырожденности матрицы //'(ж, А) в сделанных предположениях. ? Задача 11. Доказать утверждение а) теоремы 6. Недостатком введенной гладкой точной штрафной функции явля- является необходимость согласовывать значения штрафных параметров с\
§4-3- Методы решения задач с ограничениями-равенствами 133 и С2- Существует ряд возможностей избавиться от этого недостат- недостатка за счет некоторого усложнения штрафной функции. Например, за- зафиксируем гладкое отображение С: Жп —> R(/, n), введем семейство функций (fc: Rn -)> R, с, Л) = Lc(x, A) + - С(х) -^ (х, А) = C2) и для с > 0 будем рассматривать задачу (рс(х, А) -)> min, (ж, Л) е Rn х Rz. C3) Как и для рассмотренной выше штрафной функции <^Ci,c2? лю™ бое решение системы Лагранжа задачи A), B) является стационар- стационарной точкой задачи C3). Лемма 2. Пусть в дополнение к условиям леммы 1 отобра- отображение С: Жп -^ R(/,n) дифференцируемо в некоторой окрестности точки х G Rn, причем его производная непрерывна в этой точке и det(C(x)(Ff(x))T) /0. Тогда для произвольного А Е R1 существуют окрестность U точки (ж, A) w число с^О такие, 'что d/ш любого с>Ъ пара (Ш, А) Е 17 является стационарной точкой задачи C3) с целевой функцией, задаваемой формулой C2) в толе, ti только том случае^ когда ~х — стационарная точка задачи A), B), а А — отвечающий ей множитель Лагранжа. Доказательство. Схема доказательства та же, что и для лем- леммы 1. Все сводится к проверке того, что для любого достаточно боль- большого с матрица (Еп + А(х, Х)С(х) c(F'(x))T\ Ас(х, А) = е R(/, п) \)TC(a-) ?7' / невыролсдена, где €R(n,Z). Рассмотрим произвольный элемент й = (ж, А) Е кегЛс(ж, А); тогда (Е^ + Л(х, А)С(ж))ж + c(Ff(x))TX = 0, C4) F'(x){C{x))TC(x)x + A = 0. Из последнего равенства выразим С(х)х:
134 Гл. 4- Методы условной оптимизации \j \Ju IX — —I Г I tl/ 11 t_/I «I/J I ) Л. \OO I Тогда из C4) имеем (-(El + C(x)A(x, Х)С(х))(Ег(х)(С(х))туг + cC(x)(F'(x))T)X = = C(x)(x + A(x, X)C(x)x + c(Ff(x)fX) = 0. Выберем число с ^ 0 настолько большим, что матрица в левой части последнего равенства невырождена У с > ~с. Для таких с име- имеем А = 0, ив силу C5) С (ж) ж = 0. Возвращаясь к C4), приходим к равенству ж = 0, т. е. и = 0, что и требовалось доказать. ? Теорема 7. Пусть в дополнение к условиям теоремы 1 отоб- ражение С: Rn —> R(/, n) дифференцируемо в некоторой окрестно- окрестности точки ж", причем его производная непрерывна в этой точке и dei(C(x)(Ff(x))T)^0. Тогда существуют окрестность U точки Aс, А) и число с ^ ^ 0 такие, что для любого с > с задача C3) с целевой функцией, задаваемой формулой C2), имеет в U единственную стационарную точку (х, А), причем если функция f и отображение F трижды дифференцируемы в точке ж, то матрица у?"(ж, А) положительно определена, т.е. в стационарной точке (ж, А) выполнено сформули- сформулированное в теореме 1.2.Б достаточное условие второго порядка опти- оптимальности. Доказательство этой теоремы аналогично доказательству теоре- теоремы 6 (см. также задачу 11), только вместо леммы 1 нужно сослать- сослаться на лемму 2. Подчеркнем, что условие невырожденности матрицы G(~x)(Ff(~x))T подразумевает выполнение условия регулярности огра- ограничений в точке ж. Зависимость рассмотренных точных гладких штрафных функций не только от прямой переменной, но и от двойственной, является недостатком такого подхода, впрочем, вполне устранимым за счет даль- дальнейшего усложнения штрафной функции. Дело в том, что функции, введенные в C0) и C2), являются квадратичными по А при фикси- фиксированном ж, поэтому их можно пытаться явно минимизировать по А при каждом ж, тем самым избавляясь от «лишних» переменных. Задача 12. Зададим множество Ж С Rn так лее, как в зада- задаче A), и положим С(Т\ — (F'(T\( F'ItW1-^1 F'(t\ \(t\ ——C(T\f'(T\ tgV Показать, что для введенного в C2) семейства функций справед- справедливо min <pc+i{x, X) = (рс+г(х, А(ж)) = Ьс(ж, А(ж)) Vж € И для любого с.
§4-4- Последовательное квадратичное программирование 135 Задача 13. Для задач безусловной минимизации C1) и C3) с целевыми функциями, задаваемыми формулами C0) и C2) соответ- соответственно, а также для задачи Lc(x, Л(ж)) —>- min, х G 7Z (в обозначениях задачи 12), построить и обосновать усеченные ме- методы Ньютона, получаемые отбрасыванием слагаемых, содержащих третьи производные функции / и отображения F. § 4.4. Последовательное квадратичное программирование Как следует из их названия, методы последовательного квадра- тичного программирования (общепринятая аббревиатура — SQP, от английского sequential quadratic programming) состоят в последова- последовательном решении задач квадратичного программирования, аппрок- симирующих данную задачу оптимизации. Правильно выбранная за- задача квадратичного программирования оказывается достаточно аде- адекватной локальной аппроксимацией исходной задачи. В то же время квадратичная задача достаточно проста, и для нее существуют эф- эффективные (в том числе конечные) методы решения; см. § 7.3. Таким образом, указанный подход имеет практический смысл, в отличие, например, от использования аппроксимаций более высокого порядка. С другой стороны, методы SQP могут рассматриваться как ре™ зультат распространения фундаментальной идеи ньютоновских мето- методов на задачи оптимизации с функциональными ограничениями. На- Например, в случае задачи с чистыми ограничениями-равенствами ме- методы SQP суть не более чем специальные реализации ньютоновских методов решения системы Лагранжа, что и будет продемонстрирова- продемонстрировано ниже. Затем эта идея распространяется на задачи со смешанными ограничениями. На сегодняшний день методы SQP входят в число наиболее эф- эффективных оптимизационных методов общего назначения. При выбо- выборе метода решения той или иной прикладной задачи оптимизации, не обладающей какой-то специальной структурой, часто останавливают- останавливаются на методах именно этого типа. 4.4.1. Ограничения-равенства. Предполагая двукратную диффе- ренцируемость функции /: Rn —>• R и отображения F: Rn —>• Ж1 на всем Rn будем рассматривать задачу f(x) -+ min, x ? D, A) D = {x GRn| F(x) = 0}. B) Пусть xk € Rn — текущее приближение к искомой стационарной точке ~х задачи A), B). Тогда вблизи хк эту задачу можно аппрок-
136 Гл. 4- Методы условной оптимизации симировать задачей квадратичного программирования f(xk) + (f'(xk), х-хк) + \ (Нк(х - хк), х-хк)^ -> min, х € Dk, C) Dk = {х е Rn| F(xk) + F'(xk)(x - хк) = 0}, D) где Hk Е R(n, n) — некоторая симметрическая матрица. На первый взгляд может показаться, что следует выбирать Hk = = f/f(xk), т.е. использовать в качестве целевой функции квадратич- квадратичной задачи чистую аппроксимацию второго порядка функции / (ср. с условным методом Ньютона из п. 4.1.3). Однако такой интуитив- интуитивно разумный выбор на самом деле неадекватен. Дело в том, что ис- используемая линейная аппроксимация ограничений не может передать важную информацию о кривизне соответствующих поверхностей. С другой стороны, очевидно, что включение членов второго порядка в аппроксимацию ограничений крайне нежелательно, поскольку со- соответствующая аппроксимирующая задача перестанет быть задачей квадратичного программирования, будет немногим проще, чем исход- исходная задача, и метод, требующий решения на каждом шаге подоб- подобной подзадачи, вряд ли может быть эффективен, пока не разработа- разработаны специальные методы решения таких подзадач. В последнее время в оптимизационной литературе стали появляться публикации по ме- методам, подзадачи которых имеют квадратичные ограничения, но эти разработки пока далеки от завершения. К счастью, необходимую ин- информацию о членах второго порядка в аппроксимации ограничений можно передать не через ограничения вспомогательной задачи, а че- через ее целевую функцию, полагая Нк = ^ (хк, Хк), E) ОХ где Хк E R/ — некоторая аппроксимация множителя Лагранжа А, отвечающего искомой стационарной точке ж, а L: W1 х R1 -> R, Ь(ж, А) = /(ж) + (A, F{x)), — функция Лагранжа задачи A), B). Заметим, что при таком выборе целевая функция задачи C), D) есть чистая квадратичная аппрокси- аппроксимация функции L(*, Xk) вблизи текущей точки хк. Другой (более формальной) мотивировкой такого выбора служит интерпретация вспомогательной задачи C), D) как реализации рас- рассмотренной в п. 4.3.1 ньютоновской итерации для системы Лагранжа исходной задачи A), B). Напомним, что система Лагранжа имеет вид L'(x, X) = 0, F) а ньютоновская итерация для нее состоит в решении линейной
§4-4- Последовательное квадратичное программирование 137 системы |^? {х\ \к){х - хк) + (F'(xk))T(X - Хк) = дх = ^f(xk) - (Ff(xk)f\k, G) Ff(xk)(x^xk) = ^F(xk) (8) относительно (ж, Л) Е Rn x R1, где (хк^ Хк) Е Rn xR1- текущее приближение к решению F). Действительно, пусть xk+1 Е Rn — стационарная точка зада™ чи C), D), а у^1 е R1 — отвечающий ей множитель Лагранжа. Это значит, что пара (ж^+1, |/fe+1) является решением системы уравнений / V) + #*(* - **) + (*"(**))Т1/ = 0, относительно (х, у) Е Rn x R/. Сравнивая последнюю систему с си- системой G), (8), убеждаемся, что они совпадают, если матрица //*. выбрана согласно E). Таким образом, этот выбор согласуется с фун- фундаментальной идеей ньютоновских методов. Опишем метод последовательного квадратичного программирова- программирования (SQP) для задачи с ограничениями-равенствами. Алгоритм 1. Выбираем (ж0, А0) Е Rn x R1 и полагаем к = 0. 1. Вычисляем xk+1 E Rn как стационарную точку задачи C), D), где Н^ задается согласно E). Вычисляем ykJrl e R^ как отвечаю- отвечающий стационарной точке хк+1 задачи C), D) множитель Лагранжа. 2. Полагаем \к+1 = ук+г. 3. Увеличиваем номер шага к на 1 и переходим к п. 1. В силу сказанного выше при любом выборе начального приближе- приближения (ж0, А0) алгоритм 1 генерирует ту же траекторию {(хк, А^)}, что и метод Ньютона для системы Лагранжа F), рассмотренный в п. 4.3.1, поэтому отдельно исследовать (локальную) сходимость метода SQP в данном случае нет необходимости. В частности, если вторые про- производные функции / и отображения F непрерывны в точке ж" и в этой точке выполнены условие регулярности ограничений и сформу- сформулированное в теореме 1.3.7 достаточное условие второго порядка оп- оптимальности, то в соответствии с теоремой 4.3.1 метод SQP локально сходится к (af, А) со сверхлинейной скоростью. Более того, если вторые производные / и F непрерывны по Липшицу в окрестности af, то скорость сходимости квадратичная. Заметим, однако, что как реализация метода Ньютона для системы Лагранжа метод SQP вряд ли особенно полезен, во всяком случае при локальных рассмотрениях. Эта реализация аналогична рассмотренной в п. 3.2.2 оптимизационной трактовке метода Ньютона для задачи
138 Гл. 4- Методы условной оптимизации безусловной оптимизации и может быть полезна при глобализации сходимости метода. Однако главное значение метода SQP для зада- задачи с ограничениями^равенствами состоит в том, что он естественным образом приводит к идее соответствующего метода для задачи со сме- смешанными ограничениями, что и будет продемонстрировано ниже. Задача 1. Установить взаимосвязь задачи C), D), в которой матрица Hk задается согласно E), с аналогичной задачей, в которой Нк^ ?±(хк, \k) + ck(F'(xk))TF'{xk), где Ck > 0 — заданное число. Каковы возможные преимущества вто- второго выбора? Задача 2. Рассмотреть для задачи A), B) модифицированный метод проекции градиента xk+1 = nDk(xk - akf'(xk)), k = 0,1,..., где a,k > 0 — параметр метода, a D^ введено в D). Установить вза- взаимосвязь метода с SQP (при соответствующем выборе //&). Исследо- Исследовать локальную сходимость метода. 4.4.2. Смешанные ограничения. Пусть теперь дополнительно отоб- отображение G: Rn —>> Rm дважды дифференцируемо на Rn. Перехо- Переходим к рассмотрению задачи оптимизации со смешанными ограниче- ограничениями (равенствами и неравенствами) f(x) —> min, х G D, (9) D = {х е Жп\ F(x) = 0, G(x) ^ 0}. A0) Пусть xk E Rn — текущее приблилсение к искомой стационарной точке ~х задачи (9), A0). Естественным аналогом аппроксимирующей задачи C), D) здесь является следующая задача квадратичного про- программирования: (f[xk), d)+\ (Hkd, d) -> min, d E Dk, A1) Dk = {d e Rn| F(xk) + F'(xk)d = 0, G(xk) + G'{xk)d ^ 0}. A2) Для задачи со смешанными ограничениями метод последователь- последовательного квадратичного программирования (SQP) состоит в следующем. Алгоритм 2. Выбираем (z°, A0, /i°) € Rn x R1 x RTO и полага- полагаем к = 0. 1. Вычисляем dk G Rn как стационарную точку задачи A1), A2), где Hk € R(n, n) — симметрическая матрица. Вычисляем ук Е R1 и zk G Ry как отвечающие стационарной точке dk задачи A1), A2) множители Лагранжа.
§4-4- Последовательное квадратичное программирование 139 2. Полагаем xk+1 = xk + dk, Afc+1 = yk, /ifc+1 = zfe. 3. Увеличиваем номер шага /с на 1 и переходим к п. 1. В соответствии со сказанным выше можно ожидать, что к высо- высокой скорости сходимости приведет следующий выбор матрицы Н^: Ни = Й (**, Afe, /), A3) где L: ГхИ'хГ-) R, Ь(ж, Л, /j) = f(x) + (Л, F(z)} + (/i, б?(ж)), — функция Лагранжа задачи (9), A0). Заметим, что если D^ ф 0 и матрица Hk положительно опре- определена, то задача A1), A2) имеет единственное решение, и это ре™ шение совпадает с ее единственной стационарной точкой (поскольку целевая функция этой задачи сильно выпукла). Однако в естествен™ ных предположениях, таких, как вводившиеся выше условия регуляр- регулярности ограничений задачи (9), A0) в точке ~х и достаточное условие второго порядка оптимальности этой точки с множителями А и /I, ни совместность системы ограничений задачи A1), A2), ни положи- положительную определенность матрицы Hk, выбираемой согласно A3), га- гарантировать нельзя даже при хк, близком к ж", а Хк и /ife, близ- близких к А и ~р соответственно (ср. с мотивировкой введения модифи- модифицированных функций Лагранжа в п. 4.3.3, а также задачей 1). Поэто- Поэтому существование у задачи A1), A2) стационарной точки не являет- является автоматическим и должно проверяться в рамках локального ана- анализа алгоритма. Более того, даже если такая стационарная точка су- существует, она вовсе не обязательно единственна. В связи с последним при проведении локального анализа предполагается, что в качест- качестве dk берется стационарная точка задачи A1), A2), имеющая мини- минимальную норму. При практическом использовании метода это требо- требование обычно просто игнорируют. Теорема 1. Пусть функция /: Rn —>> R и отображения F: Rn —> R1 и G: Rn —> Rm дважды дифференцируемы в некото- некоторой окрестности точки ~х G Rn, причем их вторые производные непрерывны в этой точке. Пусть в точке ~х выполнено условие ли- линейной независимости, причем ~х — стационарная точка задачи (9), A0), a A G Ж1 и ~р G R^J1 — однозначно отвечающие ей множители Лагранжа. Пусть, наконец, в точке ~х выполнено сформулированное в теореме 1.4.5 достаточное условие второго порядка оптимально- стщ а также условие строгой дополнительности. Тогда любое начальное приближение (z°, A0, /i°) G Rn x Ш} х Rm, достаточно близкое к точке {х, А, /I), корректно определяет схо- сходящуюся к (ж, А, ~р) траекторию алгоритма 2, в котором для каждого к = 0,1,... матрица Н^ выбирается согласно A3), а в ка-
140 Гл. 4- Методы условной оптимизации честве dk берется стационарная точка задачи A1), A2), имеющая минимальную норму. Скорость сходимости сверхлинейная^ а если вторые производные /, F и G непрерывны по Липшицу в окрест- окрестности точки ж", то квадратичная. Доказательство. Как обычно, через gi(-), г = 1, ...,га, бу~ дем обозначать компоненты отображения С, а через 1{х) = {г = = 1,... ,7п gi(x) = 0} — множество индексов активных в точке ~х ограничений-неравенств задачи (9), A0). Положим X = Rn x R1 х х Rm. Прежде всего необходимо показать, что задача A1), A2) при (xk, Afc, fik) G X, достаточно близком к (af, Л, /I), имеет единст- единственную стационарную точку dk минимальной нормы, и ей отвечает единственная пара множителей Лагранжа (yk, zk). Рассмотрим систему Каруша-Куна-Таккера для задачи A1), A2) /V) + 0 (хк, Хк, /ifc)d + (F'(xk))Ty + (G'(xk))Tz = 0, A4) F(xk) + F'(xk)d = 0, A5) G(xk) + G'(xk)d ^ 0, z^Q, A6) zi(gi(xk) + {g'i(xk),d))=0, i = l,...,m, A7) относительно (с/, г/, z) G XI. Сразу заметим, что если точка zfc до- достаточно близка к ж, a d G Rn имеет достаточно малую норму, то может существовать не более одной пары множителей (у, z) G R1 х х Rm, таких, что точка (d, у, z) удовлетворяет A4)—A7). Это следу- следует из A4), условия линейной независимости, а также того факта, что из A7) при таких хк и d вытекает Zi=0 Vie{l,...,m}\/(S). Введем отображение Ф(сг, и) = F'{x)d \ zm(gm{x) + (g'm{x), d)) (j = (ж, A, /i), м = (d, |/, z). Система Ф((т, «) = 0, в которой a G ^ играет роль параметра, отвечает уравнениям A4), A5), A7).
§4-4- Последовательное квадратичное программирование 141 Согласно определению стационарной точки задачи (9), A0) и от- отвечающих этой точке множителей Лагранжа имеем Ф(<т, и) = 0, где "а = (af, А, /I), и = @, А, /I). Кроме того, дФ , ч f— \ —^ F'(x) \ TImgfm(x) (Ff(x))T 0 0 0 0 gl(x) 0 0 (^(^))T 0 0 g2(x) 0 0 0 gm(x)/ Рассмотрим произвольный элемент и = (d, у, z) G ker —~ (cr, n) |^? (г, a, 7i)d + (^'(ж))ту + (с"(ш))тг = о, A8) A9) B0) F'(x)d = 0, Jliig'iix), d) + gi(s)Ii =0, i = 1,. . ., m. Из B0) и условия строгой дополнительности вытекает, что Zi=0 Vie{l,...,m}\I(x), (g'i(x), d)=0 Vie/(г). B1) Кроме того, условие строгой дополнительности в точке ~х влечет сле- следующую формулу для критического конуса задачи (9), A0) в точ™ ке ~х\ К(х) = {h? kerFf(x)\ (?(х), h}=0 Vi e I(x)} B2) (см. лемму 1.4.4). Поэтому из A9) и B1) следует, что id G К(х). Умножая левую и правую части A8) скалярно на d и используя A9) и B1), получим 0 = /0 (ж, А, (у, Ff(x)d) дх (ж, A, fi)d, d ), d) = (ж, А, Это означает, что d = 0, поскольку иначе было бы нарушено доста™ точное условие второго порядка оптимальности в точке ж". Но тогда из A8) и B1) вытекает, что (Fl(x))Ty+ J2 zig'i(x) = 0.
142 Гл. 4- Методы условной оптимизации Условие линейной независимости в точке ~х означает, что последнее равенство возможно лишь при |/ = 0 и 5j = О Vi E 1{х). Тем самым показано, что по необходимости и = (<i, г/, z) = 0, т. е. мат- ^Ф , , рица -^— [а¦, и) невырождена. Применяя к отображению Ф в точке (о7, и) классическую тео™ рему о неявной функции (теорема 1.3.1), получаем существование окрестностей U точки W и V точки и в X, для которых существу- существует единственное непрерывное в точке W отображение х(') = (^(')? !/(•), z(-)): U -> S, такое, что %((/) С V и #0, хИ) = О VereU. B3) В частности, d(W) = 0, 2/(о7) = A, z{a) = /х. Отсюда, из непре™ рывности х(') в точке Тг и условия строгой дополнительности выте- вытекает, что если окрестность U достаточно мала, то Уст = (ж, Л, /i) E Е С/ имеет место ^(ж) + <^(Ж), d(a)) < 0 Vz G {1,. . ., m} \ I(x), B4) Zi(cj)>0 УгЕ/(ж). B5) С учетом определения отображения Ф соотношения B3)-B5) означают, что при ак = (ж*5, Хк, /xfe) Е 17 система A4)—A7) имеет на V единственное решение (d(crfc), y(ak), z{ak)). В силу сказан- сказанного выше о единственности множителей можно утверждать, что ес- если окрестность U достаточно мала, то это решение единственно не только на 1/, но и на множестве V х R1 x Rm, где V — некоторая окрестность точки 0 в Rn. Отсюда следует, что dk = d{ak) — един- единственная стационарная точка задачи A1), A2), имеющая минималь- минимальную норму, a (t/fc, zk) = (y(ak), z{ak)) — единственная пара множи- множителей Лагранжа, отвечающая этой стационарной точке. Заметим, далее, что согласно B4), B5) при (жл, Afe, /ifc) E U уело™ вия A6), A7) в системе A4)—A7), определяющей (dfe, yk, zk\ можно заменить парой условий gi(xk) + (g'i(xk),d)^O, iel(x), B6) zt = O, i?{l,...,m}\I(x). B7) Итерация алгоритма равносильна отысканию решения (dk, ук, zk) системы линейных уравнений A4), A5), B6), B7). Рассмотрим задачу оптимизации с ограничениями-равенствами /(ж) —> min, х Е D, 5 = {ж Е Rn| F(z) = 0, gi(x) = 0, г Е /(ж)}. Легко видеть, что в условиях доказываемой теоремы точка ~х яв™ ляется локальным решением такой задачи, и в этой точке выполне- выполнено условие регулярности ограничений и сформулированное в теоре-
§4-4- Последовательное квадратичное программирование 143 ме 1.3.7 достаточное условие второго порядка оптимальности. Отсюда следует, что если соответствующую систему Лагранжа формально до- дополнить уравнениями fJLi = 0, г е {1,. . . ,т}\ /(ж), то полученная система уравнений относительно (ж, А, /х) Е XI будет иметь регулярное решение (af, А, /I) (в том смысле, что производная оператора такой системы в этом решении невырождена). Соответ- Соответственно в силу теоремы 3.2.1 метод Ньютона для такой системы ло- локально сходится к этому решению со сверхлинейной скоростью, а ес- если вторые производные функции / и отображений F и G непре- непрерывны по Липшицу в окрестности точки ж", то с квадратичной скоро- скоростью. Нетрудно убедиться, что для текущей точки (ж*5, Afc, fik) итера- итерация метода Ньютона состоит в переходе к точке (хк + dk, yk, zk\ где (dk, yk, zk) определяется как решение системы, состоящей из уравнений A5), B6), B7) и уравнения q 2 V^ 5 /x i H> J^ / ^ Pi &i V^ )™ i _l_ fpffxk\\T _|_ \ л zks'-(xk) = — ff(xk) B8) которое отличается от A4) лишь наличием второго слагаемого в ле- левой части. Но поскольку /х^ = 0 Уг Е {1,. . ., га} \ /(ж), найдется число М > 0, такое, что для любого ж Е Rn, достаточно близкого к ж, и любого ц Е Rm, достаточно близкого к /I, Е V Это значит, что алгоритм, итерация которого задается уравнения- уравнениями A4), A5), B6), B7), может рассматриваться как усеченный метод Ньютона, итерация которого задается уравнениями A5), B6)—B8). Согласно следствию 3.2.1 локальные свойства сходимости и скорость сходимости алгоритма полностью аналогичны соответствующим ха- характеристикам метода Ньютона 1). ? Заметим, далее, что даже из квадратичной скорости сходимости траектории {(xh, Xk, /ih)} к (ж, А, ~р), вообще говоря, не вытекает г) Из B7) следует, что на самом деле для траектории {ж^, Afc5 f^k)}j ге- генерируемой алгоритмом, будет выполнено /if = О У г Е {1,. . . , т} \ /(ж"), У к = 1, 2,. . ., т. е., уже начиная со второго шага, алгоритм будет работать как чистый, а не усеченный метод Ньютона.
144 Гл. 4- Методы условной оптимизации даже сверхлинейная скорость сходимости последовательности {ж } к ~х (см. задачу 2.1.1). Вместе с тем на практике обычно наибольший интерес представляет быстрая сходимость метода именно в прямых переменных. Соответствующий результат и содержится в следую- следующей теореме. Одновременно будет рассмотрена возможность выби- выбирать матрицы Н^, удовлетворяющие A3) не точно, а приближенно. Тем самым будет рассмотрено расширение изложенной выше схемы SQP в духе теоремы Денниса—Морэ (теорема 3.2.2). О практических правилах построения Hk с нужными свойствами см. [48]. Теорема 2. Пусть выполнены условия теоремы 1, кроме, воз- возможно, условия строгой дополнительности. Пусть, кроме того, траектория {(хк, Хк, ^к)} алгоритма 2 сходится к (ж, \,~р). Тогда скорость сходимости последовательности {хк} к ~х явля- является сверхлинейной в том и только том случае, когда * - 0 (х, A, /Z)) (xk+1 - а*)) = о(\хк+1 - хк\), B9) где К{х) = {he kerF'(x)\ (?(х), h}<:0 Vie /(ж), </7(ж), h) <: 0} — критический конус задачи (9), A0). Доказательство. Напомним, что в соответствии с алгорит- алгоритмом 2 для каждого к точка {(dk, Afc+1, /ife+1)} (где dk = xh+1 — xk) удовлетворяет системе Каруша^Куна^Таккера f'{xk) + Hkdk + (F'(xk))TXk+1 + (G'(xk))Tfik+1 = 0, C0) F{xk) + F'(xk)dk = 0, C1) G(xk) + G'{xk)dk sC 0, цк+1 > 0, C2) »k+\gi{xk) + (g'i{xk),dk)) = 0, i = l,...,m, C3) для задачи A1), A2). Из C0) следует, что - Hkdk = f'(xk) + (F'(xk)f\k+1 + (G'(xk)ffik+1 = ^^(Y \k+1 ,,к+1\ + —^(т \k+1 ик+1)(тк -r) 4- о(\тк -r\) - где учтено определение стационарной точки задачи (9), A0) и отвечающих этой точке множителей Лагранжа, а также сходи-
§4-4- Последовательное квадратичное программирование 145 мость {(Afc, /ife)} к (Л, fi). Из C4) имеем 0 (х, A, 7Z) - яЛ dfc = (F'(a;))T(Afc+1 - А) / s~i / \ \ гг / fc-4-l \ U J-J / Т" \ / кА-Л \ / I к I \ /п_\ I (l('-r>\\(li"'> # # 1 I i rn \ I I \ I *У ' <~n I I Г%\ \ Т* T» 1 I -t ^ 1 "T" \ ^-Jr \**-' ) ) \ t^> A* / "T~ o~ \ "^ 5 ^i A* / \ "^ "-1 ) ~T~ " I "k / * \ *-*^ / с?ж Предположим сначала, что скорость сходимости {ж^} к ~х сверх™ линейная, т.е. |ж^+1 — ~х\ = о(|ж^ — Щ)- Тогда C5) принимает вид = (F/(x))T(Afc+1 - А) + (Gf(x)f(fik+1 - 71) + o(|xfc - x\). C6) Поскольку {dfc} —>> 0, {fik}^JI (k —> оо), из C3) вытекает, что если к достаточно велико, то р^+1 =0 \/г Е {1,. . ., ттг} \ /(ж). Поэ- Поэтому согласно лемме 1.4.4, второму неравенству в C2) и условию до- дополняющей нежесткости V/i € i^(x") имеем fc+1 -7Z), Л) = - А) а это означает, что 7rK(IE)((JF'E;))T(Afc+1-A) + (G'(af; (см. задачу 1.1.10). Но тогда из C6) имеем —2 (ж, А, /I) - Яд 0, C7) - /Z)) = 0 /у» ГЬ 1 JL ™ С учетом того, что \dk последнее соотношение влечет B9), поскольку х — х\ \хк -х о(\хк - Щ)/\хк -Щ о(\хк -х\)/\хк -х 0 Пусть теперь выполнено B9). Прежде всего заметим, что соглас- согласно C1) 0 = F(xk) + F'{xk)dk = F'{x)[xk - х) + F'(xk)dk + о(\хк - х\) = = Ff(x)(xk+1^x)^f]k, C8) где, с учетом сходимости {хк} к ~х, vk = (F'(xk) - F'{x))dk + о(\хк - х\) = o{\dk\) + o(\xk - х\). C9)
146 Гл. 4- Методы условной оптимизации Аналогичным образом с помощью первого неравенства в C2), C3) и сходимости {/ife} к ~р устанавливается, что О=(?(х),хк+1-х) + С? Viel+(x), D0) O^OrUaf), хк+1-х) + (к Vie/0(x), D1) 0 = tf+1((g\(x), xk+1-x) + (h Vie/o(x), D2) где I+(x) = {г G /(sc)| /^ > 0}, /o(^) = {« G /(af) Дг = ^} и, кроме того, tf = o(\dk\) + o(\xk-x\), i€l(x). D3) Из условия линейной независимости и соотношений C9), D3) еле™ дует, что существует элемент ^к G Rn такой, что F'(x)^ = r,k, (g'dx), Ck) = Ci 4i€l(x), D4) \e\ = o(\dk\) + o(\xk-x\). D5) Положим /ife = xk+1 -x + ik. Из C8)-D1), D4) следует, что hk ? G K(x), и, в частности, аналогично C7) выводится соотношение ^ - А) + (^(^))T(^+1 ^ /I), Л*> = где последнее равенство следует из D0) и D2). Домножая левую и правую части C5) скалярно на hk и используя последнее соотно- соотношение, получим о2 г \ \ / й^ I дх2 К ' ' Р; V / \о>ж + o(|xfc-x||/ifc|). D6) Далее, согласно достаточному условию второго порядка оптималь- оптимальности найдется число 7^0 такое, что В2 Г — \ ^—2 (ж, A, /J)ft, h ) ^ 7l^|2 Vfo G AT (ж) с^ж / (это следует из замкнутости критического конуса). Отсюда и из D6) имеем 0 ( А 0 (х, А, -р) - Я^ dfc, hk^ + ^0 (г, А, + о(|а:* - x\\hk\) = ((^ (х, A, Ji) - Hk) dk, hk\ +
§4-4- Последовательное квадратичное программирование 147 + o(\dk\\hk\) + o(\xk-x\\hk\)^ 0 (г, А, /I) - нЛ dk) ,hk\ + o{\dk\\hk\) + + o(\xk -x\\hk\) = o(\dk\\hk\) + o(\xk -x\\hk\), где второе равенство следует из D5), второе неравенство — из ре- результата задачи 1.1.7, а последнее равенство — из B9). Таким обра- образом, \hk\ = o(\dk\) + o(\xk — ~х\). Но тогда в силу D5) \xk+1 - х\ = \hk - Ch\ = o(\dk\) + o{\xk - х\). Это означает существование последовательности {t^} С R+ такой, что tk —t 0 (к —>• оо) и для любого к \хк+1 - жК tk(\dk\ + \хк - х\) < tk(\xk+1 -x\+ 2\хк - х\). Но тогда для любого достаточно большого к fe+i _—I < 2^fc 1 ^ l-tk что и дает равенство |ж^+1 — "х\ = о(\хк — ж"|). П Сформулированные в теореме 1 условия, гарантирующие локаль- локальную сходимость метода SQP со сверхлинейной скоростью (в прямо- двойственных переменных), могут быть ослаблены: молено отказать- отказаться от условия строгой дополнительности за счет замены достаточного условия второго порядка другим условием. Это условие, называемое сильным достаточным условием второго порядка г), состоит в сле- следующем: / ^4 (я, A, -p)h, h ) > О У he K+{x) \ {0}, \ дх I где К^(х) = {h e her Ff("x)\ (g^^x), h) = 0 Vi G /_|_(ж")} (напомним, что 1+(х) = {i е /(ж") ~Рч ^ 0})- Заметим, что в случае выполнения условия строгой дополнительности /+(ж") = ^"(ж") имеет место равенство К+(х) = /Т(ж"), и сильное достаточное условие вто- второго порядка совпадает с обычным. Современные исследования метода SQP и его модификаций связа- связаны, в частности, с поисками возможностей дальнейшего ослабления условий, гарантирующих его локальную сходимость со сверхлинейной скоростью. Эти построения сопряжены с существенно более тонким анализом. По-видимому, наиболее сильный известный результат тако- такого рода использует непосредственно требование единственности пары 1) Общепринятая аббревиатура для этого условия — SSOSC (от анг- английского Strong second-order sufficient condition).
148 Гл. 4- Методы условной оптимизации множителей Лагранжа, отвечающих искомой стационарной точке, и обычное достаточное условие второго порядка оптимальности. В заключение отметим одно важное обстоятельство. Оптимизации онная сущность методов SQP создает готовую базу для глобализации их сходимости (в отличие, например, от методов, обсуждаемых в сле- следующем параграфе). Вопросы глобализации сходимости методов SQP рассматриваются в § 5.4. § 4.5. Методы решеним системы Жаруша~Куна™Таккера В этом параграфе речь пойдет о методах ньютоновского типа, адап- адаптированных для решения негладких систем уравнений, и их примене- применении к системам Каруша^Куна^Таккера (ККТ) для задач оптимизации со смешанными ограничениями. Дело в том, что такие системы, из- изначально содержащие как уравнения, так и неравенства, могут быть многими способами сведены к чистым системам уравнений. Однако возможность применения в данном контексте обычных ньютоновских методов решения гладких уравнений ограничена тем обстоятельством, что гладкие переформулировки систем ККТ могут удовлетворять условиям приведенных в п. 3.2.1 утверждений о локальной сходимос- сходимости ньютоновских методов лишь при выполнении в искомом решении условия строгой дополнительности; в ином случае производная опе- оператора такого уравнения в соответствующем его решении неизбежно вырождена. Именно это обстоятельство привело к тому, что в настоя- настоящее время значительно более популярны негладкие переформулировки систем ККТ: они не обладают неизбежной вырожденностью в случае отсутствия строгой дополнительности. Разумеется, это не компенси- компенсировало бы те сложности, которые связаны с негладкостью, если бы не наличие у рассматриваемых негладких переформулировок систем ККТ специальной структуры, которая позволяет строить на их основе вполне эффективные методы. Читателю может показаться, что данный параграф перегружен терминологией, причем не всегда удачной. Дело, однако, в том, что эта терминология является общепринятой в оптимизационном сооб- сообществе, и знакомство с ней полезно, поскольку существенно облегчает чтение современной литературы по оптимизации. 4.5.1. Эквивалентные переформулировки системы Каруша- Куна-Таккера. Пусть /: Rn —> R — гладкая функция, F: Rn —» R1 и G: Rn —> Шт — гладкие отображения. Рассматривается задача f(x) -> min, х е D, A) D = {х е Rn| F(x) = 0, G(x) ^ 0}. B)
§4-5- Методы решения системы Каруша-Куна-Таккера 149 Стационарные точки этой задачи и отвечающие им множители Ла- гранжа описываются системой ККТ || (х, А, /х) = 0, F(x) = 0, C) /О 0, G(x)^0, (м, G(x))=0, D) где L: R"xR!xRra-> R, L(x, A, ц) = f{x) + (A, F(x)) + {ц, G(x)), — функция Лагранжа. Пусть (ж, Л, /I) — решение системы C), D). Как обычно, будем обозначать через gi('), i = 1,. . . ,m, компоненты отображения G, а через /(ж) = {г = 1,. . ., га| gi(~x) = 0} — множество индексов актив™ ных в точке ~х ограничений-неравенств задачи A), B). Если предполагать выполнение условия строгой дополнительно™ сти, т. е. ~Pi>0 УгЕ/(ж), то вблизи точки {х, А, /х) группа соотношений D) эквивалентна си- системе уравнений ^=0, г G {1, ..., т}\/(ж), gi{x) = 0, i e 1{х). E) Таким образом, система ККТ C), D) локально эквивалентна систе- системе C), E), состоящей из п + 1 + ?7г уравнений относительно (ж, Л, /i) E Е Rn х R1 х Rm. Если /, F ш G дважды дифференцируемы, то к последней системе применим обычный метод Ньютона, аналогич- аналогично тому, как это делалось в п. 4.3.1 в случае задачи с чистыми огра- ограничениями-равенствами. Разумеется, практическая применимость та- такого подхода ограничена тем, что множество 1{х) обычно заранее не известно. Способы идентификации этого множества, в том числе и без предположения о строгой дополнительности, а также основан- основанные на такой идентификации методы будут рассмотрены в § 4.6. Здесь же речь пойдет о методах решения системы ККТ, не свя- связанных ни с предположением строгой дополнительности, ни с явной идентификацией /(ж"). В случае выполнения условия строгой допол- дополнительности эти методы редуцируются к обычному методу Ньюто- Ньютона для системы C), E). Идея по-прежнему состоит в том, чтобы пе- переписать соотношения D) в виде системы уравнений, но эта систе- система не должна содержать неизвестных априори элементов. Разумеет- Разумеется, за удобство иметь дело с чистыми системами уравнений (без не- неравенств) приходится платить определенную цену. Как будет пока- показано ниже, в данном случае цена состоит либо в потере гладкости, либо в неизбежной вырожденности производной оператора перефор- переформулированной системы в решении. В определенном смысле первое предпочтительнее, поскольку этот путь в сочетании с применением
150 Гл. 4- Методы условной оптимизации современного негладкого анализа естественным образом приводит к вполне реализуемым алгоритмам с привлекательными локальными свойствами сходимости. Определение 1. Функция ^: RxR~>R называется функцией дополнительности, если множество решений уравнения ф(а,Ь) = 0 совпадает с множеством решений системы а ^ 0, 6^0, аЪ = 0. Два важных примера функций дополнительности доставляют функция естественной невязки ф(а, b) = min{a, 6}, a, b Е R, F) и функция Фишера-Бурмейстера ф(а, Ь) = л/а2 + Ь2 -а- 6, а, Ъ G R. G) Задача 1. Проверить, что заданные формулами F) и G) функ- функции действительно являются функциями дополнительности. Задача 2. Пусть ш: R —>- R — любая монотонно возрастающая функция, clj(O) = 0. Доказать, что функция ^:RxR->R, ^(а, 6) = ш(\а - Ь\) - и (а) - Ц6), является функцией дополнительности. Совершенно ясно, что, выбрав функцию дополнительности ф, со- соотношения D) можно эквивалентным образом записать в виде -^(^i, —5Ti(^)) = 0, i = l,...,m. (8) Соответственно всю систему ККТ C), D) можно заменить систе- системой C), (8) из п + I + m скалярных уравнений с теми же неиз- неизвестными. Очевидно, функция ф, определенная в F) или G), не является дифференцируемой в точке @, 0). Отсюда следует, что если условие строгой дополнительности не выполнено, то оператор соответствую- соответствующей системы C), (8) недифференцируем в ее решении (ж, Л, /х), какими бы гладкими ни были /, F и G. Это обстоятельство явля- является важнейшей мотивировкой развития обобщенных вариантов ме- метода Ньютона, применимых к негладким уравнениям; см. п. 4.5.2. Существуют также и всюду дифференцируемые функции допол- дополнительности, например, ф(а, Ь) = 2ab - (min {0, а + б}J, a, b E R. (9) Задача 3. Проверить, что заданная в (9) функция действитель- действительно является функцией дополнительности.
§4-5- Методы решения системы Каруша-Куна-Таккера 151 Переформулировки, основанные на гладких функциях дополни- дополнительности, неизбежно вырождены в следующем смысле: легко видеть, что при невыполнении условия строгой дополнительности производ- производная оператора системы C), (8) в точке (ж, Л, ~р) вырождена. А имен™ но, строки матрицы этой производной, отвечающие тем индексам г Е Е /("ж), для которых ~pi = 0, являются нулевыми. Подчеркнем, что это свойство присуще любым гладким переформулировкам системы ККТ, т. е. не является следствием неудачного выбора функции допол- дополнительности, например, введенной в (9). Поэтому обоснование стан™ дартного метода Ньютона и применение его к системе ККТ связано с принципиальными трудностями. Негладкие переформулировки могут быть невырождены (в пояс- поясняемом ниже смысле) и при невыполнении условия строгой дополни- дополнительности. Кроме того, негладкость этих переформулировок обладает весьма специальной структурой, допускающей построение эффектив- эффективных алгоритмов. 4.5.2. Элементы негладкого анализа и обобщенный метод Нью- Ньютона. В этом пункте приводится краткая сводка понятий и фактов негладкого анализа, необходимых для дальнейшего изложения. Важ- Важнейшую роль в современном негладком анализе играет следующая теорема Радемахера [24, 27]. Теорема 1. Пусть отображение F: Жп —> R1 непрерывно по Липшицу на открытом множестве V С Rn. Тогда для множества XV точек дифференцируемости F мера Лебега множества V \ XV равна нулю. Значение теоремы Радемахера состоит в том, что она позволяет вводить содержательные обобщенные понятия производной для отоб- отображений, не дифференцируемых в обычном смысле. Так, В-диффе- В-дифференциалом отображения F: Жп -^ R1 в точке х Е Rn называется множество = {Ае R(/, n)\ 3{xk} С X>F: {xk} -+ ж, {Ff(xk)} -+ А (к -+ о©)} (индекс В — в честь Булигана). Дифференциалом Кларка отображе- отображения F в точке х называется множество dF(x) = convdBF(x). Задача 4. Доказать, что если отображение F: Rn —>- R1 непре- непрерывно по Липшицу на некоторой окрестности точки х Е Rn с кон- константой L > 0, то dF(x) — непустой компакт, причем \\A\\ ^ L 8F(x).
152 Гл. 4- Методы условной оптимизации Разумеется, практическое значение введенных понятий, и в том числе при построении методов оптимизации, проявляется в связи с тем, что В -дифференциал и/или дифференциал Кларка либо их отдельные элементы могут быть вычислены во многих важных елуча- ях. Сразу отметим следующие очевидные факты. Для отображе- отображения F: Rn —>> R/1 х Rl2, F(x) = (Fi(x), F2(x)), справедливо вклю- включение dBF(x) С dBF1(x) x dBF2(x) Ухе Rn. Если при этом Ft дифференцируемо в окрестности точки ж, то {F{(x)} x dBF2(x) С С ObF(x), а если производная F\ непрерывна в точке ж, то послед™ нее включение выполнено как равенство. Задача 5. Пусть ff. Rn —>> R — дифференцируемые на Rn функции, г = 1, . . . , s. Положим /(ж) = min fi(x), I(x) = {i = l,...,s\ fi(x) = f(x)}, x e Rn. Показать, что для всякого х Е Rn такого, что производная fi непрерывна в точке х для каждого г G /(ж), справедливо дв/(х)сШх)\ге1(х)}, причем это включение выполнено как равенство, если для каждо- каждого г Е 1{х) найдется сходящаяся к х последовательность \_хг>к} С С Rn такая, что 1(х1>к) = {i} У к. Задача 6. Пусть G: Rn —> Шт — дифференцируемое на Rn отображение с компонентами gii'), г = 1,. . ., т. Введем отображе- отображение Ф: Rn х Rm —> Rm с компонентами где ф — введенная в F) функция естественной невязки. Показать, что для всякого х Е Rn такого, что производная G не- непрерывна в точке ж, и V /х Е Rm В-дифференциал <9вФ(ж, /i) со- состоит из матриц вида (—А(х, /i)G"(x), Em — Л(ж,/х)), где Л(ж, /i) — диагональная т х т -матрица с диагональными элементами {1, если /ii > -#г(ж), О или 1, если fa =—gi(x), г = 1, ...,7тг. A0) 0, если /1г < -^(ж), Задача 7. В условиях задачи 6 рассмотреть случай, когда ф — введенная в G) функция Фишера^Бурмейстера. Показать, что для всякого ж Е Rn такого, что производная G непрерывна в точке ж, и всякого /i E Rm 9вФ(ж, /i) состоит из матриц вида (А(х, fi)Gf(x), B(x,jjl)), где Л(ж,/х) и B(x,jj,) — диагональные т х т -матрицы
§4-5- Методы решения системы Каруша-Куна-Таккера 153 с диагональными элементами 1+ , gi(x) , если \/\ Ы)\ (и) ctu если \fii\ + \gi(x)\ = 0, Ui = — 1, если \/ii\ + |gi(x)| ф О, 6,(х,/i) = { д/^?+*?(*) A2) _. 1 ррттш I I» . Л- o'*f/F>|| — П «i, ftGR, a^ + /?г2 = 1, i = 1,. . ., m. На основе дифференциала Кларка вводится следующее условие, которое будет играть центральную роль при обосновании вводимого ниже обобщенного метода Ньютона. Будем говорить, что отображе- ние F: Шп —> R1 удовлетворяет в точке х G Rn условию гладкости Куммера, если sup \F(x + h) - F(x) - Ah\ = o{\h\), AedF{x+h) и сильному условию гладкости Куммера, если sup \F(x + h) - F(x) - Ah\ = O(\h\2). AedF{x+h) Некоторые другие важные концепции обобщенного дифференци- дифференцирования основаны на обычном понятии производной по направлению. Напомним, что отображение F: Шп —> R1 называется дифферен- дифференцируемым в точке х G Rn no направлению h G Rn, если суще™ ствует конечный предел Mm (F(x + th) — F(x))/t. Сам предел при этом называется производной отображения F в точке х по направ- направлению h и обозначается Ff(x; h). Разумеется, если F дифференци™ руемо в точке ж, то оно дифференцируемо в этой точке по любому направлению, причем Ff(x; h) = F'{x)h \f h ? Rn. Задача 8. Доказать, что если отображение F: Жп —» R1 непре- непрерывно по Липшицу на некоторой окрестности точки х ? Rn и диф- дифференцируемо в этой точке по любому направлению, то: а) положительно однородное отображение h —ъ- Ff(x; h): Жп —ъ- R1 непрерывно по Липшицу на Rn; б) для каждого h G Rn найдется матрица A G ObF(x) такая, что Ff(x; h) = Ah; в) отображение F В-дифференцируемо в точке ж, т.е. F(x + h) - F(x) - Ff(x; h) = o{\h\).
154 Гл. 4- Методы условной оптимизации Концепцией, объединяющей в себе непрерывность отображения по Липшицу в окрестности данной точки, (сильное) условие гладко- гладкости Куммера, а также дифференцируемость по любому направлению, служит часто используемое в последнее время условие полу глад кости: отображение F: Rn —> R1, удовлетворяющее указанным трем уело™ виям в точке х ? Rn, называется (сильно) полугладким в этой точке. Популярность этого условия связана, видимо, с тем, что составляю™ щие его три условия часто оказываются выполненными одновремен- одновременно. Существует ряд эквивалентных определений полу глад кости. Задача 9. Доказать, что если отображение F: Жп —» R1 непре- рывно по Липшицу на некоторой окрестности точки х Е Rn, то оно полугладко в точке х тогда и только тогда, когда для любого h E Е Rn существует конечный предел lim A?, не зависящий от выбора А Е dF(x + t?). Показать, что при этом указанный предел совпадает с Ff(x; h). Задача 10. Доказать, что если отображение F: Rn —» R1 не- непрерывно по Липшицу на некоторой окрестности точки х Е Rn и дифференцируемо в этой точке по любому направлению, то оно удо- удовлетворяет в точке х условию гладкости Куммера тогда и только то- тогда, когда sup \Ah- Ff(x; h)\ = o(\h\), AEdF{x+h) и сильному условию гладкости Куммера тогда и только тогда, когда sup \Ah- Ff(x; h)\ = O(\h\2). A(EdF(x+h) Из теоремы о среднем легко выводится, что непрерывно диффе- дифференцируемое в окрестности данной точки отображение полугладко в этой точке. Если дополнительно производная отображения непре- непрерывна по Липшицу вблизи рассматриваемой точки, то отображение сильно полугладко в этой точке. Задача 11. Доказать, что если функция F: Rn ^R выпукла на некоторой (выпуклой) окрестности точки х Е Rn, то F полу- полугладка в точке х. Задача 12. Доказать, что если отображения Fi, F2: Rn —> R1 полугладки в точке х Е Rn, то скалярное произведение, сумма, по- покомпонентный максимум и покомпонентный минимум F\ и F2 так- также полугладки в точке х. Задача 13. Доказать, что если отображения Fi: Rn —» R*1 и F2: Rn —)> Rl2 полугладки в точке х Е Rn, то отображение F: Шп -)> R11 х Rl2, F(x) = (Fi(z), F2(x)), полугладко в точке х.
§4-5- Методы решения системы Каруша-Куна-Таккера 155 Задача 14. Доказать, что если отображение F\: Rn —> Rlx no™ лугладко в точке х Е Rn, а отображение i^: R^1 -^ R^2 полугладко в точке Fi(x), то отображение F: Rn —>• Rl2, F(x) = F2(F1(x))J no™ лугладко в точке х. Теперь рассмотрим отображение Ф: Rn —>• Rn. Естественным обоб- обобщением метода Ньютона для уравнения Ф(х) = 0 A3) является следующая итерационная схема: xk+1 = xk- A^4(xk), ife = 0, 1, ..., A4) где Ak E дФ(хк) либо Afe Е с^Ф^). Таким образом, обобщенный метод Ньютона состоит в сле- следующем. Алгоритм 1. Выбираем вариант В или С алгоритма. Выби- Выбираем ж0 Е Rn и полагаем /г = 0. 1. Вычисляем некоторую матрицу А^ € ^яФ(ж^) в случае вари™ анта В и Ак Е <9#(xfc) в случае варианта С. Вычисляем ж^+1 Е Rn как решение линейной системы Ак{х-хк) = -Ф{хк). 2. Увеличиваем номер шага к на 1 и переходим к п. 1. Условие невырожденности, которое понадобится для обоснования локальной сходимости обобщенного метода Ньютона, вводится сле- следующим образом. Отображение Ф: Rn —> Rn называется BD-регу- лярным (CD-регулярным) в точке ~х Е Rn, если любая матрица А Е Е 9^Ф(ж") (Л Е 9Ф(^)) невырождена. Теорема 2. Пусть отображение Ф: Rn —>> Rn непрерывно по Липшицу в некоторой окрестности точки ~х Е Rn u удовлетворяет в этой точке условию гладкости Куммера. Пусть ~х является реше- решением уравнения A3), причем отображение Ф BD-регулярно в точ- точке ~х Е Rn в случае использования варианта В алгоритма 1 и CD-ре- CD-регулярно в случае использования варианта С. Тогда любое начальное приближение х° Е Rn, достаточно близ- близкое к ж", корректно определяет траекторию алгоритма 1, которая сходится к ~х. Скорость сходимости сверхлинейная^ а если Ф удов- удовлетворяет в точке ~х сильному условию гладкости Куммера, то квадратичная. Доказательство. Схема доказательства та же, что и схема до- доказательства теоремы 3.2.1. Ограничимся рассмотрением варианта В алгоритма (вариант С рассматривается аналогично). Из результата задачи 4, определения В -дифференциала и дифференциала Кларка, а также теоремы о малом возмущении невырожденной матрицы рас- рассуждением от противного выводится существование окрестности U
156 Гл. 4- Методы условной оптимизации точки ~х и числа М > 0 таких, что detA/O, \\А^г\\<:М У А Е двФ{х), Уж Е U. A5) В частности, итерация алгоритма 1 из любой точки хк G U коррект- корректно определена. Далее, в силу A4), A5) и условия гладкости Куммера в точке ж окрестность U можно выбрать так, что если хк Е U и А^ G двФ(хк)^ то < ||Л^1|||Ф(а!*)-Ф(г)- Ак(хк-х)\ = о(\хк-х\). A6) Отсюда следует, что, во-первых, всякое начальное приближение ж0, достаточно близкое к ж7, корректно определяет траекторию алгорит- алгоритма 1, а во-вторых, эта траектория сходится к ж со сверхлинейной скоростью. Наконец, если в точке ж выполнено сильное условие гладкости Куммера, то оценка A6) принимает вид — ж = О(\хк-х\- что и дает квадратичную скорость сходимости. ? В завершение этого пункта приведем результат об оценке расстоя- расстояния до решения уравнения A3), который понадобится в § 4.6. Будем говорить, что дифференцируемое в точке ~х Е Rn по любому направ- направлению отображение Ф: Rn —> Rn обладает в этой точке Rg -свойст- -свойством^ если sji ? ц/1 Ф;(ж"- h) = 0} = {0}. Подчеркнем, что согласно утверждению б) задачи 8, если отобра- отображение Ф вдобавок непрерывно по Липшицу на некоторой окрестно- окрестности точки ж", то BD-регулярность Ф в точке ~х влечет Rq -свойство в этой точке. Теорема 3. Пусть отображение Ф: Rn —>- Rn непрерывно по Липшицу в некоторой окрестности точки ~х Е Rn с константой L > 0 и дифференцируемо в этой точке по любому направлению. Пусть Ф(аГ) = 0 и Ф обладает в точке IE Rq-свойством. Тогда найдутся окрестность U точки ~х в Rn и число М > 0 такие, что \х-х\^ М|Ф(ж)| Уж Е U. Доказательство. От противного: предположим, что найдет- найдется последовательность {xk} С Rn такая, что {ж^}^ж (& —>> оо), хк ф ~х У к, и, кроме того, •0 (А;-юо). \хк -х
5- Методы решения системы Каруша-Куна-Таккера 157 Для каждого к положим hk = (хк — х)/\хк — х\, tk = \хк — х\. Без ограничения общности можем считать, что последовательность {hk} сходится к некоторому h Е Rn, | h | = 1. Тогда V к имеет место | L\hk -h\- \Ф{хк)\ xk -x О (к —> ex)), откуда следует равенство Ф;(ж; Л) = 0, противоречащее R® ™свойст™ ву. ? 4.5.3. Обобщенный метод Ньютона для системы Каруша-Жуна- Тажжера. Согласно сказанному в п. 4.5.1, если выбрана функция до- дополнительности ф (см. определение 1), система ККТ для задачи A), B) сводится к уравнению Ф(ж, Л, ц) = 0, A7) где Ф: Rn x R1 x Rm -> Rn x R1 x / dL, x Ф(ж, Л, /i) = A8) Согласно теореме 2 для обоснования применимости обобщенного метода Ньютона к уравнению A7) достаточно указать условия, гаран- гарантирующие (сильную) полугладкость Ф и его G1)-регулярность (или HD-регулярность) в искомом решении. Предложение 1. Пусть функция f: Rn —> R и отображения F: Шп —> R1 и G: Жп —>- Rm дифференцируемы на Rn, причем их производные полугладки в точке ~х Е Rn. Тогда при любых А Е R1 iz /i G Rm отображение Ф, введен- введенное в A8) с использованием функции ф, заданной в F), полугладко в точке (ж", А, //). Если шее /, F и G дважды дифференцируемы в некоторой окрестности ж, причем их вторые производные непре- непрерывны по Липшицу на этой окрестности, то Ф сильно полугладко в точке (af, A, /i). Задача 15. Используя результаты задач 12-14, доказать предло- предложение 1. Задача 16. Доказать аналог предложения 1 для случая исполь- использования функции ф, заданной в G).
158 Гл. 4- Методы условной оптимизации Предложение 2. Пусть функция /: Rn —>> R и отображе- отображения F: Rn —>• R1 и G: Rn —>• Rm дифференцируемы на Rn ti дваж- дважды дифференцируемы в точке ж Е Rn, причем их первые производ- производные непрерывны по Липшицу на некоторой окрестности ~х. Пусть в точке ж выполнено условие линейной независимости, причем ~х — стационарная точка задачи A), B), а А Е R1 и ~р Е R!p — однознач- однозначно отвечающие ей множители Лагранжа. Пусть, наконец, в точ- точке ж выполнено сильное достаточное условие второго порядка^ т. е. (ж, A, -p)h, h) > 0 V/iG К+(ж)\{0}, A9) , дх где К+(х) = {h Е ker Ff(~x)\ (^(ж), h) = 0 \/г Тогда отображение Ф, введенное в A8) с использованием функ- функции ф, заданной в F), CD-регулярно (а значит, и BD-регулярно) в точке (ж", А, /х). Доказательство. Для произвольной матрицы if Е 9Ф(af, А, 7^)? согласно результату задачи 6, найдется множество индексов Jq С С /о(ж") = {г € /(ж)| ^ = 0} такое, что, полагая J+ = /(ж") \ Jq, J_ = {1,. . ., ra}\/(af), при соответствующей нумерации последних тв компонент отображения Ф будем иметь Н = О О О О О О О О О О О EJo ¦ О о о \ О О О О Ej^ / где А — диагональная | J® \ х | Jo | -матрица с диагональными эле- элементами п{ Е [0,1], г = 1,. . ., | Jo|, и для множества индексов J С С {1,..., т} Ej обозначает единичную \J\ x \J\ -матрицу, a G'j{x) — подматрицу матрицы С'(af), составленную из строк, номера которых принадлежат J. Пусть и = (ж, А, /1+, /1°, Д~) Е ker if, где х Е Rn, А Е R1, Д+ G RlJ+l, Д° G R|J°I, /i^ E R|J4 Тогда + (Gj (ж))тД+ + (G'j (ж))тД0 + (Cj (ж))тД^ = 0, B0)
§4-5- Методы решения системы Каруша-Куна—Таккера 159 F'(x)x = 0, B1) (g'i(x),x)=O, i€J+, B2) -atig'iix), ж) + A - о<)Д? = 0, ieJ0, B3) /Г = 0. B4) Но /+(ж") = 1{х) \ 1о(х) С 1{х) \ Jo = J+5 поэтому условия B1) и B2) влекут включение ж G /f+(aF). Умножая обе части B0) скаляр- но на ж и используя соотношения B1)—B4), получим —г (х, а, /I) г, г \ + J2 Д?<я<(г), г) = о. B5) Поскольку % G [0,1], равенство B3) подразумевает, что /i^(g^("x), ж) ^ 0 У i E Jq. Но тогда из условия A9) и соотношения B5) следу- следует, что ж = 0. Кроме того, используя равенство B4), из B0) выводим (F;(x))TA + F?^+(ж))тД+ + (б?^0(ж))тД° = 0, где J+ U Jo = /(ж). Отсюда и из условия линейной независимости следует, что А = 0, Д+ = 0, Jl° = 0, т.е. й = 0. Тем самым показано, что кет Н = {0} Л)- ? Предложение 3. Б условиях предложения 2 отображение Ф, введенное в A8) с использованием функции ф^ заданной в G), CD-ре- CD-регулярно (а значит, и ВD-регулярно) в точке (af, А, /I). Доказательство. Для произвольной матрицы Я G 9Ф(оГ, А,70 согласно результату задачи 7 имеем Н = \ F'(x) А(х, Ji)G'{x) 0 В(х, /I) где Л (ж, fjb) и В (ж, /х) — диагональные w x w-матрицы с опреде- определенными согласно A1), A2) диагональными элементами оц = a^af, /I) и 6г = ЬДи, ~р) соответственно, г = 1,. . ., т. Пусть и = (ж, А, Д) G кег Я"; тогда ^™4 (^ А, /I) ж + (F;(z))TA + (б?/(ж))тД = 0, B6) F;(x)? = 0, '-(x), ж) Н- Ь*Д* = 0, г = 1,. . . ,га. B7) B8)
160 Гл. 4- Методы условной оптимизации Заметим, что согласно A1), A2) для г Е 1+(х) справедливо ац = = 1, bi = 0. Поэтому из B8) следует, что В частности, из B7) и B9) вытекает, что ж Е К+{х). Далее, согласно A1), A2) для г Е {1,. . ., т} \ /(ж) справедливы равенства оц = 0, bi = — 1, а для г Е Iq(x) = {г Е /(ж)| /^ = 0} справедливы неравенства а{ ^ 1, 6^ ^ 0. Поэтому из B8) следует д- = 0 Vi Е {1 т\ \ 1Сх) C0) Jii(gi(n)i S) ^ 0 Vi Е /0(ж). C1) Умно»:ая обе части B6) скалярно на ж и принимая во внима- внимание B7), B9), C0), получим —2- (ж, А, -р) ж, х) + V ^(^(ж), х) = 0. С/Ж / _ Но тогда из A9) и C1) следует, что ж = 0. Кроме того, исполь- используя C0), из B6) выводим (F'(x))TA+ ]P Д^(ж) = 0. Отсюда и из условия линейной независимости следует, что А = 0, Jii = Q Vi E 1(х), а значит, и = 0. Таким образом, ker H = {0} c,A,/J). ? Алгоритм 2. Выбираем функцию дополнительности ^: R х xl->R согласно F) или G). Выбираем (ж0, А0, /х°) Е Rn xR1 xRm и полагаем А; = 0. 1. Вычисляем некоторую матрицу Н^ Е R(n + I + ?тг, п + I + m). Вычисляем (жл+1, Afe+1, /ifc+1) E RnxRlxRm как решение линейной системы Hk((x, А, М) - (xfc, Afe, /)) = -Ф(х", Afc, /), где Ф введено в A8). 2. Увеличиваем номер шага к на 1 и переходим к п. 1. Если для каждого к в приведенном алгоритме выбирается Н& Е Е 9вФ(ж^, Afe, /ife) либо //д. Е 9Ф(ж^, Afe, /ifc), то приходим к обоб"- щенному методу Ньютона для системы ККТ. Для вычисления та- таких матриц могут использоваться формулы из задач 6 и 7, что делает метод вполне реализуемым (о выборе Hk еще будет сказано ниже). Результат о локальной сходимости и скорости сходимости обобщенно- обобщенного метода Ньютона для системы ККТ следует немедленно из теоре- теоремы 2, предложений 1-3 и результата задачи 16.
§4-5- Методы решения системы Каруша-Куна-Таккера 161 Теорема 4. Пусть в дополнение к условиям предложения 2 функция /: W1 -+ R и отображения F: Жп ->> R1 и G: Жп -+ Rm дважды дифференцируемы в некоторой окрестности точки ~х ? Rn, причем их вторые производные непрерывны по Липшицу на этой окрестности. Тогда любое начальное приближение (ж0, Л°, /х°) Е Rn x R1 x RTO, достаточно близкое к точке (х, A, /х), корректно определяет сходя- сходящуюся к (ж, Л, /х) траекторию алгоритма 2, в котором использу- используются матрицы Н^ Е «ЭФ(ж^, Afc, /xfe) ^ля каждого к = 0,1,. . . Ско- рость сходимости квадратичная. Поскольку из теоремы 4 не следует автоматически не только квад- квадратичная, но даже сверхлинейная скорость сходимости алгоритма 2 в прямых переменных, рассмотрим отдельно вопрос о скорости схо- сходимости в прямых переменных. Одновременно, как и в п. 4.4.2 для методов последовательного квадратичного программирования (SQP), рассмотрим квазиньютоновский вариант алгоритма 2, не требую- требующий вычисления вторых производных функции / и отображений F и G. Для простоты ограничимся случаем использования функции естественной невязки. Будем выбирать Н^ в соответствии со следую- следующим правилом: C2) / Afc F'(x -G'( J + \ ° i(n, n) k) xk (Ff(xk) 0 ) о 0 некоторое + 0 0 0 приближение к {G'Jh_ E дЧ дх2 ^ (xk 0 0 xk, J к где A J\ = J+{xk, fik) = {i = 1,. . ., m\ fik > -gi(xk)}, Jk = J^(xk, fik) = {i = 1,. . ., m\ /if < -gi(xk)h a Ejk ^единичная |J^| x \J^\ -матрица. Заметим, что если Д^ = —^ (хк^ ^^? ^к)ч т05 как следует из ре- дх зультата задачи 6, имеет место включение Нк € дФ(хк, Afe, fik) (при соответствующей нумерации последних т компонент отображения Ф). Теорема 5. Пусть выполнены условия теоремы 4. Пусть, кро™ ме того, траектория {(хк, Хк, [лк)} алгоритма 2, в котором ото- отображение Ф введено в A8) с использованием функции ф, заданной в F), и для каждого к = 0,1,... матрица Нк выбирается соглас- согласно C2), сходится к (af, А, /I). 6 А.Ф. Измаилов, М.В. Солодов
162 Гл. 4- Методы условной оптимизации Тогда если скорость сходимости последовательности {хк} к ~х является сверхлинейной, то Л, _ fa \ ТЛ \ Г^/с + 1 _ т>к\ — п(\гк + 1 — -гк\\ (ЧЧ\ 1Хк а_2 V ' ' Р/ | I*1' / I — b»|Jjy ^ |j, у*3*3) где N(x) = {he ker F'(z)| (?(х), ft) = О Vie /(ж)}. Наоборот, если ilt — o" \ Jy i Л.ш LJL I I \ Ju — Jb ) ] — U\\JL — JL J, l О*± I wo скорость сходимости {xk} к ~х является сверхлинейной. Доказательство. В соответствии с алгоритмом 2 и C2) для каждого к Кк{хк+1 - хк) + (Ff(xk)f(Xk+1 - Хк) + (Gf(xk)f(fik+1 - ^к) = — ~~д^ Vх ' Л ' М /' \6i}) F'(xk)(xk+1 - хк) = -F(xk), C6) ' К ieJk, C7) eJk_. C8) Согласно определению J^ и Jz. соотношения C7) и C8) перепи- переписываются в виде fr-(xk) + (g'.(xk) xk+1 - хк) — 0 г е Jk C9) м?+1 = о, ieJ^, D0) Кроме того, сходимость {(хк, fik)} к ("ж, /I) влечет включения /+(ж) С Jk, {1,. .., m} \ /(г) С Л D1) для любого достаточно большого к. Из C5) имеем Ак(хк+1 - хк) = f'(xk) + (F'(xk))TXk+1 + (G'(xk))Tfik+1 = ^ (x, Xk+1, цк+1)(хк -x) + o(\xk - x\) = (F'(x))T(Xk+1 - A) OX + (G(x))(n м) + ft @> ^ Ж* *) + °(\х ^)' OX где учтено определение стационарной точки задачи A), B) и от- отвечающих этой точке множителей Лагранжа, а также сходимость
§4-5- Методы решения системы Каруша-Куна-Таккера 163 {(Afc, //*)} к (А, -р). Из D2) имеем ^ (х, А, 71) - лЛ [xk+1 - xk) = (F'(a))T(A*+1 - А) + + (G?/(x))T(/ife+1 — /х) Н 2" Сё? А? 7*)(жА;+1 ~ ^) + o(|zfc — ж"|). D3) дх Предположим сначала, что скорость сходимости {хк} к ~х сверх™ линейная, т.е. \хк^г —~х\ = о(\хк — af|). Тогда D3) принимает вид О Lj / ~7~ \ « \ / h-i-1 h \ —2 (ж, A, /i) — Ад. 1 (х ^ — х ) = = {F'{x))T(Xk+1 - А) + (G"(^))T(jtife+1 - 7*) + o(|xfe - ж|). D4) Согласно D0), D1) и условию дополняющей нежесткости \/ h G N{x) выполняется = ^J (м^+1 ~ Mi)(^i("^)? ^) = 0? D5) а это означает, что (в данном случае N{x) — линейное подпространство в Rn, а тгм{х){' •) — оператор ортогонального проектирования на это подпростран- подпространство). Но тогда из D4) имеем (хк+1 — хк) 1 = о(\хк — Щ). Отсюда так же, как в соответствующей части доказательства теоре- теоремы 4.4.2, следует выполнение C3). Пусть теперь выполнено C4). Прежде всего заметим, что соглас- согласно C6) 0 = F(xk) + Ff(xk)(xk+1 - хк) = Ff(x)(xk - х) + + Ff(xk)(xk+1 - хк) + о(\хк - х\) = Ff(x)(xk+1 - х) + f]k, D6) где с учетом сходимости {хк} к ~х Vk = (F'(xk) - F'(x))(xk+1 - хк) + о(\хк - х\) = = о(|а:*+1-а:*|) + о(|а;*-г|). D7) Аналогичным образом с помощью C9) устанавливается, что 0=(?(х),хк+1-х) + ?? Vie 4, D8) где С* = о(|а;*+1-а;*|) + о(|ж*-г|) VЧ е Jk+. D9)
164 Гл. 4- Методы условной оптимизации Из условия линейной независимости и соотношений D6) и D8) следует, что существует элемент ^к Е Rn такой, что F'(x)?k = vk, (g'm, tk) = С? Vie Jk+) E0) \?k\ = o(\xk+1 -xk\) + o(\xk - x\). E1) Положим hk — xk+1-x + ?k. Из D1) и D6)-E1) следует, что hk e ? K+(x), и аналогично равенству D5) выводится соотношение ((F'(x))T(\k+1 - A), ft*) + <(G'(aO)T(/+1 - /I), hk) = = E (м.-+1-мг)<^(^),л*>+ где последнее равенство следует из D0), D8) и E0). Оставшаяся часть доказательства совершенно аналогична соответ- соответствующей части доказательства теоремы 4.4.2. ? Кратко остановимся на сравнении достоинств и недостатков обоб- обобщенного метода Ньютона для системы ККТ и методов SQP. С одной стороны, локальная сходимость первого доказана в теореме 4 лишь в предположении о выполнении сильного достаточного условия вто- второго порядка вместо обычного достаточного условия второго поряд- порядка оптимальности. С другой стороны, итерация обобщенного метода Ньютона менее трудоемка, поскольку состоит в решении линейной си- системы, а не задачи квадратичного программирования. Отметим так- также, что приведенное в теореме 5 условие C4), достаточное для нали- наличия у обобщенного метода Ньютона сверхлинейной скорости сходимо- сходимости в прямых переменных, несколько слабее соответствующего усло- условия для методов SQP (см. теорему 4.4.2). Структура методов SQP допускает различные стратегии глобализации сходимости (см. § 5.4). Однако глобализация сходимости обобщенного метода Ньютона для системы ККТ также возможна, и в последнее время были найдены весьма эффективные схемы такой глобализации. Заметим, что согласно результату задачи 6 отображение Ф, введенное в A8) с использованием функции ф, заданной в F), BD- регулярно в точке (af, А, ~р) тогда и только тогда, когда в этой точке выполнено так называемое условие квазирегулярности^ состоящее в следующем: матрица /f)—(Y X 17) (F'(~t))t (Gf (T))T (Gf (VHT^ Ff(x) 0 0 0 G'j ^(x) 0 0 0 V G'j(x) 0 0 0 невырождена для любого множества индексов J С /о(ж"). Условие квазирегулярности содержит в себе условие линейной независимости,
§4-6- Идентификация активных ограничений 165 но при выполнении последнего является более слабым, чем сильное достаточное условие второго порядка. Тем не менее, как следует из теоремы 2, квазирегулярности достаточно для обоснования локаль- локальной сходимости соответствующей версии обобщенного метода Ньюто- Ньютона с квадратичной скоростью. Наконец, отметим, что требования гладкости в теореме 4 можно понизить в духе предложения 1, если говорить о сверхлинейной ско- скорости сходимости вместо квадратичной. Это обобщение не вызывает затруднений и может быть реализовано читателем самостоятельно. § 4.6. Идентификация активных ограничений В этом параграфе будем рассматривать задачу оптимизации с ограничениями-неравенствами f(x) —> min, х G D, A) D = {х еЖп\ G(x) ^0}, B) где /: Rn —> R — гладкая функция, G: Жп ~~> Rm — гладкое отоб- ражение с компонентами gi{'), i = l,...,m. Проводимые ниже построения распространяются на случай смешанных ограничений очевидным образом; все принципиальные моменты здесь касаются именно ограничений-неравенств, поэтому ограничения-равенства не рассматриваются. Пусть ~х G Rn — стационарная точка задачи A), B). Цель состоит в идентификации множества /(ж") = {г = 1, ...,ra gi(x) = 0} ин- индексов активных ограничений в точке ~х. Такая идентификация мо- может быть полезна в ряде случаев. Например, она позволяет сводить задачу с ограничениями-неравенствами к задаче с ограничениями- равенствами в следующем смысле: стационарная точка ж задачи A), B) будет стационарной и в задаче f(x) —>- min, xGD, Задача с ограничениями-равенствами в принципе проще; напри- например, к ней напрямую применимы методы, рассмотренные в § 4.3. Приведенное соображение используется во многих алгоритмах реше- решения задачи A), B). Разумеется, речь идет о возможности идентификации 1{х) без точного знания ~х. Точнее, пусть разрешено использовать информа- информацию, доступную в точке (ж, /х) Е Rn x Rm, где х — некоторое при- приближение к з:, а /1 — приближение к (также неизвестному) множи- множителю Лагранжа /I, отвечающему ж.
166 Гл. 4- Методы условной оптимизации 4.6.1. Идентификация, основанная на оценках расстояния. Ста™ ционарные точки задачи A), B) и отвечающие им множители Ла- гранжа описываются системой Каруша-Куна-Таккера ff (*, М) = 0, C) /х ^ О, G(x) ^ 0, (м, G(x)) = 0, D) где L: RnxRm4 R, L(x, p) = /(ж) + (//, G(x)), — функция Лагранжа. Пусть Л4(~х) — множество множителей Лагранжа, отвечающих изолированной стационарной точке ~х задачи A), B), т.е. множество таких ~р Е Rm, что пара (ж", ~р) является решением системы C), D) (множество Л4("ж) не обязательно является одноточечным). Кро- Кроме того, введем множество п(х) = {х} хМ(х). Положим /(ж, /х) = {г = 1,. . . , т\ fii ^ -gi(x)}, х ? Rn, \i ? Rm. Сразу заметим, что задача идентификации активных ограниче- ограничений не является сложной, если предполагать, что для некоторого ~р Е G АА(х) выполнено условие строгой дополнительности ~Pi>0 Vi е I(x) и что известна точка, достаточно близкая к (ж", ~р) с таким ~р. Дейст- Действительно, легко видеть, что при этом найдется окрестность U точ- точки (ж, ~р) такая, что /(ж, fj,) = 1{х) У(ж, //) G 17. В общем случае можно гарантировать лишь выполнение включе- включения /(ж, /х) С /(ж) У(ж, //) G U. Заметим, наконец, что если Л4(ж) = {~Ц} при некотором ~р Е R, то окрестность U всегда можно выбрать так, чтобы выполнялось /+(ж) С /(ж, /i) С /(ж) ?(ж, /i) G 17, где Теперь покажем, как активные ограничения могут быть иденти- идентифицированы при разумных предположениях, не включающих в себя ни условие строгой дополнительности, ни единственность множителя Лагранжа, отвечающего искомой стационарной точке. Основная идея состоит в том, чтобы сравнивать значения ^gi(x) не с ^, г = 1,. . . ... , тв, а со значениями некоторой «идентифицирующей функции»,
§4-6- Идентификация активных ограничений 167 поведение которой вблизи множества П{х) известно. Такие функ- функции обычно возникают при получении оценок расстояния до множе- множества О (ж"). Несмотря на то, что эта техника чрезвычайно проста, она в действительности приводит к наиболее сильным из известных результатов об идентификации активных ограничений. Кроме того, эта техника не связана ни с каким конкретным алгоритмом и может быть использована в различных алгоритмах решения задачи A), B). Будем говорить, что функция г: Rn х Rm —>> R+ оценивает расстояние до множества fi(af), если г(af, ~р) = О V/Z G Л4(ж), функция г непрерывна на О(ж') и существуют числа <5 > О, М > О и //>0 такие, что z, /х), П(ж)) ^ М(г{х, ^)У ?(ж, /i) = {(ж, //) G Rn x RTO| dist((x, /i), п(х)) <: ё}. E) Функции с такими свойствами часто могут быть найдены (см. п. 4.6.2). Здесь существенно, что ~х — изолированная стационарная точка; в противном случае следует оценивать расстояние до множе™ ства решений системы C), D). Фигурирующие в E) константы М и/или и на практике часто бывают не известны, однако их знание и не предполагается в описываемой ниже процедуре идентификации. Во многих случаях можно использовать локальный вариант по™ нятия оценки расстояния, заменив (/(O(af), S) в E) на некоторую окрестность точки (ж, ~р) G Щ~х) при фиксированном ~р G Л4("х) (см. доказательства предложений 1 и 2). Оценки расстояния (до различных множеств) возникают и исполь™ зуются в этом курсе неоднократно; см., например: теорему 1.3.3 об оценке расстояния до множества нулей гладкого отображения (обоб™ щением этого результата на случай смешанных ограничений является теорема 4.7.6); теорему 4.7.5, где более общая оценка такого рода бу- будет использована при анализе скорости сходимости методов штрафа; теорему 4.5.3 об оценке расстояния до изолированного нуля негладко- негладкого отображения; условие квадратичного роста и подобные ему усло- условия в п. 3.1.2, которые являются оценками расстояния до множества решений или стационарных точек задачи безусловной оптимизации. Положим /(ж, /i) = {г = 1, . . . , т\ p(r{x, /i)) ^ -gi{x)}, ж G Rn, // G Rm, F) где используется функция ( —1/lnt, если t G @,1), р: R+ -> R, p(t) = I G) { 0, если t > 1. Заметим, что функция р непрерывна на R+. Утверждается, что если ~х — изолированная стационарная точка задачи A), B), то
168 Гл. 4- Методы условной оптимизации введенное множество индексов /(ж, /л) правильно идентифицирует активные ограничения для всякой точки (ж, /х) , достаточно близ- близкой к Щ'х). Предложение 1. Пусть функция /: Rn -^ R и отображе- отображение G: Rn —>> Rm дифференцируемы в точке ~х G Rn, причем су- существуют окрестность V точки ~х и число L > 0 такие, что \G(x)-G(x)\^L\x-x\ УхеК (8) Пусть ~х — стационарная точка задачи A), B), причем функ- функция г: Rn х RTO —>• R+ оценивает расстояние до множества О (ж"). Тогда для каждого ~р G Л4(ж) найдется окрестность U точ- точки (ж", /х) такая, что для заданного формулами F), G) множества индексов /(ж, fi) справедливо /(ж,/1) = /(ж) V(x,/x)Gt/. (9) Доказательство. Пусть сначала г G /("ж). Тогда если точка (ж, /х) G Rn х Rm достаточно близка к (ж, /I), то в силу E), (8) имеем -gi(x) = gi(x) - gi{x) ^ L\x -x\^ LM(r(x, /i)I7 ^ p(r(x, /i)), где приняты во внимание непрерывность и равенство нулю г на О(ж), а также то обстоятельство, что, каким бы ни было число v > О, имеет место предельное соотношение lim ty lnt = 0. Таким образом, г G /(ж, /iM т.е. /(ж) С /(ж, /i). *^o+ С другой стороны, если г G {1,. . ., ?тг} \ /(ж"), то найдутся окрест- окрестность U точки (ж, ~р) и число 7 > 0 такие, что ?(ж, /х) G 17 имеет место p(r(x, fi)) < 7, ~gi(x) ^ 7, т.е. г 0 /(ж, /i), а значит, /(ж, /х) С 1(~х). П Легко видеть, что вместо функции р, введенной в G), в определе- определении /(ж, /х) можно использовать, например, функцию р: R+ -^ R, p{t) = te, A0) где 6^ G @, I/). Такой выбор может иметь свои преимущества, однако он предполагает знание показателя и в E). Задача 1. Доказать, что если в дополнение к условиям предло- предложения 1 в точке ~х выполнено условие регулярности Мангасариана™ Фромовица, то найдется число 5 > 0 такое, что (9) имеет место при U = и{П(х), 6). Если Л4(ж) = {~р} при некотором ~р G Rm, т.е. стационарной точ™ ке ж" отвечает единственный множитель, то можно идентифициро- идентифицировать и множество 1+(х) (а значит, и /о ("ж) = ^(ж") \ ^+ (#0)- Эта ин- информация также мо^сет быть полезна; например, в системе C), D)
§4-в. Идентификация активных ограничений 169 можно сразу положить /ii = 0, г G /о(ж"). Положим \}, xeRn, дёГ. A1) Предложение 2. i? условиях предложения 1, если стационар- стационарной точке ж задачи A), B) отвечает единственный множитель Ла- гранжа /I, wo найдется окрестность U точки (ж", /I) такая^ что для заданного формулами G), A1) множества индексов /+(ж,/х) /+(ж, м) = /+(*) v(x,p)eu. Доказательство. Включение /_|_(ж") С /+ (ж, /х) для точек (ж, /х) G Rn x Rm, достаточно близких к (ж, /I), очевидно. С другой стороны, для таких (ж, /х), если г G {1,. . ., m} \ /_|_(^), то Mi ^ |М< - Mil ^ М(г(ж, /х)I/ < р(г(ж, /i)), т.е. г 0 /+(ж, /i), а значит, /+(ж, /х) С 1+(х). П Предлол^ение 2 останется верным, если вместо G) использовать формулу A0) при 9 G @, I/). 4.6.2. Оценки расстояния. Известно, что при подходящем выбо™ ре функции г оценки расстояния типа E) имеют место во многих важных случаях. Не претендуя на детальный анализ этого вопроса и не пытаясь указать все относящиеся к нему результаты, ограничимся лишь некоторыми примерами. Обычно функция г определяется через ту или иную невязку си- системы C), D), т.е. г(х, М) = \Ф(х, /х)|, xGR", /i€Rm, A2) где отображение Ф: Rn х Жт —> Rs (при некотором s) выбирается так, чтобы множество решений системы C), D) совпадало с множе- множеством решений уравнения Ф(х,/м)=0. Например, при соответствующих требованиях гладкости на / и G оценка E) будет иметь место при и = 1, если г выбрано в со- соответствии с A2), Ф: RnxRm->Rnx Rm, Ф(ж, и) = —(х и) in{/ib -?х( , A3) \ min{/im, -gm(x)} J и в точке ж" выполнено условие линейной независимости (гаранти- (гарантирующее единственность отвечающего ~х множителя Лагранжа /I), a сильное достаточное условие второго порядка. Действительно,
170 Гл. 4- Методы условной оптимизации Ф полугладко в точке (ж, /i) согласно предложению 4.5.1 и BD-pe- гулярно в этой точке согласно предложению 4.5.2. Но тогда требуе- требуемый результат следует из теоремы 4.5.3, определения полугладкости и утверждения б) задачи 4.5.8. Заметим, что условие линейной неза- независимости здесь можно заменить условием регулярности Мангасари- ана^Фромовица (отказавшись тем самым от единственности множи- множителя и HD-регулярности Ф), однако необходимый для этого анализ требует привлечения результатов о чувствительности, выходящих за рамки данного курса. Указанная оценка расстояния использует функцию естественной невязки, однако, разумеется, при подходящих предположениях мож- можно использовать и другие функции дополнительности i^:RxR-}R (см. п. 4.5.1), полагая , /х) = \ х е Rn, // е R" Оценка E) будет иметь место при и = 1 и для такого Ф, если г выбрано в соответствии с A2), ф — полугладкая в точке @, 0) функ- функция и Ф Ш^-регулярно в точке (ж", ~р). Напомним, что если ф — естественная невязка, то необходимым и достаточным для послед- последнего является условие квазирегулярности (см. п. 4.5.3), которое при выполнении условия линейной независимости несколько слабее, чем сильное достаточное условие второго порядка. Оценки расстояния другого важного типа могут быть получены в случае, когда функция / и отображение G являются вещественно- аналитическими в некоторой окрестности точки ж", т. е. представля- представляются в этой окрестности абсолютно и равномерно сходящимися сте- степенными рядами. В этом случае E) имеет место, если г выбрано в соответствии с A2), Ф: RnxRm-}RnxRmxRm x R, dL \ их (*i, 0} Ф(х, /х) = ^т(ж), 0} однако показатель v здесь, вообще говоря, неизвестен. min{/xm, 0} ^i(^), 0}
§4-7. Штрафы 171 § 4.7. Штрафы и модифицированные функции Лагранжа для задачи со смешанными ограничениями Будем рассматривать задачу /(ж) —> min, ж Е D, A) D = {х Е Rn| F(x) = О, С(ж) ^ 0}, B) где /: Rn -^ R — гладкая функция, F: Rn -^ R1 и G: Жп -> Rm — гладкие отображения. Этот параграф посвящен распространению ре- результатов о штрафах и модифицированных функциях Лагранжа (и соответствующих методах), полученных в пп. 4.3.2, 4.3.3 для задачи с чистыми ограничениями-равенствами, на задачу A), B), содержа- содержащую также ограничения-неравенства. При этом будет использоваться следующий прием, уже упоминавшийся в § 1.4. От наличия ограничений-неравенств всегда можно избавиться вве- введением дополнительных переменных. Пусть отображение G имеет компоненты gi(')? i = l,...,m. Задаче A), B) сопоставим задачу /(ж) ->> mm, (ж, a) Е 5, C) D = {(ж, a) GRn xRm| F(x) = 0, ^(ж) + стг2 = О, г = 1,...,ш}. D) Заметим, что, во-первых, для любого х Е Rn условием (ж, а) Е Е D вектор <т определяется с точностью до знаков своих компонент, а во-вторых, выбор этих знаков не влияет на значение целевой функ- функции задачи C), D) в точке (ж, а). Поэтому все дальнейшие рассуж- рассуждения проводятся «по модулю» этих знаков, которые не играют ни- никакой роли: точки (ж, а1) и (ж, о), отличающиеся лишь знаками компонент а1 , а2 Е Rm, можно отождествлять. В этом смысле ло- локальные решения задач A), B) и C), D) находятся во взаимно одно- однозначном соответствии: точка ~х Е Rn является локальным решением задачи A), B) в том и только том случае, когда точка (ж, <т), где • 5 \f-gm(%)), E) корректно определена и является локальным решением задачи C), D) (см. задачу 2 ниже), причем других локальных решений вида (af, сг), а Е Rip, у этой задачи быть не может. Впрочем, в силу причин, указанных в § 1.4 и § 4.3, злоупотребле- злоупотребления этим приемом желательно избегать. 4.7.1. Штрафы. Штрафом для произвольного множества D С С Rn называется любая функция ф: Rn —>• R, удовлетворяющая условиям ф(х) = 0 УхеО, ф(х)>0 VжERn\IX F)
172 Гл. 4- Методы условной оптимизации Соответствующее семейство штрафных функций имеет вид <рс: R" ->• R, <рс{х) = f(x) + сф(х), G) а соответствующий метод штрафных функций для задачи A) состо- состоит в последовательном решении вспомогательных задач безусловной оптимизации (fc(x) —> min, x G Rn, (8) при все возрастающем значении параметра штрафа с ^ 0. Алгоритм 1. Фиксируем функцию ф: Rn —>• R, удовлетворяю- удовлетворяющую F). Выбираем последовательность {с^} С R+ такую, что с^ —> —>• оо (/г —> оо), и полагаем /г = 0. 1. Вычисляем xk G Rn как стационарную точку задачи (8) с целе- целевой функцией, задаваемой формулой G) при е = с^. 2. Увеличиваем номер шага к на 1 и переходим к п. 1. Начнем со следующего обобщения теоремы 4.3.3. Как указано в задаче 4.3.3, ни специфика ограничений, задающих допустимое мно- множество, ни конкретный вид штрафа на самом деле не играют в этой теореме никакой роли. Поэтому справедлива Теорема 1. Пусть функция /: Rn —>> R непрерывна на Rn. Пусть точка ~х G Rn является строгим локальным решением зада- задачи A) при некотором D С Rn. Тогда если функция ф: Rn —> R удовлетворяет F) и непрерыв- непрерывна на Rn, wo для любого достаточно большого числа с задача (8) с целевой функцией^ задаваемой формулой G), имеет такое локаль- локальное решение х(с) Е Rn, что х(с) —> ~х (с —» Н-оо). Задача 1. Предполагая дифференцируемость функции /: Rn —>> -^ R и отображений F: Rn -^ R1 и G: W1 -)> Rm в некото- некоторой окрестности локального решения ж G Rn задачи A), B) и не- непрерывность их производных в точке of, вывести из теорем 1 и 1.2.3 сформулированное в теореме 1.4.3 необходимое условие оптимально- оптимальности Ф. Джона. Для этого рассмотреть вспомогательную задачу опти- оптимизации f(x) + \х — ~х\2 —> min, ж G D, где множество D задано в B). Важнейший класс штрафов для заданного в B) множества D вводится следующим образом. Зададим отображение Ф: Rn ->> R1 х Rm, ), (max{0, ^(ж)},. . ., max{0, gm(x)})), (9)
§4-7. Штрафы 173 и положим ф(х) = \ч>(х)\р, жеВЛ (Ю) где р > 0 — фиксированный показатель степени. В A0) удобно заме- заменить евклидову норму | • | = | • |2 на | • \р либо | • |оо (напомним, что в конечномерных пространствах все нормы эквивалентны). Получае- Получаемые таким образом функции = (max{\F(x)\oo,0,gl(x),...,gm(x)})p, хеПп, A2) естественно называть степенными штрафами. При р = 2 первая из этих формул приводит к квадратичному штрафу ( j A3) (множитель 1/2 введен для удобства). Алгоритм 1 с таким выбо- ром функции ф называют методом квадратичного штрафа для за- задачи A), B). Именно об этом методе и пойдет речь в оставшейся ча- части этого пункта. Комментарии, которыми следовало бы сопроводить метод квадра- квадратичного штрафа, по сути дела те лее, что и в п. 4.3.2. Важное отличие состоит в следующем. Функция у?с, вводимая в соответствии с G), A3), дифференцируема при дифференцируемых /, F и G, но мо- может не иметь второй производной в точках х Е Нп, в которых мно- множество индексов активных ограничений-неравенств 1(х) = {г = 1,. . . ... , га| gi(x) = 0} задачи A), B) непусто, какими бы гладкими ни были /, F и G. Это обстоятельство должно учитываться при вы- выборе методов безусловной оптимизации для решения задачи (8). Приводимые ниже теоремы 2 и 3 обобщают теоремы 4.3.2 и 4.3.4 соответственно на случай наличия ограничений-неравенств. Такие об- обобщения проще всего получить с помощью приема, упомянутого в на- начале этого параграфа. Для этого потребуются некоторые вспомога- вспомогательные факты о связи между задачами A), B) и C), D). Задача 2. Доказать, что для любой функции /: Шп —>> R, и лю- любых отображений F: Жп -> R1 и G: Шп -> Жт точка х Е W1 яв- является (строгим) локальным решением задачи A), B) в том и толь- только том случае, когда точка (ж, о7), где W E Rm введено в E), кор- корректно определена и является (строгим) локальным решением зада- чи C), D).
174 Гл. 4- Методы условной оптимизации Пусть L: Гх^хГ-) R, Цх, л, /i) = f(x) + (л, f(x)) + (/i, ад), — функция Лагранжа задачи A), B). Введем также функцию Ла- гранжа задачи C), D): L: (Rn х Rw) х (R1 х Жт) -+ R, Ь((ж, <т), (А, /х)) = ТО 771 = /(ж) + (A, F(x)) + ^2m(gi(x) + af) = L(x, Х,ц) + ^21цо\. Лемма 1. Пусть функция /:Rn ~^ R и отображения F: Rn R1 w G: Rn ^ Rm дифференцируемы в точке ~х G Rn. а) еслм точка ~х является стационарной в задаче A), B) и ей от- отвечают множители Лагранжа А ? R1 и ~р ? R!^, шо точка (ж", "а), ecfe o^ E R введено в E), корректно определена, является стацио- стационарной в задаче C), D) н ей отвечает множитель Лагранжа (А,/х), т. е. (ж", W) E D и б) если d/ш некоторого W ? Rm точка (х^ W) является стацио- стационарной в задаче C), D) w ей отвечает множитель Лагран- Лагранжа (A,/J) eR'x Rm, wo ж ? D ti |^(x,A,/Z) = O. A4) Подчеркнем, что в б) не утверждается стационарность точки ~х в задаче A), B) в полном смысле: множитель ~р может иметь отрица- отрицательные компоненты. Доказательство. Стационарность точки ж в задаче A), B) с множителями А ? R1 и ~Ц ? Ж™ означает выполнение условий допустимости F(x) = 0, G(x) ^ 0, A5) равенства A4) и условия дополняющей нежесткости -pigi{x) = 0 Vz = l,...,m. A6) Из E) и A5) следует допустимость точки (af, W) в задаче C), D). Кроме того, в силу A4) и A6) имеем — ((ж, а), (А, /I)) = ^ (ж, А5 /I) = О,
§4-7. Штрафы 175 — ((ж, а), (A, fjb)) = 2/i-^i = 0 Vi = 1,. . ., т. Утверждение а) доказано. Утверждение б) получается обратным рассуждением. ? Для произвольной точки х Е Rn введем множество /+(ж) = {г = = 1, ...,га| gi(x) > 0} индексов тех ограничений-неравенств за- задачи A), B), которые нарушаются в точке х. Будем говорить, что в точке х выполнено условие линейной независимости, если строки матрицы Ff(x) и векторы ^(ж), г Е 1{х) U /+(ж) , образуют ли- линейно независимую систему в Rn. Если точка х допустима в зада- задаче A), B), то /+(ж) = 0, и введенное условие линейной независимо- независимости совпадает с использовавшимся выше. Задача 3. Доказать, что для любых отображений F: Rn —>> R1 и G: Rn —>• Rm, дифференцируемых в точке ж Е Rn, выполнение условия линейной независимости в точке х влечет выполнение усло- условия регулярности ограничений задачи C), D) в точке (ж, <т) при лю- любом а Е Rm таком, что а{ ф 0 Vi Е {1,. . . , т} \ (I(x) U + Лемма 2. Пусть функция /:Rn —> R и отображения F:Rn —>> —>- R1 w C:Rn —» Rm дважды дифференцируемы в точке ж Е Rn. Пусть в точке ~х выполнено условие линейной независимости, при- причем ~х — стационарная точка задачи A), B), а А Е R1 и JI E R^ — однозначно отвечающие ей множители Лагранжа. Пусть, наконец, в точке ж выполнено сформулированное в теореме 1.4.5 достаточное условие второго порядка оптимальности, а также условие строгой дополнительности. Тогда точка (ж, a), acte о7 Е Rm введено в (Б), корректно опре- определена, в ней выполнено условие регулярности ограничений зада- задачи C), D), (af,a) является стационарной точкой этой задачи и ей однозначно отвечает множитель Лагранжа (А,/х). Кроме того, в этой точке для задачи C), D) выполнено сформулированное в тео- теореме 1.3.7 достаточное условие второго порядка оптимальности, т. е. > 0 A7) всех (h,r) E (Rn х Rm) \ {0} таких, что Ff(x)h = 0, (gfi(x),h) + 2WiTi = 0 Vz = l,...,m. A8) Доказательство. Стационарность точки (ж*, о7) с множите- множителем Лагранжа (А, /I) установлена в утверждении а) леммы 1, а вы- выполнение в этой точке условия регулярности ограничений вытекает из результата задачи 3.
176 Гл. 4- Методы условной оптимизации Пусть пара (/г, т) Е (Rn x Rm) \ {0} удовлетворяет A8). Прямым вычислением убеждаемся, что d2L — -2 ((ж, о7), (Л, ~p))(h, т), (/г, т) ) = A9) г=1 Из E), A8) и условия строгой дополнительности следует, что h E Е /f (ж), где, как обычно, через К(х) = {he kerF'(sc)| (ёг{(х), h) ^ 0 Vi e I(x), (f'{x), h) ^ 0} обозначен критический конус задачи A), B) в точке ~х. Если h ф Ф 0, то неравенство A7) вытекает немедленно из достаточного уело™ вия второго порядка оптимальности для задачи A), B) в точке ~х и равенства A9), в котором второе слагаемое в правой части всегда неотрицательно в силу неотрицательности ~р. Пусть h = 0; тогда т ф 0, причем из E) и A8) следует, что т\ = = 0 Уг Е {1,. . ., m}\I("x). Таким образом, среди чисел т?, г Е 1(х), есть положительные. Отсюда, из условия строгой дополнительности и A9) вновь получаем неравенство A7). ? Для задачи C), D) введем семейство штрафных функций фс: R"xRm4 R, !рс(х, а) = f(x) + сф(х, а), B0) порождаемое квадратичным штрафом а также соответствующее семейство задач безусловной оптимизации <рс(х, а) -» min, (ж, d) G Rn х Г. B2) Заметим, при каждом фиксированном х Е Rn минимизацию по а Е Шт в B2) можно произвести явно, тем самым избавившись от вспомогательных переменных: глобальный минимум достигается в точке сг(х) Е Пта, где {0, если gi(x) > 0, г = 1,...,ш, B3) y/-gi{x), если g"i(x) ^ 0, причем этот минимум единственный с точностью до знаков компо- компонент. Тогда, как нетрудно видеть, min <Рс(х, а) = <рс(х, сг(х)) =
§4-7. Штрафы 177 где функция срс вводится в соответствии с G), A3). Задача 4. Пусть функция /: Rn —» R и отображение F: Жп —> —>• R1 произвольны, а отображение G: Rn ~~> Rm непрерывно в точ™ ке ж G Rn. Доказать, что для любого с ^ 0 точка ж является (строгим) локальным решением задачи (8) с целевой функцией, зада™ ваемой формулами G), A3), в том и только том случае, когда точка (ж, сг(ж)), где а{х) Е Rm определяется в соответствии с B3), явля™ ется (строгим) локальным решением задачи B2) с целевой функцией, задаваемой формулами B0), B1). Лемма 3. Пусть функция /:Rn -^ R и отображения F: Жп —> —>- R1 и G: Жп —> Rm дифференцируемы в точке ж G Rn. Тогда для любого с ^ 0 точка ж является стационарной в за- задаче (8) с целевой функцией, задаваемой формулами G), A3), в гао«м ti только том случае, когда точка (ж, а(ж)), г(?е <т(ж) G Rm опреде- определяется в соответствии с B3), является стационарной в задаче B2) с целевой функцией^ задаваемой формулами B0), B1). Доказательство. Пусть, например, ж — стационарная точка в задаче (8). Тогда из B3) имеем = f(x) + с I (F' ^ х) + {аг{х)J)<п(х)=Ъ Vt = l,...,m. B5) Равенства B4) и B5) и означают стационарность точки (ж, о"(ж)) в задаче B2). Обратное утверждение получается выкладкой, обрат™ ной к B4). ? Заметим, что задача B2) может иметь стационарные точки (ж, <т) такие, что не все модули компонент a G Rm совпадают с соответст- соответствующими компонентами сг(ж), и при этом ж G Rn может не быть стационарной точкой в задаче (8). Пример 1. Пусть п = га = 1, 1 = 0 и f(x) = x, G(x) = x2-1, xGR.
178 Гл. 4- Методы условной оптимизации Критические точки функции фс описываются уравнениями ^¦(х,а) = 1 + 2с(х2 + а2 - 1)х = О, Щ± (х, а) = 2с(х2 + а2- 1)<т = 0. Легко видеть, что при любом достаточно большом с эта система уравнений имеет решение вида (ж, 0), где х G [—1, 1]- Но тогда <р'с(х) = 1 + 2с max{0, х2 - 1}х = 1, т.е. х не является критической точкой функции (рс. Однако указанное обстоятельство обычно не вызывает серьезных затруднений, поскольку такие «лишние» стационарные точки зада- задачи B2) не могут быть ее локальными решениями. Лемма 4. Для любой функции /: Rn —>• R, и любых отображе- отображений F: Rn —> R1 и G: Rn —> Rm, если для некоторого с > 0 точ- точка (ж, a) G Rn х Rm является локальным решением задачи B2) с це- целевой функцией, задаваемой формулами B0), B1), wo а совпадает с точкой ®{х)^ определяемой в соответствии с B3), с точностью до знаков компонент. Доказательство. Введем функцию фс: Rm -> R, | lx)\2 + f^(g(x) + а2J] фс{а) = <ре{х, а) = f(x) + | l\F(x)\2 + f^(gi(x) + а2J Эта функция бесконечно дифференцируема на Rm и имеет в точ- точке а безусловный минимум. Тогда, согласно теореме 1.2.3, ^(a) = 2c(gi(x) + a2)ai=0 Vt = l,...,m. B6) Отсюда следует, что для тех индексов г = 1,. . ., га, для которых gi(x) ^ 0, должно выполняться cfi = 0 = сгДж). Далее, в силу теоремы 1.2.4 матрица ФсС®) неотрицательно опре- определена. Если предположить, что для некоторого г = 1,. . ., га такого, что gi(x) < 0, выполнено Ъ\ ф (сгДж)J = —gi(x), то из B6) следу- следует, что а{ = 0. Но тогда ^% (а) = 2c(gi(x) + 35г2) = 2cgi(x) < 0, что противоречит неотрицательной определенности диагональной матрицы (р"(сг). П Таким образом, в отличие от стационарных точек, локальные ре- решения задач (8) и B2) находятся во взаимно однозначном соответ-
§4-7. Штрафы 179 ствии в том же смысле, в каком и локальные решения задач A), B) и C), D) (см. начало параграфа). Теорема 2. Пусть функция /: Rn —>• R м отображения F: Rn —>> R1 w G: Rn —>- Rm непрерывно дифференцируемы на Rn. Тогда если в алгоритме 1 используется функция ф: Rn —>- R, введенная в A3), и последовательность {хк} сгенерирована этим алгоритмом, то любая ее предельная точка ~х Е Rn, в которой вы- выполнено условие линейной независимости, является стационарной точкой задачи A), B). Более того, для любой сходящейся к ~х подпо- подпоследовательности {xkj} справедливо {ckjF(xk^}^\ (j->oo), B7) к{^{(хк*)}^>-р{ (j -+ оо) Vi = l,...,m, B8) где A G R1 и ~р Е R!^ — (единственные) отвечающие ~х множите- ли Лагранжа. Из B8) вытекает следующее интересное наблюдение: для любого достаточно большого j и для любого г Е /(ж) такого, что /Ij > О, имеет место неравенство gi(xkj) > 0. Доказательство. Рассмотрим такую последовательность {(хк, а(хк))}, где для каждого к точка а(хк) Е Rm определя™ ется в соответствии с B3). Согласно лемме 3 последовательность {(хк, а(хк))} может быть сгенерирована методом квадратичного штрафа для задачи C), D). Из непрерывности отображения а(-) вы- вытекает, что (ж, cr(af)) — предельная точка этой последовательности, причем из результата задачи 3 следует регулярность ограничений задачи C), D) в этой точке. Применяя теорему 4.3.2, получаем, что (ж, <т(х)) — стационарная точка задачи C), D), причем для сходящейся к ~х подпоследователь- подпоследовательности {ж^'} справедливы предельные соотношения B7) и сл.(^(жл0 + (^(^')J)-^^ Vi = l,...,m (j->oo), B9) где (Л, ~р) Е R1 х Rm — соответствующий множитель Лагранжа. Из равенства B3) следует, что B9) в точности совпадает с B8), а из B8), в частности, вытекает, что ~р ^ 0. Остается воспользоваться утверж- утверждением б) леммы 1. ? Таким образом, любая предельная точка последовательности, ге- генерируемой методом квадратичного штрафа, либо является стацио- стационарной в задаче A), B), либо в ней нарушается условие линейной не- независимости. В последнем случае предельная точка может быть даже недопустимой в задаче A), B). Пример 2. Пусть п = т = 1, 1 = 0 и f(x) = x, G(x) = x2 + 1, xGR.
180 Гл. 4- Методы условной оптимизации Тогда с /_л„ гп J i ii\2 „ . с (J1 <Рс{х) = х + - (max{0, х2 + I}J = х + - (х2 + IJ, z G R, А А и стационарные точки задачи (8) описываются уравнением <р'с(х) = 1 + 2ф2 + 1)ж = 0. Для любого с это уравнение имеет единственное решение, которое стремится к нулю при с —> оо. Но точка 0 недопустима в задаче A), B). Заметим, что G'@) = 0, т.е. условие линейной независимости в точке 0 нарушено. В приведенном примере исходная задача имеет пустое допустимое множество, однако недопустимость предельной точки последователь™ ности метода квадратичного штрафа может иметь место и в случае непустого допустимого множества (разумеется, при нарушении в этой точке условия линейной независимости). Пример 3. Пусть п = 2, I = т = 1 и F(x) = x\-l, G(x) = -xi + х\, х е R2, а функция / постоянна на R2. Тогда точка 0 является стационар- стационарной в задаче (8) при любом с, будучи при этом недопустимой в зада- задаче A), B). Здесь условие линейной независимости в точке 0 наруше- нарушено, поскольку F'@) = 0. Теорема 3. Пусть функция /: Rn —>• R м отображения F: Rn —>• Ж1 и G: Rn —>• Rm дважды дифференцируемы в некото- некоторой окрестности точки ~х G Rn, причем их вторые производные непрерывны в этой точке. Пусть в точке ~х выполнено условие ли- линейной независимости^ причем ~х — стационарная точка задачи A), B), а X G R1 и Ji G R+ — однозначно отвечающие ей множители Лагранжа. Пусть, наконец, в точке ~х выполнено сформулированное в теореме 1.4.5 достаточное условие второго порядка оптимально- стщ а также условие строгой дополнительности. Тогда существуют окрестность U точки ~х и числа с ^ 0 и М > 0 такие, что для каждого с > с задача (8) с целевой функцией^ задаваемой формулами G), A3), имеет в U единственную стацио- стационарную точку ж (с), причем \х(с) -х\^М Й±М ? \cF(x(c)) -A|^M ffl±M ? |cmax{0, ^(ж(с))}-/IJ < М |Л| + l/i[ Vi = l,...,m. C0) Задача 5. Используя леммы 2^4, теорему 4.3.4 и утверждение б) из задачи 4.3.4, доказать теорему 3.
§4-7. Штрафы 181 Как следует из условия строгой дополнительности и оценки C0), при достаточно больших значениях штрафного параметра все актив- активные в точке ж ограничения-неравенства задачи A), B) нарушают™ ся в точках определенной в теореме 3 траектории х(-): gi(x(c)) > 0 Vi € 1(х) для любого достаточно большого с (ср. с замечанием, со™ провождавшим формулировку теоремы 2). Задача 6. Решить задачу х2 - 4х —> min, х G D = {х G R| х ^ 1}, методом квадратичного штрафа. В специальной литературе можно встретить множество различ- различных штрафов, помимо степенных; более того, сама концепция се- мейства штрафных функций допускает определенные обобщения (по этим вопросам см. [6, 10, 15, 33, 36, 37]). Следует, однако, отметить, что использование штрафных функций, отличных от рассматривав- рассматривавшихся выше, если и бывает оправдано, то лишь в весьма специальных случаях (при наличии у задачи свойств выпуклости, при отсутствии ограничений-равенств и т.п.). На практике иногда бывает полезно снимать за счет штрафования не все ограничения задачи A), B), а только часть, учитывая «про- «простые» ограничения непосредственно. Эти простые ограничения удоб- удобно с самого начала трактовать как прямое ограничение, рассматри- рассматривая допустимое множество вида D = {х е Р\ F(x) = 0, G{x) ^ 0}, C1) где Р С Rn — заданное множество «простой» структуры. Штрафом для заданного в C1) множества D называется любая функция ф: Р —>> R, удовлетворяющая условиям ф(х) = 0 \f x E D, ф{х) > 0 Ух е P\D. Соответствующее семейство штрафных функций имеет вид (рс: Р -)> R, (рс(х) = f(x) + сф(х), а вспомогательную задачу безусловной оптимизации (8) следует заме™ нить задачей (fc(x) —> min, x G Р, к которой применимы методы оптимизации при простых ограничени- ограничениях, рассмотренные в § 4.1. 4.7.2. Модифицированные функции Лагранжа. Для каждого с > > 0 определим для задачи C), D) модифицированную функцию Ла- Лагранжа (см. п. 4.3.3): Lc: (Rn x RTO) x (R1 x R) -> R,
182 Гл. 4- Методы условной оптимизации Lc((x, а), (A, /i)) = = L((s, а), (Л, М)) + | П^(Ж)|2 + f^igiix) + а2J J . C2) J При заданных AeR1 и /л ? Rw в задаче 1с((ж, а), (Л, /i)) -> min, (ж, a)eRnx Rm, C3) минимизация по а Е Rm может быть выполнена явно. А именно, при каждом фиксированном ж Е Rn глобальный минимум достига- достигается в точке <т(ж, д, с), где О, если gi(x) Н—1 > О, Дж, /х, с) = { ! C4) ((*)+*), если ^(ж) + ^^0, г = 1,. . . ,ш, причем этот минимум единственный с точностью до знаков компо- компонент. Заметим, что gi(x) + (<Ti(x, /i, с)J = = gi(x) + max JO, -gi(x) - ^| = тах|^(ж), -^-j, C5) откуда после несложных преобразований получаем окончательный вид модифицированной функции Лагранжа задачи A), B): Lc: ГхИ'хГ-) R, Lc(x, Л, /i) = min Ьс((ж, <т), (Л, //)) = creRTO = Zc((a:, a(i, /г, с)), (А, М)) = /(ж) + (A, F{x)) + \ |^(а ^ ^, Cgi(x) + /л}J - М2). C6) г=1 Вместо C3) будем рассматривать задачу Lc(x, Л, /х) ^ min, ж Е Rn. C7) Задача 7. Убедиться, что если функция /: Rn —>- R и отоб- отображения F: Rn —» R1 и G: Rn —>- Rm дифференцируемы в точ- точке ж G Rn, то для любых Л Е R1 и /I E Rm и любого с > О тройка (ж", Л, /7) является решением системы Каруша^Куна^Таккера задачи A), B) в том и только том случае, когда L'c(x, A, /I) = 0.
§4-7. Штрафы 183 Следующие две леммы являются аналогами лемм 3 и 4 соответ- соответственно. Лемма 5. Пусть функция /:Rn -^ R и отображения F: Жп —> —>- R1 и G: Rn —> Rm дифференцируемы в точке ж Е Rn. Тогда для любого с > 0 и любых A G R1 и ц Е Rm точка ж яв- является стационарной в задаче C7) с целевой функцией, задаваемой формулой C6), в том и только том случае, когда точка (ж, сг(ж)), г^е а(х) Е Rm определяется в соответствии с C4), является ста- стационарной в задаче C3) с целевой функцией^ задаваемой форму- формулой C2). Задача 8. Доказать лемму 5. Лемма 6. Для любой функции /: Rn —>> R и любых отображе- отображений F: Rn —>> R1 ti С: Rn —>- Rm, если для некоторого с > 0 и не- некоторых AgR1 и [1 Е Rm точка (ж, а) Е Rn x Rm является ло- локальным решением задачи C3) с -целевой функцией, задаваемой фор- формулой C2), то 5 совпадает с точкой (т(х), определяемой в соот- соответствии с C4), с точностью до знаков компонент. Задача 9. Доказать лемму 6. Опишем метод модифицированных функций Лагранжа для зада™ чи A), B). Алгоритм 2. Выбираем монотонно неубывающую последова- последовательность {ck} С R+ \ {0} и точки А0 Е R1 и /х° Е R"\ и пола- полагаем /г = 0. 1. Вычисляем хк Е Rn как стационарную точку задачи C7) с целевой функцией, задаваемой формулой C6) при с = с^, А = Хк И /JL = flk. 2. Полагаем /if+1 = max {0, ^^(я?*) + /if}, г = 1,. . ., m. C8) 3. Увеличиваем номер шага к на 1 и переходим к п. 1. Поясним происхождение формулы C8), предназначенной для пе- пересчета приближений к множителю Лагранжа, отвечающему огра- ограничениям-неравенствам. Согласно схеме метода модифицированных функций Лагранжа для задачи C), D) (см. алгоритм 4.3.3) естествен- естественно предложить следующий вид такой формулы: rf+1 = tf + ck(gi(xk) + (а(хк, ii\ ck)J), i = 1,. . ., то, а это и есть C8), если учесть C5). Обобщением теоремы 4.3.5 на случай наличия ограничений-нера- ограничений-неравенств служит
184 Гл. 4- Методы условной оптимизации Теорема 4. Пусть выполнены условия теоремы 3. Тогда существуют окрестность U точки ~х и числа с ^ О, S > 0 и М > 0 такие, что: а) для любой тройки (A, /х, с) Е А (с, 5), acte А (с, S) = {(А, /1, с) Е R1 х Rm х R |А — А| < 5с, |/i — /7| < <^с, с > с}, задача C7) с целевой функцией, задаваемой формулой C6), имеет в U единственную стационарную точку ж (A, /i, с), причем | / , х I , „ /г /\ /Л |Ж^Л, /i, Cj — Х\ <^ 1V1 | А + cF(a:(A5 /i, с)) - А| ^ М |max{0, cgi(x(A, //, с)) +//J — 7**1 ^ с Л " б) существует число 8 Е @, 5] такое, что для любой монотон- монотонно неубывающей последовательности {с/,} С R+ \ {0} и любых то- точек А0 Е R1 гл /i° E RTO, Ддл которых выполнено (А°, д°, с0) е А(с, I), a;(A*, /ife, cfc)) +/itfe}, i = l,...,m, C9) г{?е /г = 0,1,..., корректно определяют последовательности {Xk} и {/ife} (в том смысле, что {(Afe, /ife, c^)} С А (с, <5), т.е. для всяко- всякого к точка x(Xk, fik, c^) корректно определена), причем {Xk} —t X, {fik} —> А, {х(Хк, /ifc, Ck)} —> ~х (к —> оо). Скорость сходимости по- последовательностей {Хк} и {fih} линейная, а если {с^} —> оо (/г —>• —>- оо), то сверхлинейная. Задача 10. Используя леммы 2, 5 и 6, теорему 4.3.5 и результат задачи 4.3.10, доказать теорему 4. В дополнение к утверждению б) теоремы 4 можно отметить еле™ дующий факт. Очевидно, для любого индекса г Е {1,. . ., m} \ 1{х) и любого достаточно большого к имеет место неравенство ckgi(x(Xk, /Д ск)) < 0, поэтому из C9) следует, что fii + =0, т. е. приближения к мно- множителям, отвечающим неактивным ограничениям-неравенствам, об- обнуляются после конечного числа итераций.
§4-7. Штрафы 185 4.7.3. Точные штрафы. Одним из важнейших средств еовремен- ной оптимизации являются точные штрафы, использование кото- которых не предполагает бесконечного увеличения штрафного парамет- параметра. Начнем со следующей теоремы об оценке скорости сходимости по функции методов штрафных функций в предположении о том, что сходимость по аргументу имеет место. При этом специфика ограниче™ ний, задающих множество D, а также конкретный вид используемо- используемого штрафа не будут играть роли, как это было в теореме 1. А именно, предположим, что функция ф: Rn —>¦ R_|_ локально оценивает расстояние до допустимого множества D в следующем смысле: существуют окрестность U искомого решения ~х задачи A) и числа М > 0 и v > 0 такие, что ф(х) = 0 УхеОпи D0) и distO, D) ^ М(ф{х)У Ух е U D1) (непрерывность ф не предполагается). Очевидно, такая функция ф локально удовлетворяет F) и может использоваться в качестве штра- штрафа для множества D, по крайней мере вблизи точки ~х. Теорема 5. Пусть функция /: Rn —>• R непрерывна по Липши- Липшицу с константой N > 0 в некоторой окрестности U точки ~х G Е Rn, а множество D С Rn замкнуто. Пусть ~х — локальное ре- решение задачи A). Пусть, наконец, для функции ф: Rn —>- R+ выпол- выполнены условия D0) и D1) при некоторых М > 0 и и > 0. Тогда если для последовательностей {с^} С R+ и {xk} С Rn имеют место соотношения 9ck(xk)^vCk(x) = f(x) У к D2) (где функция (рСк задана формулой G)) и ск -> оо, {хк}^^ (к->оо), D3) то для любого достаточно большого к справедливо следующее: а) если и < 1, wo , D4) { j ; D5) б) если и ^ 1, mo f(xk) = f(x), xk e D; в частности, если ~х является строгим локальным решением зада- задачи A), B), то хк = ж.
186 Гл. 4- Методы условной оптимизации Доказательство. В силу D0)—D2) и второго соотношения в D3) для любого достаточно большого к имеем f(x) = f(x) + Скф(х) = <рСк(х) ^ tpCk{xk) = P»). D6) Для каждого достаточно большого к обозначим через хк произ- произвольную проекцию точки хк на, D (существование проекции выте- вытекает из замкнутости D и следствия 1.1.2). Из второго соотношения в D3) и того, что xGD, следует, что {хк} —)> ж (к —> оо). Но ~х является локальным решением задачи A), поэтому для любого достаточно большого к f(x) - f(xk) < f(xk) - f(xk) <: iVdtst(^, D). D7) Объединяя D6) и D7), приходим к неравенству (y\ D8) Введем множество lC = {k = O,l,...\f(xk)^f(x)}- Соотношения D6) и D8) влекут неравенства 0 < (/(г) - f{xk))A-v)l'/ < (M/V) D9) для любого достаточно большого к € 1С. Утверждение а) выполня- выполняется тривиальным образом при к ? К и следует немедленно из D9) при к G К, (D5) следует из D4) и D6)). Если же и ^ 1, то соглас- согласно D3) левая часть D9) не стремится к нулю при к —> оо, в то время как правая стремится. Это означает, что множество К, по необходи- необходимости ограничено, т.е. /(ж) = f(xk) для любого достаточно большо- большого к. Кроме того, для таких к в силу D6) выполнено хк ? D, что завершает доказательство утверждения б). ? В доказанной теореме вместо D0) на самом деле достаточно пред- предполагать, что ф{х) = 0. Свойство D2) всегда имеет место, если, например, для каждого к точка хк является глобальным минимумом функции (рСк на не- некотором множестве, содержащем ж. Выполнение подобного свойст- свойства вполне типично для любого метода штрафных функций. Второе предельное соотношение в D3) выражает предположение о сходимо- сходимости рассматриваемого метода по аргументу. Оба указанных свойства будут выполнены, если ж — строгое локальное решение задачи A),
§4-7. Штрафы 187 а точка х = ж(с&) определяется, скажем, в соответствии с тем, как это делалось в доказательстве теоремы 4.3.3 (см. также задачу 4.3.3 и теорему 1). Следствие 1. Пусть в условиях теоремы 5 точка ~х — строгое локальное решение задачи A), и пусть и ^ 1. Тогда существует число с ^ 0 такое, что для каждого с > с точка ~х является строгим локальным решением задачи (8) с целе- целевой функцией, задаваемой формулой G). Доказательство. Предположим противное. Тогда существуют последовательности {с^} С R+ и {хг} С Rn такие, что С{ —> оо, {ж*}^ж (г—»оо). E1) Но одновременное выполнение E0) и E1) противоречит утвержде- утверждению б) теоремы 5. ? Один из важнейших вопросов, возникающих в связи с полученны- полученными результатами, состоит в отыскании условий, при которых можно указать функцию ф, для которой справедлива локальная оценка ви- вида D1) расстояния до заданного в B) множества D. Сколько-нибудь полное обсуждение этого вопроса выходит за рамки настоящего кур- курса. Ограничимся тем, что приведем без доказательства следующую теорему Робинсона, обобщающую теорему 1.3.3 (доказательство см., например, в [25]). Теорема 6. Пусть отображения F: Жп —> R1 и G: Rn —> R дифференцируемы в некоторой окрестности точки "х ? Rn, причем их производные непрерывны в точке ~х. Пусть xGD, где множест- множество D введено в B), и в точке ~х выполнено условие регулярности Мангасариана- Фромовица. Тогда найдутся окрестность U точки ~х и число М > 0 такие, что dist(z, D) < М|Ф(ж)| УхеП, E2) где отображение Ф: Rn —>- R1 x Rm введено в (9). Таким образом, в условиях теоремы 6 функция ф, определяемая при некотором р > 0 соотношением A0), удовлетворяет D1) при и = = 1/р. Разумеется, вместо | • | здесь может использоваться любая другая норма в R1 x Rm. Если использовать | • \р либо | • |оо? т0 при- приходим к степенным штрафам, введенным в п. 4.7.1 (см. A1) и A2)). Если р = 2 (квадратичный штраф), то оценки D4), D5) принимают вид 0 ^ f(x) - f{x) ^ — , dist(^/c, D) ^
188 Гл. 4- Методы условной оптимизации (ср. с теоремой 4). Согласно теореме 5 уменьшение показателя сте- степени р приводит к увеличению скорости сходимости соответствую- соответствующих методов степенного штрафа. Более того, согласно следствию 1 при достаточно малом р (а именно, при р ^ 1) степенной штраф является точным в том смысле, что искомое (строгое) локальное ре- решение ~х задачи A), B) является локальным решением вспомога- вспомогательной задачи безусловной оптимизации (8) при любом достаточно большом с. Иными словами, если при реализации соответствующего метода степенного штрафа обеспечивается отыскание «удачных» ло- локальных решений задач вида (8), то увеличивать значение штрафно- штрафного параметра до бесконечности нет необходимости. Разумеется, установленная «точность» штрафа не является точ- точностью в полном смысле. Очень желательно доказать еще и следую- следующее утверждение: в естественных условиях в некоторой окрестности точки ~х задача (8) не имеет других локальных решений, кроме ~х (иначе «удачный» выбор такой стационарной точки будет задачей трудно выполнимой). Этот важный вопрос здесь тоже подробно не обсуждается. В [6] для степенного штрафа, порождаемого нор- нормой | * |оо ПРИ Р = I? показано, что сформулированное утверждение будет справедливо при выполнении в точке ~х условия линейной независимости. Заметим, что уменьшение р негативно влияет на гладкость штраф- штрафной функции <^с, что приводит к сужению арсенала методов, при- пригодных для решения задачи (8). В частности, при р ^ 1 вводимый формулой A0) степенной штраф, вообще говоря, не является гладким, какой бы высокой гладкостью не обладали F и G. В частности, само понятие стационарной точки задачи (8) при этом должно уточняться. Другая трудность, с которой приходится сталкиваться при непосред- непосредственном использовании методов точного штрафа, состоит в том, что обычно заранее не известно, насколько большим следует брать с (об эвристических приемах такого выбора см. [6]). Некоторые методы решения негладких задач безусловной оптими- оптимизации обсуждаются в гл. 6. Кроме того, необходимо отметить, что на самом деле точные штрафы обычно используются не непосредствен- непосредственно, а в сочетании с другими методами, например, в целях глобализа™ ции сходимости последних (см. § 5.4, где также приводятся некоторые дополнительные сведения о негладких точных штрафах, и [6]). По- Поэтому, в частности, предлагаемый здесь материал по точным штра- штрафам не содержит никаких строго сформулированных алгоритмов. В завершение разговора о негладких точных штрафах заметим, что в более слабых предположениях, чем условие регулярности Ман- гасариана^Фромовица, можно рассчитывать на оценку, более слабую, чем E2). Во всяком случае при отсутствии ограничений-неравенств
§4-7. Штрафы 189 оценку вида dist(z, D) ^ M\F(x)\1/q Ух е U E3) при q > 1 удается получить в более слабых предположениях, чем условие регулярности r&nk Ff (х) = I (см. [2, 20, 21]). Задача 11. Пусть отображение F: Rn —>- R1 дифференцируемо в каждой точке множества п\ F(x) = 0}5 достаточно близкой к точке ~х Е D. Доказать, что оценка E3) мо- может иметь место для некоторой окрестности 17 точки ~х и некоторо- некоторого М > 0 лишь при q ^ 1. Коротко остановимся на точных гладких штрафных функциях для задачи A), B). Сначала введем семейство таких функций для за- задачи C), D), например, И х Rm R, (рС1,с2((х, <т), (A, /i)) = ((ж, а) т г = 1 2 /i) 4 ,(А, 771 м)) E4) (см. п. 4.3.3), и для ci, C2 > 0 будем рассматривать задачу Фа,с2({х1 °°)? (А, /х)) —>• min, ((ж, ст), (Л, /х)) G G (Rn х Rm) x (R1 x Rm). E5) Несложно убедиться, что при любых фиксированных х ? Rn, AgR1 и fi E Rm глобальный минимум по а Е Rm в E5) дос- достигается в единственной с точностью до знаков компонент точ- точке <т(ж, /х, ci, c2), где , /х, ci, с2) = 0, если gi(x) + ?:1^ i) ^ > 0, , если г = 1,. . ., га. 0, E6)
190 Гл. 4- Методы условной оптимизации После несложных преобразований приходим к следующему виду точной гладкой штрафной функции для задачи A), B): (fCliC2: W1 xR^r-iR, <рС1,С2(ж, Л, /х) = min ?С1)С2((ж, а), (А, //)) = аЕИт = ^С1,с2((ж, а(х, \i, сь с2)), (А, //)) = , Л, - fix) + (л Fix)) + — \F(x)\2 + - m 1 y^// г=1 Будем рассматривать задачу Задача 12. Пусть функция /: Rn —>> R и отображения F: Rn —>- R1 и G: Жп —> Rm дважды дифференцируемы в точке ж Е G Rn. Показать, что если точка ж" является стационарной в зада- задаче A), B) и ей отвечают множители Лагранжа А ? R1 и ~р Е R+, то для любых ci > 0 и С2 ^ 0 точка (af, A, /I) является стационарной в задаче E8) с целевой функцией, задаваемой формулой E7). Аналогом леммы 3 является Лемма 7. Пусть функция /:Rn —>> R и отображения F: Rn —>• —>- R1 u G: Rn —> Rm дважды дифференцируемы в точке х ? Rn. Тогда для любых ci>0 w C2 ^ 0 w любых А ? R1 и Ji E Rn шо^- жа (ж, A, /i) является стационарной в задаче E8) с целевой функци- функцией^ задаваемой формулой E7), в теш и только том случае, когда точка ((ж, сг(ж, Д, ci, сг)), (А, Д)), г^е а(ж, Д, ci, c2) € RTO определя- определяется в соответствии с E6), является стационарной в задаче E5) с целевой функцией, задаваемой формулой E4). Задача 13. Доказать лемму 7. Следующая теорема обобщает утверждение б) теоремы 4.3.6. Теорема 7. Пусть выполнены условия теоремы 3. Тогда существует число Ъ^ > 0 такое, что если с^ ? @, с2], яго окрестность U точки (ж, А, /7) ^ число ci(c2) ^ 0 могут быть вы- выбраны таким образом, чтобы для любого с\ > ci(c2) задача E8) с це- целевой функцией, задаваемой формулой E7), имела в U единствен- единственную стационарную точку ("ж, А, ~р).
§4-7. Штрафы 191 Задача 14. Используя леммы 2 и 7, теорему 4.3.6 и утверждение из задачи 12, доказать теорему 7. Разумеется, для задачи C), D) могут использоваться и другие точные гладкие штрафные функции, помимо введенной в E4) (см. п. 4.3.3), что приводит к соответствующим точным гладким штраф- штрафным функциям для задачи A), B). Заметим, правда, что легко из™ бавиться от присутствия одновременно как дополнительной перемен- переменной а, так и двойственной переменной /i в данном случае не удает- удается. Тем не менее семейства точных гладких штрафных функций для задачи A), B), зависящих только от прямой переменной этой задачи, известны, но их введение требует привлечения иных соображений.
Глава 5 СТРАТЕГИИ ГЛОБАЛИЗАЦИИ СХОДИМОСТИ Многие обсуждавшиеся выше методы можно отнести к методам ньютоновского типа (см. § 3.2, п. 4.3.1, § 4.4, п. 4.5.3). Для таких методов обычно удается установить локальную сходимость со сверхлинейной скоростью, но глобальная сходимость, вообще говоря, не имеет места. Совершенно естественным является стремление так модифицировать методы ньютоновского типа, чтобы обеспечить их глобальную сходи™ мость, сохранив при этом высокую скорость локальной сходимости. Иными словами, локально сходящиеся методы обретают практический смысл лишь после того, как процесс поиска достаточно хорошего на- начального приближения включен в окончательный алгоритм. Некото- Некоторым предназначенным для этого подходам и посвящена настоящая глава. Более детально с этими подходами можно познакомиться по специальной литературе (см., например, [39, 43]). § 5.1. Одномерный поиск Напомним, что важную группу методов оптимизации составляют методы спуска (см. § 3.1, пп. 4.1.2, 4.1.3, § 4.2), для которых харак- характерно наличие глобальной сходимости, а вот скорость их локальной сходимости обычно бывает не выше линейной. Это приводит к мыс™ ли объединить привлекательные глобальные свойства методов спус- спуска и локальные свойства методов ньютоновского типа в рамках од- одного алгоритма. Для этого в последние вводят параметр длины ша- шага, выбираемый на каждой итерации посредством процедуры одно- одномерного поиска для соответствующей функции качества г). В идеа- идеале эта функция должна вводиться так, чтобы любая ее критическая точка в естественных предположениях оказывалась стационарной в исходной задаче (функция качества может быть негладкой, и тогда понятие ее критической точки должно уточняться). Если организо- организованный таким образом метод является методом спуска для задачи ) Общепринятый английский термин — Merit function.
§5.1, Одномерный поиск 193 безусловной минимизации функции качества, то от него можно ожи- ожидать глобальной сходимости (в соответствующем смысле) к стацио- стационарным точкам исходной задачи. Более того, если удается показать, что вблизи стационарной точки, к которой сходится траектория мето- метода, он принимает единичный параметр длины шага, т. е. превращает™ ся в исходный метод ньютоновского типа, то будет обеспечена и высо- высокая скорость локальной сходимости. Такова общая идея глобализации сходимости методов посредством одномерного поиска для соответствующей функции качества. Если речь идет о задаче безусловной минимизации /(ж) -> min, х ? Rn, A) функции /: Rn —} R, то в роли функции качества может выступать сама целевая функция /. Предполагая достаточную гладкость /, продемонстрируем реализацию общей идеи в рамках алгоритма 3.2.3, т. е. схемы xk+1 = xk + akdk, dk = -Qkf'(xk), fc = 0,l,..., B) где для каждого к симметрическая матрица Q^ ? R(n, n) положи- положительно определена, а а& > 0 — параметр длины шага. Будем счи- считать, что этот параметр выбирается в соответствии с правилом Армихо. Согласно теореме 3.2.2 сверхлинейной скорости сходимости тако- такого алгоритма к стационарной точке ~х Е Rn задачи A) (при наличии сходимости) можно ожидать, если Q^ «аппроксимирует» (/"(ж")) при к —>¦ оо в смысле соотношения C.2.16). Более того, при этом ад. = 1 для любого достаточно большого к. Вместе с тем, если прос- просто положить а,^ = 1 для любого Jc, то глобальная сходимость ме- метода не будет гарантирована: вдали от стационарных точек соответ- соответствующий шаг метода может оказываться слишком длинным, чтобы обеспечить хотя бы просто монотонное убывание последовательности {f(xk)}. С другой стороны, как отмечено в п. 3.2.3, алгоритм 3.2.3, в кото- котором ttk не полагается «насильно» равным 1, а определяется по- посредством правила Армихо, является методом спуска для задачи A). Более того, если предположить, что HQfclKr, {Qkh,h)^-y\h\2 VfteR", VA; C) при некоторых Г>0 и j > О, то в силу B) для произвольного к (/V), dk) (/V), Qkf'(xk)) j_ \dk\2 |Q*/V)!2 " г2 <и- Таким образом, выполнено C.1.9) при 8 = —j/T2, откуда вытекает существование не зависящей от к константы а., для которой ак ^ а > 0 D) (см. п. 3.1.1). 7 А.Ф. Измаилов, М.В. Солодов
194 Гл. 5. Стратегии глобализации сходимости Следующая теорема является обобщением теоремы 3.1.1. Случаи использования правила одномерной минимизации и правила постоя- постоянного параметра сводятся к случаю использования правила Армихо так же, как при доказательстве теоремы 3.1.1. Теорема 1. Пусть функция /: Rn —> R дифференцируема на Rn, и ее производная непрерывна по Липшицу на Rn с констан- константой L > 0. Пусть в алгоритме 3.2.3 используется правило Армихо. Пусть, наконец, для выбираемой в алгоритме последовательности матриц {Qk} выполнено C) при некоторых Г > 0 и j > 0. Тогда любая предельная точка любой траектории {хк} алгорит- алгоритма 3.2.3 является стационарной точкой задачи A). Если предельная точка существует или если функция / ограничена снизу на Rn, то {/'(**)} ">0 (*->оо). Задача 1. Используя D) и повторяя с очевидными изменениями доказательство теоремы 3.1.1, доказать теорему 1. Выполнения C) обычно удается добиться, если генерировать пос- последовательность матриц {Q/c} с помощью тех или иных квазинью- квазиньютоновских формул, а параметры длины шага а к выбирать согласно правилу Вулфа (роль правила Вулфа в контексте квазиньютоновских методов уже отмечалась в п. 3.2.3). Часто для каждого к в качестве Qk берут обратную матрицу к положительно определенной модификации f"{xk) (см. п. 3.2.2). Если же, предполагая положительную определенность //;(ж^), ис- использовать матрицу Qk = (/"(ж^))^1 (что привлекательно с точки зрения скорости локальной сходимости), то предположение о выпол- выполнении второго условия в C) будет немногим слабее требования силь- сильной выпуклости функции / на Rn. В случае отсутствия сильной выпуклости и, в частности, в случае наличия точек вырождения мат- матрицы Гессе функции / разумное поведение траекторий метода суще- существующей теорией не гарантируется. Очевидно, в случае попадания траектории метода в такую точку (либо в ее малую окрестность) са- сама итерация метода будет (численно) некорректной. В [44] поднимал- поднимался вопрос о возможном «застревании» траекторий метода Ньютона с регулировкой длины шага вблизи нестационарных точек вырожде- вырождения матрицы Гессе целевой функции. Этот вопрос до сих пор до кон- конца не решен: соответствующий пример не найден и в то же время не доказана невозможность такого примера. Недавние исследования по- показывают, что такой эффект крайне маловероятен, если вообще мо- может иметь место. Для задач условной оптимизации выбор функции качества не столь очевиден: этот выбор должен отражать стремление не только к умень- уменьшению значения целевой функции, но и к удовлетворению ограниче-
§5.1, Одномерный поиск 195 ний. В § 5.4 при глобализации методов последовательного квадратич- квадратичного программирования для этой цели используется негладкая точная штрафная функция. В роли функции качества часто выступают раз™ личные невязки систем условий оптимальности (Лагранжа, Каруша^ Куна-Таккера), модифицированные функции Лагранжа [40], а также точные гладкие штрафные функции; скажем, в [6] именно последние использовались для глобализации сходимости методов ньютоновского типа, основанных на идентификации активных ограничений. Иног- Иногда на разных итерациях используются различные функции качества (например, штрафная функция при различных значениях параметра штрафа). Это создает дополнительные трудности при теоретическом анализе, но может быть практически оправдано (см. § 5.4). При подходящем выборе функции качества процедуры одномер- ной минимизации могут использоваться для глобализации сходимос- сходимости методов ньютоновского типа применительно не только к задачам оптимизации и связанным с ними специальным системам уравнений, но и к произвольному уравнению Ф(х) = 0, E) где Ф: Rn —>> Rn — гладкое отображение (см. [30]). В этом случае функцию качества следует выбирать так, чтобы в естественных пред- предположениях ее критические точки оказывались решениями исходного уравнения. Один популярный выбор функции качества предлагается методом наименьших квадратов: ^:R"^R, ф)=\\Ф{х)\2. Тогда ^(х) = (Ф'(а;))тФ(а;), х € Rn, и если ж" Е Нте — критическая точка функции у>, причем матрица Ф;(ж) невырождена, то ~х — решение уравнения E). Кроме того, в произвольной точке х Е Rn, в которой матрица Ф;(ж) невырожде- невырождена, ньютоновское направление d = — (Ф/(х))~1Ф(х) является направ- направлением убывания функции у?, если только х не является решением уравнения E). Это следует из леммы 3.1.1, поскольку {<р'(х), d) = -((Ф'(х))тФ(х), (ФЧяОГЧОс)) = -|Ф(Ж)|2 < 0. Заметим, однако, что соответствующий метод Ньютона с регули- регулировкой длины шага вполне может «застревать» вблизи точек вырож- вырождения производной отображения Ф, не являющихся ни решениями уравнения E), ни даже критическими точками функции <р, либо ос- осциллировать между несколькими такими точками. В отличие от об- обсуждавшегося выше оптимизационного случая, для уравнений приме- примеры такого поведения известны.
196 Гл. 5. Стратегии глобализации сходимости § 5.2. Методы доверительной области Другой естественный подход к глобализации сходимости методов ньютоновского типа основан на следующем соображении. Вспомога- тельная задача всякого такого метода, решаемая на каждой итера- итерации, является локальной аппроксимацией (в том или ином смысле) исходной задачи либо системы условий первого порядка оптимально- оптимальности для исходной задачи. Разумеется, такой аппроксимации можно «доверять» лишь в достаточно малой окрестности текущего прибли- приближения. Представляется естественным решать вспомогательную зада- задачу не на всем пространстве, а именно на такой окрестности, назы- называемой доверительной областью 1). Например, для задачи безусловной оптимизации f(x) -> min, x e Rn, A) гладкой функции /: Rn —>• R, если хк € Rn — текущее приближе- приближение, то итерационная вспомогательная задача ньютоновского метода имеет вид ipk(x) ^ mm, х ? Rn, B) где <фк: W1 ^R, фк(х) = f(xk) + </V), х-хк)+\ (Нк(х - хк), х - хк); C) здесь Hk G R(n, n) — некоторая симметрическая матрица (ср. с C.2.12)). Итерация соответствующего метода доверительной об- области состоит в отыскании глобального решения задачи ^W^min, хеТ5{хк,8к), D) где 5к > 0 — радиус доверительной области, адекватное управление которым как раз и составляет главный вопрос для данного подхода. Давняя дискуссия о том, какой из двух основных подходов к гло- глобализации сходимости — одномерный поиск или стратегия довери- доверительной области — естественнее и эффективнее, по-видимому, может продолжаться бесконечно. Сторонники каждой точки зрения имеют свои аргументы. Не вдаваясь в детали этого спора, отметим лишь следующее. Очевидно, отыскание глобального решения вспомогательной зада- задачи D) значительно более трудоемко, чем простой одномерный поиск. Более того, в зависимости от реализации метода доверительной обла- области может возникать необходимость решения на текущей итерации не одной, а нескольких задач вида D) при различных значениях 8к > О с целью подбора такого значения, которое обеспечило бы достаточное ) Общепринятый английский термин — Trust-region.
§5.2. Методы доверительной области 197 убывание функции /. Правда, хорошие реализации позволяют избе- избежать необходимости многократного решения вспомогательных задач (см. ниже). В любом случае существуют эффективные специальные алгоритмы минимизации квадратичной функции на шаре [48], т.е. ре- решение задачи D) не требует привлечения методов глобальной опти- оптимизации общего назначения. Кроме того, интуитивно ясно, что D) является куда лучшей ап- аппроксимацией исходной задачи, чем задача минимизации / вдоль лю- любого фиксированного направления. Следовательно, можно ожидать, что, несмотря на более высокую стоимость решения вспомогатель- вспомогательной задачи метода доверительной области, решение этой задачи обес- обеспечит больший прогресс в минимизации /, чем одномерный поиск, и итоговый алгоритм может быть более эффективен. Из практиче- практического опыта известно, что хорошие реализации методов доверитель- доверительной области вполне могут конкурировать с аналогичными методами, использующими одномерный поиск, и даже превосходят последние в плане робастности в том смысле, что их применение реже заканчи- заканчивается неудачей. Наконец, с точки зрения теории методы доверительной области имеют то преимущество, что, как будет показано ниже, для них уда- удается доказать глобальную сходимость не к любым стационарным точ- точкам, а лишь к тем, в которых выполнено необходимое условие второго порядка оптимальности. Еще раз подчеркнем, что эффективность всего метода довери- доверительной области во многом определяется эффективностью исполь- используемого алгоритма решения вспомогательных задач вида D). Хоро- Хорошее описание эффективных алгоритмов решения D) имеется, напри- например, в [16]. Здесь ограничимся лишь кратким обсуждением основных подходов к этой проблеме. Задача 1. Пусть заданы симметрическая матрица А Е R,(n, n), элемент b Е Нп и число 8 > 0. Показать, что если х Е Rn является глобальным решением задачи (Ах, х) + F, х) —>- min, х Е В@, 8), E) то существует единственное число /л ^ 0 такое, что 2(А + fiEn)x + 6 = 0, fi{\x\ - 8) = 0, причем матрица А + fiEn неотрицательно определена. Если матри- матрица А положительно определена, то {-- А~гЬ, если - \А~гЪ\ ^ 8, --{А + аЕп)^1Ь, если - |Л^16| > 8, где /1 ^ 0 однозначно определяется равенством \(А + fj,En)~1b\/2 = 8.
198 Гл. 5. Стратегии глобализации сходимости Задача 2. В обозначениях задачи 1 пусть элемент х G Rn и чи- число fi таковы, что 2(А + fiEn)x + b = 0 и матрица Л + /iE'n неотри- цательно определена. Доказать следующие утверждения: а) если \х\ ^ S и /л = 0, то х является глобальным решением задачи E); б) если \х\ = <5, то х является глобальным решением задачи (Ах, х) + F, х) —>> min, ж G {ж G Rn| |ж| = 8}; в) если |ж| = S и /i ^ 0, то х является глобальным решением задачи E). Более того, если матрица А + fiEn положительно определена, то в каждом из утверждений а)—в) х является единственным глобаль- глобальным решением соответствующей задачи. Пусть хк G Rn — решение задачи D) с положительно определен™ ной матрицей Н^. Положим d(n) = -(Hk + fiEn)-1f'(xk), /igR+. F) Как указано в задаче 1, Хк = Хк + dfe, dk = d(fJLk), где jj,k = 0 при \Н^г f'(xk)\ ^ 5к (при этом хк совпадает с резуль- результатом чистой ньютоновской итерации, т. е. является решением зада- задачи B)), а в противном случае число /лк ^ 0 однозначно определяется скалярным уравнением IdMI = 6к G) относительно /i E R. Это уравнение обычно решают (приближенно) с помошью специальных реализаций метода Ньютона. При этом в си- силу некоторых вычислительных причин предпочтительнее иметь дело с эквивалентным уравнением 1 1 После отыскания //& элемент d находится как решение линейной системы относительно d E Rn. Другой подход основан на следующих соображениях. С измене™ нием fjb G R+ элемент d(fi) описывает в пространстве Rn непре- непрерывную кривую — от ньютоновского шага d@) = —H^1ff(xk) до «почти градиентного» шага d(fi) « — /''(хк)/'/л при больших значени- значениях /1. Более того, как видно из F) и G), изменения [л обратны изме™ нениям Sk- Поэтому вместо решения вспомогательной задачи D) для
§5.2. Методы доверительной области 199 пробных значений радиуса Sk доверительной области можно пытать- пытаться непосредственно отследить кривую значений d(*), аппроксимируя ее теми или иными методами [16, 48] (см. также § 5.3). Перейдем к описанию базового метода доверительной области. Для простоты ограничимся случаем, когда Нк = f"{xk) для каждо- каждого /г, оставляя рассмотрение квазиньютоновских вариантов метода читателю. Алгоритм 1. Выбираем х° Е Rn и полагаем к = 0. Выбираем параметры 1 > 0, е,0ъ02 е @, 1), в\ < в2- 1. Выбираем 5 J^ S. 2. Полагаем Sk = S. Вычисляем хк Е Rn как глобальное решение задачи D) с целевой функцией, задаваемой формулой C) при Нк = = f"(xk). 3. Если хк = хк, то переходим к п. 4. В противном случае прове- проверяем выполнение неравенства Яхк)-Нхк)^е(фк(хк)-Пхк)). (8) Если оно выполнено, то переходим к п. 4. В противном случае выби- выбираем 5 € [6i\xk — хк\, 02^к] и переходим к п. 2. 4. Полагаем хк+1 = хк, увеличиваем номер шага к на 1 и пере- переходим к п. 1. Легко видеть, что если для некоторого к в п. 3 алгоритма реа- реализуется равенство хк = хк, то точка хк является стационарной в задаче A), причем в этой точке выполнено необходимое условие вто- второго порядка оптимальности. Выполнение неравенства (8) означает, что убывание значения целе- целевой функции / составляет по крайней мере заданную долю от убыва- убывания, «предсказанного» аппроксимацией фк функции /. Разумеется, алгоритм 1 довольно схематичен; способы его реализации могут быть различны и здесь не конкретизируются. Например, как отмечено выше, отыскание нового (приближенного) решения вспомогательной задачи D) для нового значения Sk вовсе не обязательно подразумевает необ- необходимость непосредственного решения новой оптимизационной задачи. Также не обсуждается вопрос о выборе начального значения 8 в п. 1 алгоритма. На практике разумно брать большое ё, если предшествую- предшествующая итерация была «очень успешной», т. е. привела к существенному убыванию значения целевой функции, и ограничиваться небольшим значением в противном случае. Сначала покажем, что итерация алгоритма 1 определена корректно. Предложение 1. Пусть функция /: Rn —>• R дважды диффе- дифференцируема на Rn. Тогда если для некоторого к = 0,1,... алгоритмом 1 сгенери- сгенерирована точка xk E Rn, которая либо не является стационарной
200 Гл. 5. Стратегии глобализации сходимости в задаче A), либо в этой точке нарушено сформулированное в тео- теореме 1.2.4 необходимое условие второго порядка оптимальности^ то алгоритм корректно определяет и точку xk+1, причем f(xk+1) < < f(xk). Доказательство. Для каждого 8 > 0 обозначим через х(ё) некоторое глобальное решение задачи D) при Sk = 8 (всюду да- далее считаем, что целевая функция задачи D) задается формулой C) при Hk = f"{xk)) и положим р(8) = **('» - К*"} . (9) фк(х(ё)) - /(ж ) В сделанных предположениях относительно хк имеет место следую™ щее: либо f'(xk) ф 0, либо f'(xk) = 0, но матрица f"{xk) не яв™ ляется неотрицательно определенной. Значит, хE) ф хк; более того, < f(xk). Поэтому достаточно показать, что 1 (Ю) (это будет означать, что после конечного числа изменений 8 в п. 3 алгоритма неравенство (8) неизбежно выполнится). Сначала предположим, что ff(xk) ф 0. Возьмем произвольный элемент h E Rn такой, что (/;(ж^), h) < 0, \h\ = 1. Тогда, посколь™ ку хк + Sh Е В(хк, Sk), имеем Мх(8)) ^ Ы*к + Sh) = f{xk) + S(f'(xk), h) + у (f"(xk)h, h), поэтому Фк(хF)) - f(xk) ^ S (</V), h)+S- ||/'V)ll) < f (f'(xk), h), где последнее неравенство справедливо для любого достаточно мало™ го 8 > 0. Далее, f(x(S)) - фк(хE)) = f(x(S)) - f(xk) - {f'(xk), x{8) - хк) - - \ (f"(xk)(xE) - хк), хE) - хк) = оE2). A1) Из двух последних соотношений имеем \р{6)-1\ = = оE), что и дает A0). Пусть теперь ff(xk) = 0, но существует элемент h E Rn такой, что {f"{xk)h, h) < 0, |ft| = 1. Тогда фк(х(8)) ^ фк(хк + Sh) = f(xk) + у {f"{xk)h, ft),
§5.2. Методы доверительной области 201 поэтому Отсюда и из A1) имеем 52 что опять дает A0). ? Теорема 1. Пусть функция f: Rn —>• R дважды непрерывно дифференцируема на Rn. Тогда любая предельная точка любой траектории {хк} алгорит- алгоритма 1 является стационарной точкой задачи A), причем в этой точ- точке выполнено сформулированное в теореме 1.2.4 необходимое условие второго порядка оптимальности. Доказательство. В силу предложения 1 можно считать, что последовательность {f(xk)} монотонно убывает. Пусть последова- последовательность {хк} имеет предельную точку ~х G Rn. Тогда из моно- монотонного убывания последовательности {f(xk)} следует ее ограничен- ограниченность снизу, а значит, и сходимость. В частности, f(xk+1) — f(xk) —>• 0 (к —> оо), откуда и из (8) следует, что Фк(хк+1) - f(xk) -> 0 (к->оо). A2) Пусть {xkj} — сходящаяся к ~х подпоследовательность последо- последовательности {хк}. Возможны два случая: liminf^. >0 A3) либо liminf Skj = 0. A4) Рассмотрим сначала случай выполнения A3). Положим 5 = liminf 5k- > 0, и пусть у G Rn — глобальное решение задачи (f{x), х - х) + | if"[x){x ^x),x^x)^ min, x G Д A5) Тогда для любого достаточно большого j х \У ^ X 3 ^ \у ^ Х\^ \Х 3 ^ Х\ ^ — ^ Okj- В частности, точка у допустима в задаче D) при к = kj, поэтому
202 Гл. 5. Стратегии глобализации сходимости = /(**') + (f'(xk*),y-xk>) + \ {Г(хк*)(у-хк>),у-хк*). Переходя к пределу при j ->оо и используя A2), получаем 0 < (Г(х), У~х)+\ {f"(x)(y -x),y- х), откуда следует, что ~х также является глобальным решением зада- задачи A5), A6) (а значение этой задачи равно нулю). Но ~х G int D, от- откуда, привлекая теоремы 1.2.3 и 1.2.4, легко получаем требуемое. Пусть теперь выполнено A4). Без ограничения общности можем считать, что вся последовательность {#&•} сходится к нулю. Но тог- тогда для любого достаточно большого j выполняется Skj < J, т. е. на шаге kj в п. 3 алгоритма радиус доверительной области был умень- уменьшен по крайней мере один раз. Поэтому найдется число Sk ¦, для которого существует такое глобальное решение х(ё) задачи D) при хк = хк\ 5k = Skj, что f(x(Sk.)) > f(xk>) + е{ффEк,)) - f(xk>)), A7) Skj >в1\х(8к,)-хк'\. В силу выбора подпоследовательности {Skj} последнее, в частности, означает, что {x(Skj) — xkj} ^0 (j —> оо). Дальнейшие рассуждения аналогичны тем, которые использова™ лись при доказательстве предложения 1. Предположим, что суще- существует элемент h Е Нп такой, что \h\ = 1 и либо (f'(x), h) < 0, A8) либо f'(x) = 0, (/"(х)А, h) < 0. A9) Тогда ^f(Tkj\i7 /ff( kj\ i\ , JlL (f"(TkAh h) откуда в случае выполнения A8) следует, что для любого достаточно большого j %
§5.2. Методы доверительной области 203 Отсюда, полагая = f(x(Ski)-Hxki) ркэ MSK?))/(*')' легко приходим к равенству \pkj ~ 1| = °(^jfe-)/^fej? означающему, что Р*д-->1 (j-^oo). B0) Но это противоречит A7). В случае выполнения A9) аналогичным образом приходим к B0) (см. доказательство предложения 1), а значит, и к противоречию с не- неравенством A7). ? Последний вопрос, который требует ответа, состоит в следующем: будет ли в естественных предположениях итерация алгоритма 1 пре- превращаться в чистую итерацию метода Ньютона вблизи решения? Этот вопрос легко решается положительно с помощью утверждения из задачи 1. Задача 3. Пусть функция /: Rn —>• R дважды дифференцируе- дифференцируема в некоторой окрестности точки ж G Rn, причем ее вторая про- производная непрерывна в этой точке. Пусть ~х является стационарной точкой задачи A), причем в этой точке выполнено достаточное усло- условие второго порядка оптимальности. Показать, что если для некото- некоторого к = 0,1,... алгоритмом 1 сгенерирована точка хк Е Шп \ {а;}, достаточно близкая к af, то алгоритм генерирует Отметим, что вместо задачи D) можно рассматривать вспомога- вспомогательную задачу вида Фк(х) —> mm, х G Dki Dk = {х G Rn| \x - xh\oo ^ 6k}, т.е. вместо евклидовой нормы | • | = | • |2 использовать | • |oo (исполь- (использование других норм здесь едва ли может быть практически оправ- оправдано). Такая замена превращает вспомогательную задачу в задачу квадратичного программирования на параллелепипеде (о методах ре- решения задач квадратичного программирования см. § 7.3), а свойства сходимости метода доверительной области по существу не изменяют- изменяются. Разумеется, как и для алгоритмов, использующих одномерный по- поиск, область применения методов доверительной области вовсе не ограничивается рамками безусловной оптимизации и методами нью- ньютоновского типа. Для условных задач радиус доверительной обла- области подбирается так, чтобы он обеспечивал достаточное убывание той или иной функции качества.
204 Гл. 5. Стратегии глобализации сходимости § 5.3. Продолжение по параметру Еще один продуктивный подход к получению хороших началь- начальных приближений для локально сходящихся методов основан на еле™ дующей идее. Исходную оптимизационную задачу либо систему усло- условий оптимальности для нее всегда можно включить в семейство за- задач, параметризованное (естественным или искусственным) скаляр- скалярным параметром. Предположим, что для некоторого значения па- параметра решение либо хорошее приближение к решению соответ- соответствующей задачи семейства может быть легко найдено. Это реше- решение (приближение) можно пытаться продолжить по параметру до то- того значения последнего, которому отвечает исходная задача. Разуме- Разумеется, такое продолжение, если оно вообще возможно, обычно прихо- приходится осуществлять приближенно. Тем не менее при определенном согласовании погрешностей можно ожидать, что получаемая указан- указанным способом точка будет достаточно хорошим приближением к ре- решению исходной задачи. Вновь ограничимся рассмотрением задачи безусловной оптими- оптимизации f(x) -+ min, x e Rn, A) достаточно гладкой функции /: Rn —>> R. Пусть достаточно гладкое отображение Ф: [0, 1] х Rn —>> Rn обладает тем свойством, что причем некоторое решение х° Е Rn уравнения Ф@, х) = 0 B) может быть найдено с любой наперед заданной точностью. Напри- Например, если для некоторого отображения Фд: Rn —> Rn уравнение Ф0(ж) = 0 имеет известное решение, то можно взять Ф(*, х) = tf(x) + A - t)#0(x), t e [0, 1], х е Rn. В частности, всегда можно фиксировать х° Е Rn и положить Фо(х) = /'(х)-?{х°), xeRn, тогда ф{ь,х) = /'(х)-A-г)/'(х°), te[o,i\, хекп. Заметим, однако, что во многих случаях (и, в частности, при решении задач условной оптимизации) при введении отображения Ф исполь- используются значительно более изощренные подходы. Далее, предположим, что существует отображение \\ [0, 1] —>• Rn, непрерывное на [0, 1] и такое, что х°, Ф(*, *(*)) = о Vie [0,1]. C)
§ 5.3. Продолжение по параметру 205 Тогда точка ~х = хA) является стационарной в задаче A), и ее мож- можно пытаться аппроксимировать, двигаясь вдоль задаваемой отображе- отображением х кривой в Ш1 от х@) до хA). Достаточные условия локальной продолжаемости решения даются классической теоремой о неявной функции (теорема 1.3.1). А именно, ^Ф /л 0\ « тт если матрица -тг™ @, х ) невырождена, то найдутся окрестность и ох точки 0 в R и отображение %'• ^ ~* ~^п' •> непрерывное (и даже глад- гладкое) на U и такое, что х(о) = х°, фA,х(г)) = о Viet/. Однако гарантировать глобальную продолжаемость решения, т. е. выполнение включения U D [0, 1], можно лишь в весьма сильных до- дополнительных предположениях. Некоторые утверждения такого рода имеются в [30] (см. также задачу 1 ниже). Весьма продуктивным мо- может быть отказ от естественной параметризации: в значительно бо- более слабых предположениях на Ф существует кривая решений в про™ странстве R, х Жп, задаваемая при некотором ~s > 0 непрерывным отображением вида (т(-), х(')): [0? s"] ^ R x Rn, (т@), х@)) = = @, ж0), r(~s) = 1. В качестве нового параметра разумно использо- использовать длину дуги такой кривой [39, 48]. В этом случае искомая кривая характеризуется начальной задачей ^(t,x)t+^(t,x)x = 0, |(*,±)| = 1, (*(<)), 3@)) = @, я0). Тем не менее для простоты далее ограничимся случаем глобальной продолжаемости по естественному параметру. 5.3.1. Конечные алгоритмы продолжения. Для произвольного на- натурального N введем на отрезке [0, 1] сетку {t^, t^,. . ., ?$} @ = = t^ < t^ < . . . < ttf = 1) И ПОЛОЖИМ Пусть ж0' ° G Rn — имеющееся приближ:ение к решению ж0 уравне- уравнения B). Стартуя из этой точки, делаем ко шагов метода Ньютона для уравнения Ф(<?, х) = 0 E) при г = 0 (т.е. для уравнения B)). Стартуя из полученной таким об- образом точки, делаем к\ шагов метода Ньютона для уравнения E) при г = 1. Повторяя эту процедуру для каждого г = 0,1,. . ., 7V — -— 1, приходим к формулам = 0,1,..., ki-1, i = 0,l,---,N-l,
206 Гл. 5. Стратегии глобализации сходимости где xito = xi-i1ki.1^ i = l,...,7V-l. G) Полученную в результате этих вычислений точку xN = xN~1'kN~1 и предлагается использовать в качестве начального приближения к стационарной точке ~х = хA) задачи A). В приводимом ниже анализе ограничимся случаем, когда к{ = 1 V? = 0,1,. . ., 7V — 1, т.е. когда для каждого уравнения вида E) дела- делается всего один шаг метода Ньютона. Алгоритм 1. На отрезке [0, 1] задаем сетку {tff, t^,...,^} @ = ttf < t? < . . . < t% = 1). Выбираем z°'° G Rn. Полагаем x° = ж0' ° и вычисляем точку xN E Rn по формулам (*f, F), i = 0,l,...,iV-l. (8) Оказывается, в естественных предположениях можно гарантиро- гарантировать любую нужную близость генерируемой алгоритмом точки xN к ~х, если шаг сетки достаточно мал, а точка ж0'0 достаточно близ™ ка к х°. Напомним, что графиком отображения х: [0? 1] ~* ^п называется множество graph х = {(*, х) G [0, 1] х R"| x(t) = х}. Теорема 1. Пусть отображение Ф: [0, 1] х Rn —>> Rn и точ- точка х° G Rn таковы, что существует отображение х: [0? 1] —> ^п? непрерывное на [0, 1] w удовлетворяющее C). Пусть Ф дифференци- дифференцируемо по х в некоторой окрестности graph %, причем частная про- производная Ф по х непрерывна на graph %. Пусть, наконец, det || (i, X(t))?0 Vie [0,1]. (9) Тогда для любого достаточно малого числа S > 0 найдется чис- число А > 0 такое, что если сетка {t^, t^,. . ., t^} на отрезке [0, 1] и начальное приближение ж0'0 Е Rn удовлетворяют условиям Адг<А, |жо'°^ж°| <*, A0) г^е Адг введено в D), то алгоритм 1 корректно определяет точ- точку xN E Rn, причем \xN-x0)\<8. A1) Доказательство. Используя (9), непрерывность частной про- производной Ф по ж на graph %, теорему о малом возмущении невы- невырожденной матрицы и компактность отрезка [0, 1], легко убедить™ ся, что найдутся окрестность Ы множества graph \ и число М > 0
§ 5.3. Продолжение по параметру 207 такие, что det || (t, x) ф О, -1 A2) С помощью рассуждений, аналогичных использованным при до- доказательстве теоремы 3.2.1, отсюда выводится, что для всякого q Е Е @, 1) найдется число 8 > 0 такое, что вне зависимости от выбора сетки, если для некоторого г Е {0,1,. . ., iV — 1} точка хг принадле- принадлежит ?»(x(t^), <5), то формула (8) корректно определяет точку ж*+1, причем Обозначим A4) Из D) и равномерной непрерывности непрерывной функции на ком- компакте следует, что для любого 6 Е @, 8) найдется А > 0 такое, что при выполнении первого неравенства в A0) будем иметь Предположим, далее, что алгоритмом корректно определены точ- точж0, ж1, xj - х(^)\ < ж% i Е {0,1,..., ЛГ - 1}, причем ^ V j = 0,1,..., i. Тогда алгоритм корректно определяет точку причем в силу второго неравенства в A0) и A3)—A5) j=o Отсюда следует требуемое. ? Разумеется, конечные методы продолжения можно строить не только на базе метода Ньютона и методов ньютоновского типа. Из приведенного доказательства видно, что существенным является на- наличие, как минимум, линейной скорости локальной сходимости базо- базового метода к решению %(?) уравнения Ф(?, х) = 0 для всех t E [0, 1]. В связи с этим отметим важность условия (9): при его нарушении отслеживание кривой, задаваемой отображени-
208 Гл. 5. Стратегии глобализации сходимости ем %, становится весьма трудной задачей. Во многих случаях пре- преодолеть эти трудности позволяет упоминавшаяся выше смена пара- параметризации [39]. Иногда параметризуют не условия оптимальности для задачи A), а саму эту задачу, вводя функцию ср: [0, 1] х Rn —>> R такую, что причем некоторое (локальное или глобальное) решение х° задачи ip@, х) -> min, х Е Rn, может быть найдено с любой наперед заданной точностью. Если это решение продолжаемо в том смысле, что существует непрерывное на [0, 1] отображение х: [0? Ц —> ~^п такое, что %@) = х° и x(t) является решением задачи (p(t, x) —> min, х Е Rn, для каждого t Е [0, 1], то при построении конечных алгоритмов про™ должения наряду с методами ньютоновского типа к последней зада- задаче могут применяться, например, методы спуска, метод сопряженных градиентов и другие. Задача 1. Пусть функция ср: [0, 1] х Rn —>> R обладает следую- следующим свойством: существует компакт D С Rn такой, что эта функция непрерывна на [0, 1] х D и для любого t E [0, 1] задача (f(tj х) —>• min, х G D, имеет единственное глобальное решение х(?). Доказать, что отобра- отображение х: [0? 1] —* ^п непрерывно на [0, 1]. 5.3.2. Продолжение посредством решения начальной задачи. Ес- Если для каждого t E [0, 1] матрица -^— (t, x(?)) невырождена, то при соответствующей гладкости отображения Ф теорема 1.3.1 гарантиру- гарантирует гладкость отображения %, причем, дифференцируя второе равен- равенство в C) по t как композицию гладких отображений (либо просто ссылаясь на соответствующую формулу из теоремы 1.3.1), получаем, что %(•) является решением начальной задачи X |?(i, х), х{0) = х°. A6) Возникает естественная мысль аппроксимировать ~х = хA), ре- решая эту начальную задачу с помощью тех или иных приближенных схем, например, схемы Эйлера либо более точных схем Рунге^Кут- та [5]. В случае использования схемы Эйлера приходим к следующему алгоритму (ср. с алгоритмом 1). Алгоритм 2. На отрезке [0, 1] задаем сетку {tff, t^,...,^} @ = ttf < t? < . . . < t% = 1). Выбираем ж0'0 Е Rn. Полагаем х° =
§5.3. Продолжение по параметру 209 = ж0' ° и вычисляем точку xN E Rn по формулам ^(*f,F), i = O,l,...,JV-l. A7) Теорема 2. Пусть отображение Ф: [0, 1] х Rn ^ Rn ti точ- точка ж0 Е Rn таковы, что существует отображение х: [0? 1] ~^ Г^\ непрерывное на [0, 1] и удовлетворяющее C). Пусть Ф дифференци- руемо в некоторой окрестности V графика %, причем его производ- производная непрерывна на graph х- Пусть существует число L > 0 такое, v(t,x)ev. (is) Пусть, наконец, выполнено (9). Тогда для любых чисел е > 0 и С > 0 найдутся натуральное число N и число 6 > 0 такие, что если сетка {tff, t^,...,t^} на отрезке [0, 1] и начальное приближение ж0'0 Е Rn удовлетворя- удовлетворяют условиям Л^ §, ^^ЛГ, |Ж0'0-Ж°|<«5, A9) г^е Ajv введено в D), то алгоритм 2 корректно определяет точ- точку xN E Rn, причем \xN-X(l)\<e. Для доказательства потребуется следующий факт, называемый дискретным аналогом леммы Гронуолла. Лемма 1. Пусть числа во, 9\,. . . ,0^ ? а и Ъ удовлетворяют неравенствам г 0 ^ 6>о ^ а, 0 ^ 6>i+i ^ а+ 6^^- Vi = 0,1,. . ., TV - 1. i=o 0i ^ a(l + 6)i Vi = 0,1,..., N. Задача 2. Используя индукцию, доказать лемму 1. Доказательство теоремы 2. Используя (9), непрерыв- непрерывность х(') на [О? 1] и производной Ф на graph х, A8), теорему о малом возмущении невырожденной матрицы и компактность отрез- отрезка [0, 1], легко убедиться в следующем: найдутся окрестность U С V множества graph х и число L > 0 такие, что отображение Ф: U ->¦ R", Ф(«, ж) = - ( || (*, Ж)) ^ (t, x), корректно определено, отображение Ф(*, х(*)): [0? 1] ^ Rn непре-
210 Гл. 5. Стратегии глобализации сходимости рывно на [0, 1] и \\V(t,x)-4>(t,x(t))\\^L\x-X(t)\ V(t,x)€U. B0) Выберем число д > 0 из условия {t} х B(x{t), 5) CU Vte [0, 1] (возможность такого выбора следует из компактности [0, 1]). Обозначим Из D), A9), непрерывности отображения Ф(-, х(-)) на [0,1] и равно- равномерной непрерывности непрерывной функции на компакте легко сле- следует, что найдется число 8 > 0 такое, что при выполнении первого неравенства в A0) ^(S + AN)eLC <mm{?, ё} B2) при любом достаточно большом N. Предположим, далее, что алгоритмом корректно определены точки ж0, ж1,. . ., жг, г Е {0,1,. . ., Л/" — 1}, причем |SJ* — x(tf)\ < ^ Vj = 0,1,..., i. Тогда алгоритм корректно определяет точку ж*+1, причем в силу A7) i=o i=o Кроме того, в силу A6) и формулы Ньютона—Лейбница имеем Из двух последних соотношений, равенства D), последнего нера- неравенства в A9), выражений B0) и B1) выводим
§5-4- Методы последовательного квадратичного программирования 211 i=o хо'°-х°\ i=o Поэтому в силу леммы 1 и неравенства B2) имеем |5i+1 - X(ti+1)\ ^(S + Aiv)(l + LAN)i+1 < min{?, ?}. Отсюда следует требуемое. ? Если судить по теоремам 1 и 2, алгоритм 1 имеет очевидные пре- преимущества перед алгоритмом 2 как в плане качества результата его применения, так и в плане условий гладкости, гарантирующих это ка- чество. В то же время алгоритм 2 может быть менее требователь- требовательным к степени мелкости используемой сетки, поэтому оба рассмот- рассмотренных метода продолжения находят применение на практике, при- причем особенно часто они применяются в комбинации друг с другом. Например, приближение, получаемое в очередной точке сетки посред- посредством схемы Эйлера, может уточняться за счет одной или нескольких ньютоновских итераций. Для таких комбинированных алгоритмов ис- используется название предиктор-корректор. Сетка в них обычно не фиксируется заранее, а конструируется адаптивно, по ходу процесса. Более подробно о методах продолжения (в том числе и совершен- совершенно иной природы, чем рассмотренные выше) см., например, [39]. § 5.4. Глобализация сходимости методов последовательного квадратичного программированим Привлекательные свойства локальной сходимости методов пос- последовательного квадратичного программирования (SQP) делают весьма желательным построение глобально сходящихся модификаций этих методов. Подчеркнем, что в данном контексте применяются обе основные стратегии глобализации сходимости, обсуждавшиеся в этой главе: как одномерный поиск для подходящей функции качества, так и методы доверительной области. Здесь подробно рассматривается только первая стратегия, реализация которой для методов SQP несколько проще, чем реализация второй (о которой см. [48]). 5.4.1. Глобализация сходимости. Предполагая гладкость функ- функции /: Rn -)> R и отображений F: Rn -> R1 и G: Жп -> Жт на Rn, будем рассматривать задачу /(ж) -^ min, х Е D, A) D = {х е Rn F(x) = 0, G(x) ^ 0}. B)
212 Гл. 5. Стратегии глобализации сходимости Пусть, как обычно, L: Гх^хГ-) R, L(x, А, у) = f(x) + (Л, F(x)) + (/i, G(x)) — функция Лагранжа задачи A), B). В роли функции качества, используемой при одномерном поис™ ке для методов SQP, обычно выступает некоторая точная штрафная функция задачи A), B) при соответствующем значении штрафного параметра с ^ 0, например (см. п. 4.7.2), (рс: Un -> R, (рс(х) = f(x) + сф(х), C) где т ф(х) = \Г(х)\г + J] max{0, gi{x)}, x e Rn, D) г=1 a gi(-) — компоненты отображения G, г = 1,. . ., га. Подчеркнем, что в этом пункте вопрос о скорости сходимости ме- методов SQP вообще не обсуждается: цель состоит лишь в обеспече- обеспечении их глобальной сходимости. Получаемые на этом пути методы можно отнести к так называемым методам линеаризации [6, 33, 36]. В п. 5.4.2 будет показано, как следует видоизменить функцию (рс с тем, чтобы не только обеспечить глобальную сходимость соответ- соответствующих модификаций методов SQP, но и сохранить сверхлинейную скорость локальной сходимости. Алгоритм 1. Выбираем (ж0, А0, /х°) е Rn х R1 x Rm и сим™ метрическую матрицу Hq Е R(n, п) и полагаем к = 0. Фиксируем параметры в,е G @, 1). 1. Вычисляем dk E Rn как стационарную точку задачи квадра- квадратичного программирования (f(xk), d) + \ {Hkd, d) -+ min, d e Dk, E) Dk = {d e Rn| F(xk) + F'{xk)d = 0, G(xk) + G'{xk)d < 0}. F) Вычисляем yfc E R1 и zfc E R+ как отвечающие стационарной точ- точке dk задачи E), F) множители Лагранжа. 2. Если dk = 0, то полагаем ак равным любому числу и перехо- переходим к п. 3. В противном случае выбираем число х) ск > К/, *fc)|oo G) и полагаем а = 1. 1 и 1) Здесь существенно следующее обстоятельство: нормы являются взаимодвойственными в том смысле, что |x|i = max (ж, ?), |ж|оо = л max (ж, ?) Уж Е Жп.
§5-4- Методы последовательного квадратичного программирования 213 2.1. Проверяем выполнение неравенства (fCk(xk + adk) ^ (fCk(xk) + eaAk, (8) где а функции (рСк и ф вводятся в соответствии с C), D). 2.2. Если (8) не выполнено, то заменяем а на 0а и переходим к п. 2.1. В противном случае полагаем ак = а. 3. Полагаем хк+1 = хк + akdkj Xk+1 = yk, ^fe+1 = zfc. 4. Увеличиваем номер шага А; на 1, выбираем новую симметри- симметрическую матрицу Нк € R(n, п) и переходим к п. 1. Реализация описанного алгоритма подразумевает существование у задачи квадратичного программирования E), F) стационарной точ- точки для каждого к. Вопрос о разрешимости вспомогательных задач в контексте методов SQP не имеет автоматического положительного ответа. Прежде всего, как уже отмечалось в п. 4.4.2, система ограни- ограничений задачи E), F) может вообще быть несовместной. Задача 1. Показать, что если отображение F: Rn —>> R1 аф- финно, функции gi выпуклы и дифференцируемы в точке хк Е Rn, г = 1,. . ., 771, а заданное в B) множество D непусто, то непусто и множество Dk, заданное в F). Другой пример условия, гарантирующего непустоту Dk, достав- доставляет линейная независимость совокупности строк матриц F'(xk) и Gf(xk), но предположение о выполнении этого условия в любой точке генерируемой методом траектории {хк} весьма ограничитель™ но. В любом случае непустоты допустимых множеств вспомогатель- вспомогательных задач всегда можно добиться за счет довольно несложных моди- модификаций самих этих задач (см. задачу 3 ниже). Другая возможная трудность состоит том, что целевая функ- функция задачи E), F) может быть не ограничена снизу на допусти- допустимом множестве, и тогда существование у этой задачи стационарной точки тоже не гарантировано. Такая ситуация исключена в случае положительно определенной матрицы Hkj и в этом смысле пред- предпочтительнее выбирать матрицы Нк именно положительно опреде- определенными. Согласно доказываемой ниже теореме 1 для обеспечения глобальной сходимости рассматриваемого алгоритма достаточно для каждого к в качестве Нк брать одну и ту же произвольную поло- положительно определенную симметрическую матрицу, например Нк = = Еп. В то же время с точки зрения скорости локальной сходимости « и дЧ , к Л, fc. наиболее привлекательным является выбор Ик = —^ \х ? ^ ? Z1 ) дх (см. п. 4.4.2), но положительная определенность таких матриц не га- гарантируется никакими естественными в этом контексте предположе-
214 Гл. 5. Стратегии глобализации сходимости ниями. Здесь может помочь замена L модифицированной функци- функцией Лагранжа Lc при достаточно большом значении штрафного пара- параметра с (см. задачи D.3.8) и D.4.1)) либо непосредственная модифи- д2Ь кация матриц —^ (ж^5 ^к' •> ^к) (см- п- 3.2.2). Кроме того, известны дх формулы пересчета Н^ в духе квазиньютоновских методов (возмож- (возможно, в сочетании с несколько видоизмененным правилом одномерного поиска; см. комментарии о правиле Вулфа в п. 3.2.3), которые обеспе- обеспечивают положительную определенность Н^ для каждого к. Помимо прочего такие формулы не требуют вычисления вторых производных функции / и отображений F и G. Напомним, что через ф'{х] d) обозначается производная функ- функции ф в точке х Е Rn по направлению d Е Rn (см. п. 4.5.2), а че™ рез 1(х) = {г = 1,..., га gi(x) = 0} — множество индексов ограни- ограничений-неравенств задачи A), B), активных в точке х. Задача 2. Показать, что если отображения F: Rn —>> R1 и G: Rn —} Rm дифференцируемы в точке х Е Rn, то введенная в D) функция ф дифференцируема в точке х по любому направле- направлению d E Rn, причем g'i(^d)+ E max{0, (g-U^)^)}, iei(x) где fj(-) — компоненты отображения F, j = 1,. . ., I, J+(x) = {j = = 1,...,/| fj{x) > 0}, J0^) = {j = 1,...,/| /,(Ж) =0}, J-{x) = = {i = l,...,m| gi(x) > 0}. Лемма 1. Пусть функция /: Rn —>• R и отображения F: Rn —>> —>• R1 и G:Rn —> W71 дифференцируемы в точке xk E Rn. Пусть Hk E R(n, п) — симметрическая матрица, dk E Rn — стационар- стационарная точка задачи E), F), yfc E R1 e zfe E R+ — отвечающие ей множители Лагранжа, а число с^ удовлетворяет G). Пусть функ- функции (fCk и ф введены в соответствии с C), D). Тогда функция (рСк дифференцируема в точке хк по любому на- направлению, причем v'ck(xhг5 dk) ^ Ak ^ -(Hkdk,dh), A0) где число Ак определено в (9). Доказательство. По условию тройка (dk,yk,zk) удовлет- удовлетворяет системе Каруша-Куна-Таккера задачи E), F), т.е. f'{xk) + Hkdk + (F'(xk))Tyk + (G'(xk))Tzk = 0, A1)
§5-4- Методы последовательного квадратичного программирования 215 F(xk) + F'(xk)dk = 0, A2) G{xk) + G'(xk)dk <: О, ,zfc^O, A3) zk(gi(xk) + {g'i(xk),dk))=O, i = l,...,m. A4) Из A2) следует, что (/j(a;fe), dfc) = — fj(xh) V j = 1,...,/, и поэтому {(Ц(хк), dk), если j € J+(xk), Щ{хк), dk)\, если j € J<V), -</j(zfe), dfc), если j e J"(^). Кроме того, согласно первому неравенству в A3) О = max{0, <^(^), dk}}, если г G /(жЛ). Используя два последних соотношения, (9), а также утверждение из задачи 2, получаем первое неравенство в A0). Далее, умножая скалярно обе части A1) на dk и используя A2), A4), получаем </V), dk) = -{Hkdk, dk) - (/, F'(xk)dk) - (zk, G'(xk)dk) = = -(Hkdk, dk) + (yk, F(xk)) + (zk, G(xk)) < I m < -{Hkd\ dk) + J^ *к ? 4 * < ~{Hkdk, dk) + |2/*|oo|^(a:*)|i + I^U ^max{0, gi(xk)}. г=1 Отсюда в силу D), G) и (9) имеем г=1 ^ -(Hkdk, dk), а это и есть второе неравенство в A0). ? Из второго неравенства в A0) следует, что для каждого к, если матрица //& положительно определена и генерируемое в п. 1 алго™ ритма 1 направление dk отлично от нуля, то Afe < 0. A5) Отсюда и из первого неравенства в A0) несложно вывести следую- следующее: dk G Vifc (xk) (ср. с леммой 3.1.1), и процедура одномерного поиска в п. 2 алгоритма корректно определена в том смысле, что она
216 Гл. 5. Стратегии глобализации сходимости принимает некоторое значение параметра длины шага ак > 0 после конечного числа дроблений (ср. с леммой 3.1.2). На самом деле в (8) вместо величины Ак можно было бы непосредственно использовать производную по направлению ф'Ск{хк] dk)^ и тогда неравенство (8) стало бы очевидным обобщением неравенства Армихо на случай не- негладкой функции. Однако формула (9) для Ак проще, чем явное вы- выражение для (р'Ск{хк] dk) (см. задачу 2), и, в частности, не использу- использует производных отображений F и G. Вообще говоря, на разных шагах алгоритма 1 используются раз- различные значения штрафного параметра, причем они определяются не заранее, а в ходе вычислительного процесса. Однако при доказатель- доказательстве глобальной сходимости удобно предполагать, что для всех доста- достаточно больших к ск = с, A6) где с — некоторая константа. Заметим, что при этом, начиная с не- некоторого шага, алгоритм 1 можно трактовать как метод спуска для задачи безусловной оптимизации <Рс{х) —^ inin, х G Rn. Возможность такого выбора штрафных параметров подразумевав ет, что генерируемая алгоритмом последовательность {(ук, zk)} яв- является ограниченной (см. G)). С практической точки зрения послед- последнее предположение вполне естественно. Кроме того, ограниченность последовательности {(ук, zk)} может быть гарантирована при неко- некоторых разумных условиях, однако здесь, дабы не отвлекаться на вто- второстепенные вопросы, будем ограниченность этой последовательно- последовательности просто предполагать. В таком случае выполнения A6) при не- некотором с для всех достаточно больших к можно добиться, ес- если, например, использовать следующую очевидную процедуру выбо- выбора с&. Перед началом процесса фиксируем параметр с > 0. На нуле- нулевом шаге полагаем со = с + |(|/°, ?°)|оо- На каждом шаге с номером к = 1, 2, ... проверяем выполнение неравенства G) при ск = c^-i- Если оно выполнено, то принимаем такое с^; в противном случае по- полагаем ck = c^\(ykJzk)\oo. Теорема 1. Пусть функция /: Rn —> R и отображения F: Rn —>- R1 и G: Rn —> Rm дифференцируемы на Rn и их производ- производные непрерывны по Липшицу на Жп. Пусть в алгоритме 1 матри- матрицы Н^ выбираются так, что последовательность {Н^} ограничена и (Hkh, h) ^ j\h\2 УЛеГ, У к A7) при некотором j > 0, и пусть траектория {(хк, Xk^fik)} сгенери- сгенерирована этим алгоритмом^ причем для любого достаточно большо- большого к выполнено равенство A6), где с — некоторая константа.
§5-4- Методы последовательного квадратичного программирования 217 Тогда при к —> оо либо рСк(хк)^-оо, A8) либо {dk} -> О, || /х^1) ^ О, тяу^П 0" • (т \\ V О и ~^~ (г • (т \ V О V 7 — 1 т В частности, если (ж, Л, ~р) Е Rn x R1 x Rm является предель- предельной точкой траектории {(xk, Хк,ик)}1 то ~х — стационарная точ- точка задачи E), F), а А и ~р — отвечающие ей множители Лагранжа. Доказательство. Напомним, что тройка (dfe, yk, zk) удов- удовлетворяет условиям A1)—A4) для каждого к. Если dk = 0 для не- некоторого к^ то эти условия означают, что точка (хк, ук, zk) удов- удовлетворяет системе Каруша-Куна-Таккера задачи E), F), что и дает требуемый результат. Всюду далее предполагаем, что dk ф О У к. Докажем, что генерируемая в п. 2 алгоритма последователь- последовательность {ojfe} параметров длины шага отделена от нуля. Возьмем произвольное число а Е @, 1]. Пусть М > 0 — максимум из конс- констант Липшица для производных /, F и G на Rn. Тогда согласно лемме 3.1.4 V к, У i = 1,. . ., т max{0, gi(xk + adk)} - max{0, gi{xk) + а{^{хк), dk)} ^ ^ max{0, gi(xk + adk) - gi(xk) - а{ё'г(хк), dk)} ^ < р-.(тк 4- mdk\ — (г-(тк\ — пг(р-'(тк\ dk\ I < — rv2 \dk I2 A4) Кроме того, max{0, ^(^) + a(^(xfc), dfe>} = = max{0, a(g-i(a:fe) + {g'i[xk), dk)) + A - а)^(жл)} ^ ^ amax{0, gi{xk) + (gfi{xk), dk}} + A - a) max{0, g^(xfc)} = = (l-a)max{0, g"i(^fe)}, где последнее равенство следует из A3). Но тогда из A9) имеем max{0, gi(xk + adk)} ^ A - a) max{0, gi(xk)} + ^ a2|dfc|2. Далее, в силу A2) и леммы 3.1.4 V j = 1,. . ., I I f .fTfc _i_ n/JfcH — I f -f-r^ 4- fydk\ — rvf-(Tk) — n/l ff (тк) dk\\ < I 1 1 t?/ T^ Lx%Jj I — \ J 1 \ "^ / J 1 \ / \«/ i \ / ? / ^ 2
218 Гл. 5. Стратегии глобализации сходимости Отсюда, используя C), D) и вновь привлекая лемму 3.1.4, выводим (рСк(хк + adk) = f(xk + adk) + 4- a I \F(rk 4- ntdk\\i 4- \^max4V-fO rk 4- rvdfcH I < f(rk) 4- V *=i / / \ + a(f'(xk), dk) + Cjfe(l — a) I |F(a;fe)|i + V^ maxiO, Яг(ж^)} I + V i=i / + ^а2|^|2 = ^Cfc(a:fc) + «Afe + Cka2\dk\2, где M Cfc = —(! + (! + m)ck) > 0. B0) z Но тогда неравенство (8) имеет место для любого а Е @, щ.], где (е- Cji|a I В силу второго неравенства в A0) и A7) причем последовательность {С^} ограничена в силу B0) и равен- равенства A6), справедливого при больших к. Но тогда существует такое не зависящее от к число а, > 0, что ак > а > 0. B1) Далее, из (8), A6) и B1) следует, что <Рск+1(хк+1)^<рСк(хк) + еаАк B2) для любого достаточно большого /г, причем, напомним, имеет место неравенство A5). В частности, последовательность {(Рск(хк)} моно- монотонно убывает. Из предположения о неограниченности этой последо- последовательности снизу следует предельное соотношение A8) при к —>> оо. Если же эта последовательность ограничена, то она сходится, и из B2) в этом случае следует, что Ак —> 0 (к —> оо). Но тогда, в очередной раз используя второе неравенство в A0), а так- также A7), имеем {dk}^0 {к^оо). Завершение доказательства получается теперь предельным перехо- переходом в A1)—A4) при к —> оо, если принять во внимание ограничен- ограниченность последовательностей {Нк} и {z^}. ? Задача 3. Пусть функция /: Rn —> R и отображения F: Rn —> -^ R1 и G: Rn -^ Rm дифференцируемы в точке хк ? W1. Пусть
§5-4- Методы последовательного квадратичного программирования 219 Hk G R(n, n) — симметрическая матрица, (о^, dfc) GRx Rn — ста™ ционарная точка задачи Ck° + (f'(xk), d)+\ (Hkd, d) ->¦ min, (a, d) € Uk, B3) t/fc = {u = (a, d) e R x Rn| |^(xfc) + F'ix^dl,» < a, ffi(a!*) + (ffUa;*), fl!> < a, i = 1,.. ., то}, B4) где c^ > 0. Пусть функция ^Cfc введена в соответствии с C), где ф(х) = тах{№)|оо, 0, gl(x), . . ., g-m(a;)}, ж G Rn. B5) Показать, что если dk ф 0, то dk E Vlfc (xh). На основе задачи B3), B4) и функции ц>Ск, вводимой в соот- соответствии с C), B5), можно построить аналог алгоритма 1. Читатель может разработать этот аналог и исследовать его сходимость самосто- самостоятельно либо познакомиться с ним, например, в [6, 40]. Преимуществом такого подхода является то обстоятельство, что допустимое множество задачи C), B5) всегда непусто. Недостаток же состоит в том, что для каждого к подходящее (достаточно большое) значение параметра штрафа Ck должно быть указано до отыскания стационарной точ- точки задачи C), B5) и отвечающих ей множителей Лагранжа. Однако с практической точки зрения этот недостаток не слишком серьезен, поскольку подходящее значение Ck обычно удается найти с помощью известных эвристических приемов. 5.4.2. Восстановление сверхлинейной скорости сходимости. Как показывает теорема 1, в разумных предположениях сходимость методов SQP может быть успешно глобализована. Возникает есте- естественный вопрос: сохранится ли при такой модификации присущая методам SQP высокая скорость локальной сходимости? Согласно теореме 4.4.2 сверхлинейной скорости сходимости метода к ре- решению (ж", А, ~р) G Ш1 х R1 х Rm системы Каруша-Куна-Таккера задачи A), B) (при наличии сходимости) можно ожидать, если матрица Hk «аппроксимирует» матрицу —^ (ж, А, /л) при к ^ оо дх в смысле соотношения D.4.29). (Подчеркнем, что такая «аппрокси- «аппроксимация» вовсе не означает, что обязательно {Н^} —>• —j C^> ^' ~Р) дх (к —>> сю). Более того, выполнение этого предельного соотношения * °2ь (- т -\ может быть нежелательным, поскольку матрица —^ (ж, А, ш дх может не быть положительно определенной.) Однако этого мало: нужно еще, чтобы при больших к в п. 2 алгоритма 1 принимался предлагаемый в качестве начального значения для дробления единичный параметр длины шага. Будет ли это так, если текущая
220 Гл. 5. Стратегии глобализации сходимости точка (хк, Хк, /ik) E Rn х R1 х Rm близка к (af, Л, ~р) ив точ- ке (ж, Л, /I) выполнены все условия сверхлинейной сходимости ме- методов SQP, сформулированные в теореме 4.4.2? К сожалению, ответ на этот вопрос отрицателен, как показывает следующий пример, иллюстрирующий так называемый эффект Маратоса. (Подчеркнем, что этот пример ни в коей мере не является патологическим.) Пример 1. Пусть п = 2, 1 = 1, т = 0, и f(x) = x1, F(x) = х\ + х\ - 1, ж Е R2. Глобальным решением задачи A), B) является точка ~х = (—1,0), ей отвечает множитель Лагранжа А = 1/2, причем в точке ~х вы- выполнено как условие регулярности ограничений, так и достаточное условие второго порядка оптимальности. Для произвольной точ™ ки xk G R2 пусть (dk, ук) G R2 xR- решение системы Лагранжа вспомогательной задачи E), F) с «идеальным» с точки зрения д2Ь - скорости сходимости выбором Hk = —2 О^э ^) = ^2' т-е- дх 1 + dk + 2укхкг =0, 4 + %^2 = 0, B6) (хкJ + (хкJ - 1 + 2zf dk + 2ж|4 = 0 B7) (см. A1), A2)). Подчеркнем, что матрица Hk положительно опреде™ лена, и при хк ф 0 соотношениями B6), B7) пара (dfe, ук) определе- определена однозначно и может быть указана явно, однако явное выражение не потребуется. Потребуются лишь следующие свойства. Во-первых, домножив левую и правую части первого равенства в B6) на df, а второго равенства на d^? сложив соответствующие части этих ра- равенств и использовав B7), получим Ик — ик((^к\2-\-(т>к\2 Л\ (Пк\2 (Нк\2 а1 — У \{Х1) "Г \Х2) — l) ~~ \al) — \а2) 5 поэтому f(xk + dk) - f(xk) = dk= ykF(xk) - \dk\2. Во-вторых, из B7) следует равенство F(xk + dk) = [хкг + dfJ + (x% + 4J - 1 = \dk\2. Используя два последних равенства, имеем (рс(хк + dk) - (рс(хк) = ykF(xk) - c\F(xk)\ + (с - l)\dk\2 > 0 для любого с > 1, если, например, F(xk) = 0 и точка хк не являет- является стационарной в задаче A), B) (последнее гарантирует, что dk ф 0; см. начало доказательства теоремы 1). При этом а = 1 не может удовлетворять неравенству (8) в силу выполнения A5). Но в любой окрестности точки ж имеется сколько угодно допустимых точек, не являющихся стационарными в задаче A), B).
§5-4- Методы последовательного квадратичного программирования 221 Заметим, что в приведенном примере для с Е A/2, 1) единичный параметр длины шага приводит к уменьшению значения функции (рс и противоречия между требованиями, гарантирующими глобальную сходимость, и требованиями, гарантирующими сверхлинейную ско- скорость локальной сходимости, для таких значений штрафного пара- параметра может и не быть. Однако этот пример несложно модифици- модифицировать так, чтобы «подходящие» значения штрафного параметра пе- перестали существовать. Пример 2. Пусть все определено так же, как в примере 1, но /(ж) = Х\ + х\ + ж|? Х ^ -^-2- Глобальным решением задачи A), B) по-прежнему является точ- точка ~х = (—1, 0), ей отвечает множитель Лагранжа Л = —1/2, при- причем в точке ж по-прежнему выполнено как условие регулярности ограничений, так и достаточное условие второго порядка оптимально- оптимальности. Рассмотрим произвольную точку xk E R2 такую, что F(xk) = = 0 и хк не является стационарной точкой задачи A), B). Пусть (cffc, ук) Е R2 х R — решение системы Лагранжа вспомогательной задачи E), F) при Нк = —^ (х, А) = Е2, т.е. 1 + 2хк + dk + 2укхк = 0, 2хк + d\ + 2/xf? = 0, B8) ж^ + ж^4=0 B9) (см. A1), A2)). Домножив левую и правую части первого равенства в B8) на df, а второго на dkj сложив соответствующие части этих равенств и использовав B9), получим 4 + DJ + DJ = о, поэтому f(xk + dk) - f(xk) = dk + (xk + dkf + (xl + dkf - (xkJ - (xlJ = 0, F(xk + dk) = (xk + d^J + {xk2 + 4J - 1 = \dk\2 (здесь вновь учтено B9)). Из двух последних равенств имеем (pc(xk + dk)^(pc(xk) = c\dk\2 >0 Vc>0. Эффект Маратоса можно на качественном уровне объяснить так. Если текущая точка хк оказывается близкой к допустимому мно- множеству D, то при переходе от хк к хк + dk значение негладкого штрафа может вырасти на величину того же порядка, что и величина уменьшения значения целевой функции /. В результате при доста- достаточно большом с происходит увеличение значения штрафной функ- функции у?С5 и единичный параметр длины шага не принимается. В этом смысле ситуация с сохранением сверхлинейной скорости локальной
222 Гл. 5. Стратегии глобализации сходимости сходимости методов SQP при глобализации их сходимости за счет од- одномерного поиска существенно сложнее, чем, например, для методов ньютоновского типа применительно к задачам безусловной оптими- оптимизации (см. теорему 3.2.2 и § 5.1). Чтобы избежать возможности воз- возникновения эффекта Маратоса, алгоритм 1 следует модифицировать. Это можно сделать несколькими способами. Один из них основан на использовании криволинейного одномерного поиска «вдоль грани- границы» допустимого множества [6, 48], другой — на том, что достаточ- достаточного убывания значения штрафной функции на итерации к мож- можно добиться, если в случае отклонения алгоритмом значения а д. = 1 возвращаться к предыдущей итерации с меньшим значением otk—i- Здесь будет продемонстрирован менее трудоемкий способ, основан- основанный на модификации используемой функции качества в духе моди- модифицированных функций Лагранжа. Отсюда и до конца параграфа будем рассматривать задачу с чи- чистыми ограничениями-равенствами: будем полагать, что вместо B) множество D задается формулой D = {x еЖп\ F(x) = 0}. C0) Введем семейство функций ^C)?7:R"^R, <pCtV(x) = f(x) + (r),F(x)) + c\F(x)\1, C1) где с ^ 0 и ?| G R1 - параметры. Имеет место следующий факт (ср. со следствием 4.7.1). Предложение 1. Пусть функция /: Rn —>• R и отобра- отображение F: Жп —> R1 дважды дифференцируемы в точке ~х G Rn. Пусть ~х — стационарная точка задачи A), C0) и в ней выполнено сформулированное в теореме 1.3.7 достаточное условие второго порядка оптимальности с множителем Лагранжа А Е R1. Тогда существует число с ^ 0 такое, что для любых с > с и tj G R1, удовлетворяющих неравенству О |т7-А|оо, C2) точка ~х является строгим локальным решением задачи () ж G Rn, с целевой функцией, задаваемой формулой C1). Доказательство. Вспоминая вид модифицированной функ- функции Лагранжа задачи A), C0) и используя утверждение из зада- задачи 4.3.8, для любого достаточно большого с > 0 имеем ^.„(af) = f(x) = L(x, A) + \ №)|2 < L(x, A) + \ Иж)|2 C3) для любого х G Rn \ {ж}, достаточно близкого к ~х. С другой сторо-
§5-4- Методы последовательного квадратичного программирования 223 ны, для таких х ^2, C4) где принято во внимание неравенство C2). Объединяя C3) и C4), по- получаем требуемое. ? Для текущего приближения хк ? Rn положим Dk = {de Rn| F(xk) + F'(xk)d = 0}. C5) Пусть dk ? Rn — стационарная точка задачи квадратичного про- программирования E), C5), а ук ? R1 — отвечающий ей множитель Ла- гранжа. Таким образом, f'{xk) + Hkdk + (F'(xk)) V = 0, F{xk) + F'{xk)dk = 0. C6) Используя результат задачи 2 и соотношение C6) и рассуждая так же, как при доказательстве леммы 1, легко убедиться, что при лю- любых С И TJ <р'с>Г1(хк; dk) = -{Hkdk, dk) + (ук - г,, F{xk)) - c|*V)|b C7) откуда, в частности, следует, что если с ^ \ук — ^?|оо? т0 <p'Cttl(xk; dk) < -{Hkdk, dk). C8) Поэтому если матрица Н^ положительно определена, a dk / 0, то dk Е Т^1Рс г](хк). Теперь ясно, что можно построить аналог ал- алгоритма 1, использующий новую штрафную функцию ipc,rj- Усло- Условие G) следует заменить условием cfe^|/-Vioo, C9) а неравенство (8) — неравенством рСк>„»(хк + adk)^ Vck,^(xk) + «*<,„*(хк; dk). D0) Следующая теорема в совокупности с теоремой 4.4.2 показыва- показывает, что при соответствующем выборе матриц Н^ модифицированный указанным способом алгоритм будет обладать не только глобальной сходимостью, но и сверхлинейной скоростью локальной сходимости. Теорема 2. Пусть функция /: Rn —> R и отображение F: Жп —> R1 дважды дифференцируемы в некоторой окрестности точ- точки ~х ? Rn, причем их вторые производные непрерывны в этой точке. Пусть в точке ~х выполнено условие регулярности ограни- ограничений, причем ~х — стационарная точка задачи A), C0), а X ? G R1 — однозначно отвечающий ей множитель Лагранжа. Пусть в точке ~х выполнено сформулированное в теореме 1.3.7 достаточное условие второго порядка оптимальности. Пусть, кроме того, по- последовательность {хк} С Rn сходится к ~х и для любого к
224 Гл. 5. Стратегии глобализации сходимости симметрическая матрица Hk G R(n, n) удовлетворяет условию к^ j4 (*, А) - c(Ff(x)fFf(x)^ d\ dk^ > o(\dk\2), D1) d2L - где число с ^ 0 таково, что матрица —j 0^? A) + c(F/(lc"))TF/(aJ) положительно определена, пара (dk, yfc) E Rn x R1, число с^ и; eerc- mop ?jfe G R1 удовлетворяют C6), C9), причем {dh} ^0 (A; —>- oo). Тогда для любого числа е G @, 1/2) найдется число S > 0 такое, что для любого достаточно большого к из выполнения неравенств ск^6, |V-АЮ D2) следует выполнение неравенства D0) npw a = 1 скл вводимой в со- соответствии с C1) функции ipCkirjk. В условиях теоремы для любого достаточно большого & функ™ ция (fiCkiT]k дифференцируема в точке хк по любому направлению, и поэтому неравенство D0) имеет смысл. Напомним, что при выполнении в точке ~х достаточного условия В2 F — второго порядка оптимальности матрица —^ (af, A) + c(F/(x))TF/(^) дх положительно определена при любом достаточно большом с (см. за- задачу 4.3.8). Условие D1) на выбор Н^ по существу означает, что Hk выбирается как «оценка сверху» для матрицы, вводимой в соответ™ ствии с задачей 4.4.1 при достаточно большом с&. Доказательство теоремы 2. Из D1) и выбора числа с не- немедленно следует, что существует число j > 0 такое, что для любого достаточно большого к D3) Кроме того, для любого к из D1) и неотрицательной определенности матрицы {F'{x))TFf{x) следует, что ^ (х, \)dk, dk) < (Hkdk, dk) + o(\dk\2). D4) ox I Из C6) имеем </V), dk) = -(Hkdk, dk) - (/, F'{xk)dk) = Отсюда в силу классической теоремы о среднем (для екалярнознач™ пых функций) и сходимости {ж^} к "ж, a {dk} к 0 выводим f(xk + dk) = f(xk) + (f'(xk), dk) + \ (f"(xk + tkdk)dk, dk) =
§5-4- Методы последовательного квадратичного программирования 225 = f(xk) - (Hkdk, dk) + (/, F(xk)) + \ (f"(x)dk, dk) + o(\dk\2), D5) где tk E [0, 1]. Аналогично, но с учетом второго равенства в C6) и теоремы о среднем (для отображений), получаем lk, dk] F(xk + dk) - F(xk) - F'{xk)dk - i F"(x)[dk, dk] sup te[o,i] tdk)-F'(xk)-F"(x)[d "(x)[dk] ^ sup sup \Fff(xk-\-t1t2dk)-Fff(x ff(x)\\dk\2 D6) Следующая выкладка использует C1), C7), C8), D2)-D6): k) = -(Hkdk, dk) + \ (f"(x)dk, dk) , F"(x)[dk, dk)) ; dk) + \ (^(x, X)dk, vk{xk + dk)-ipCk^k + <у*-тД F(xk))-ck\ O(ck\dk\2)^o(\dk\2) = ipfct + 0((ck + \vk - \\)\dk\2) + o(\dk\2) ^ ^'Ck^k{xk; dk) + + \ (Hkdk, dk) + 0{S\dk\2) ^ sipfCkjVk{xk; dk) - - 1^?2^1/2 (Hkdk, dk) + OE|dle|2) ^ eip'Chiflh(xk] dk) - + 0{8\dk\2) ^ eipfCk^k(xk; dk) для любого достаточно большого /г, если число 5 > 0 достаточно мало. ? Практически реализуемые процедуры выбора параметров ск и г} , обеспечивающие как глобальную сходимость методов SQP, модифи- модифицированных указанным способом, так и сверхлинейную скорость ло- локальной сходимости, известны и могут быть найдены в специальной литературе. Как построение, так и обоснование таких процедур далеко не очевидно, весьма громоздко и здесь не обсуждается. В завершение этого параграфа очень коротко остановимся на дру- других стратегиях глобализации сходимости методов SQP. Пусть хк Е Е Rn — текущее приближение. Тогда итерационная вспомогатель- вспомогательная задача метода доверительной области на базе SQP будет иметь вид E), где множество Dk задается формулой Dk = {de Б@, 5к)\ F(xk) + F'{xk)d = 0, G{xk) + G'{xk)d ^ 0} D7) 8 А.Ф. Измаилов, М.В. Солодов
226 Гл. 5. Стратегии глобализации сходимости (ср. с F)), a 8k > 0 — радиус доверительной области. Пусть dk — глобальное решение такой задачи. Точка хк = хк + dk принимается в качестве очередного приближения х +1 в том случае, когда переход от хк к хк обеспечивает достаточное относительное убывание зна- значения функции качества, в роли которой обычно выступает некото™ рая штрафная функция. В противном случае задача E), D7) решает- решается вновь при меньшем значении 8k- Один из недостатков указанного подхода, как и рассмотренного выше подхода с одномерным поиском (и вообще любого подхода, ис- использующего некоторую функцию качества для отбраковки слишком длинных шагов вдали от решения), связан с тем, что, как отмечалось выше, практический выбор конкретных значений параметра штрафа в функции качества часто оказывается весьма трудным делом. Не- Нередко этот выбор вообще оставляется пользователю, которого в луч- лучшем случае снабжают эвристическими рекомендациями, основанными на вычислительном опыте авторов. Совсем недавно был предложен сле- следующий (довольно неожиданный, хотя и вполне естественный) способ, позволяющий избавиться от указанного недостатка. Будем трактовать невязку ограничений (например, введенный формулой D) штраф ф) как дополнительный критерий, который, как и целевую функцию /, желательно минимизировать. Более того, в определенном смысле минимизацию этого дополнительного критерия можно считать приоритетной целью: необходимо добиться равенства его значения минимально возможному значению (нулю). Штрафная функция выступает в роли агрегированного критерия, в котором тем большее значение отводится критерию ф, чем больше значение параметра штрафа. С другой стороны, исходную задачу A), B) можно трактовать в духе задачи двукритериальной оптимизации с критериями / и ф на всем Rn. Для принятия или отклонения пробного приближения хк теперь используется не функция качества, а известный в многокритериальной оптимизации принцип домини- доминирования стратегий. После к итераций предполагается известным так называемый фильтр Тк, т-е. конечное множество в R x R такое, что ни одна пара чисел (ai, Ь\) Е Тк не доминируется никакой другой парой (а2? &г) ? J~k в том смысле, что неравенства а\ ^ И2? Ь\ ^ &2 одновременно выполняться не могут. Пробная точка хк принимается в качестве очередного приближения xkJrl в том случае, если пара (f(xk), ф(хк)) не доминируется ни одной парой из Тк- При этом новый фильтр J-k+i генерируется так: пара (f(xk), ф(хк)) включается в фильтр, а все доминируемые ею пары из фильтра удаляются. В противном случае уменьшается либо параметр а к длины шага, либо радиус 8k доверительной области. Разумеется, сказанное отражает лишь основную идею данного подхода. Например, каждая итерация на самом деле обычно состо- состоит из двух фаз: нормальной фазы^ имеющей целью приблизить теку-
§5-4- Методы последовательного квадратичного программирования 227 щую точку к допустимому множеству, т.е. уменьшить значение *ф, и касательной фазы, направленной на уменьшение значения /. Ряд необходимых усовершенствований позволяет обеспечить как глобаль™ ную сходимость (в некотором смысле) соответствующего алгоритма, так и сверхлинейную скорость локальной сходимости. Высокая эф- эффективность этого нового подхода подтверждается опубликованными результатами вычислительных экспериментов, которые весьма много- многообещающи.
Глава 6 МЕТОДЫ НЕГЛАДКОЙ ВЫПУКЛОЙ ОПТИМИЗАЦИИ Эта глава начинается с изложения общей концепции двойственно- двойственности для (возможно, невыпуклых) задач оптимизации, естественным образом приводящей к негладким выпуклым задачам. Такой порядок изложения избран по нескольким причинам. Например, он согласуется с общей «невыпуклой идеологией» настоящей книги в том смысле, что изначальная задача, которую предполагается решить, не обяза- обязательно выпукла. Но более важно то, что двойственная релаксация г) действительно является весьма полезным средством в оптимизации, распространяемым даже на такие области, как целочисленное прог- программирование, и авторы считают необходимым дать этому кругу во- вопросов хотя бы некоторое освещение. Что же касается собственно алгоритмов, сначала рассматриваются базовые субградиентные методы. Помимо прочего это сделано в силу исторических причин. Кроме того, приближенные версии субгради- субградиентных методов дают удобную схему для анализа более совершен- совершенных алгоритмов. Следует подчеркнуть, что субградиентные методы на практике обычно крайне неэффективны. Они по-прежнему исполь- используются, но главным образом тогда, когда достаточно найти очень гру- грубое приближение к решению. В тех случаях, когда отыскание точного приближения к решению негладкой задачи составляет суть пробле- проблемы, субградиентные методы в настоящее время используются толь- только «любителями» (скажем, прикладниками, которые просто не знают о существовании лучших методов). Именно появление современных многошаговых алгоритмов решения негладких задач сделало неглад- негладкую выпуклую оптимизацию по-настоящему плодотворной областью с вычислительной точки зрения. Наибольшее значение имеют методы такого рода, использующие на каждом шаге квадратичную вспомога- вспомогательную задачу, конструируемую по накопленной к этому шагу инфор- информации. В некотором (очень ограниченном) понимании такие алгоритмы могут рассматриваться как результат регуляризации методов кусочно ) Общепринятый английский термин — Lagrangian relaxation.
§6.1. Элементы выпуклого анализа и двойственные методы 229 линейной аппроксимации, занимающих промежуточное место между субградиентными методами и многошаговыми алгоритмами с квадра- квадратичными подзадачами. § 6.1. Элементы выпуклого анализа и двойственные методы 6.1.1. Элементы субдифференциального исчисления. Настоящий пункт написан для того, чтобы не загромождать текст этой главы многочисленными сносками: здесь содержится краткое (без доказа- доказательств) изложение некоторых сведений из выпуклого анализа, не- необходимых для работы с выпуклыми задачами оптимизации, т. е. с задачами минимизации выпуклой функции либо максимизации во™ гнутой функции на выпуклом множестве. Напомним, что такие зада- задачи обладают рядом полезных свойств, которые могут не иметь места в невыпуклом случае. В частности, любое локальное решение выпук- лой задачи является глобальным, т. е. имеет смысл говорить просто о решении, причем множество решений всегда выпукло. Главным образом речь здесь пойдет о фактах, связанных с фунда- ментальным понятием субдифференциала выпуклой функции. Дока- Доказательство всех приводимых утверждений можно найти в обширной литературе по выпуклому анализу, например в [10, 23, 24, 32, 34, 36]. Определение 1. Пусть X cRn — произвольное множество. Вектор у Е Rn называется субградиентом функции /: X —>> R в точке х G X, если Множество всех субградиентов функции / в точке х называется ее субдифференциалом в этой точке и обозначается df(x). Элементарно проверяется, что субдифференциал — всегда замк- замкнутое выпуклое множество. Далее в этом пункте будем рассматривать функцию /: Rn —> R, предполагая ее выпуклость на всем Rn. Понятие субдифференциа- субдифференциала содержательно именно для выпуклых функций (см. теорему 1 ни- ниже). Если функция / вогнута, то для нее вводится понятие супер- супердифференциала как субдифференциала выпуклой функции —/. Су- Супердифференциал вогнутой функции будем обозначать так же, как и субдифференциал выпуклой функции, поскольку это не приводит к путанице. Отметим, наконец, что для выпуклых и вогнутых функ- функций df(x) совпадает с дифференциалом Кларка функции / в точ- точке ж, так что и в этом плане путаницы с обозначениями не возникает. Теорема 1. Функция /: Rn —> R выпукла на Rn тогда и только тогда^ когда df(x)^0 У x E Rn.
230 Гл. 6. Методы негладкой выпуклой оптимизации Теорема 2. Пусть функция /: Rn -^ R выпукла на Rn. Тогда: а) функция f непрерывна на Rn; б) функция f дифференцируема в любой точке х Е Rn no любо- любому направлению h E Rn, причем f'{x] h) = max (у, h); €df() в) функция f дифференцируема в точке х Е Rn тогда и только тогда, когда df(x) состоит из единственного элемента, которым по необходимости является ff(x). Теорема 3. Пусть функции Д, /2: Rn ^R выпуклы на Rn. Тогда функция /(•) = /i(-) + /2(#) выпукла на Rn5 причем df(x) = dft(x) + »/2(ж) Уж е Rn. Теорема 4. Пусть функция /: Rn ^R выпукла на Rn. Тогда точка ~х Е Rn является решением задачи безусловной оп- оптимизации f(x) —> min, ж G Rn, если и только если 0 € df(~x). Теорема 5. Пусть функция /: Rn —>¦ R выпукла на Rn, X С С Rn — ограниченное множество. Тогда величина L = sup \y\ конечна, причем функция f yeuxexdf(x) непрерывна по Липшицу на X с константой L. 6.1.2. Двойственная релаксацим. Будем рассматривать задачу с прямым и функциональными ограничениями f(x) -> min, x e D, A) D = {х Е Р\ F(x) = 0, G(x) ^ 0}, B) где Р С Rn — некоторое множество, /: Р —> R — заданная функ™ ция, F: Р —>• R1 и С: Р —>• Rm — заданные отображения. Пусть L: Р х R1 x Rm —>- R — функция Лагранжа задачи A), B). Поскольку т/\\ \ /(Ж)' еСЛИ Х ? V, sup L(x, A, /i = <^ " I +°°5 еСЛИ X Е Р\О, где Р = R1 х R1J2, то задача A), B) может быть записана в виде sup L(z, А, ц) —> min, x E D, C)
§6.1. Элементы выпуклого анализа и двойственные методы 231 причем D = lx e P sup Ь(ж, А, /л) < +оо > . D) max, inf j (a, L(x, A, ) e > -ooj , E) F) Идея двойственной релаксации по существу состоит в изменении порядка минимизации и максимизации в C). В результате приходим к двойственной задаче D = {(Л, fi)eV где ^:P^R, <р(А, /х) = Inf Ь(ж, Л, /j). G) Задачу A), B), или, что то же самое, C), D), будем называть пря- прямой (по отношению к задаче E), F)). Таким образом, вместо пря- прямой задачи A), B) предлагается решать двойственную задачу E), F). Термин «релаксация» выражает тот факт, что двойственная задача часто оказывается проще прямой. Задача 1. Рассмотрим задачу линейного программирования (сь хг) + <с2, х2) -+ min, (жь х2) G D, D = {(хъ х2) е Р\ Ацхг + А12х2 = Ьъ A2ixt + А22х2 ^ Ь2}, где сг Е Rni, c2 G ИП2, Аи € R(Z, щ), Л12 е R(I, n2), Л21 € G R(m, щ), Л22 G R(m, n2), bi € R1, 62 G Rm, F = Rni x R^2. Показать, что двойственная к этой задача имеет вид (Ьъ А) + (Ь2, /i) -^ max, (Л, /i) G Х>, D = {(Л, /i) g F) А^А + А1ф = сь Л?2А + Aj2n ^ c2}, где V = BJ x R!p. Задача 2. Рассмотрим задачу квадратичного программирова- программирования - (Сж, ж) + (с, х) —> min, xGD, Zi D = {ж G Rn| Аж < 6}, где С G R(n, n) — симметрическая положительно определенная мат- матрица, с g Rn, Л е R(m, n), ЬеШт. Показать, что двойственная к этой задача имеет вид -i (AC"MT/x, ^-(АС-^ + Ь, ц)-\ (С~гс, с) ^max, /x G R^.
232 Гл. 6. Методы негладкой выпуклой оптимизации Показать, что единственное решение ~х прямой задачи выражает- выражается через любое решение ~р двойственной задачи равенством х = -С^г(с + АТ^)„ Разумеется, без дальнейших разъяснений переход от прямой зада- задачи к двойственной не более чем формальный прием. Когда и почему использование этого приема может иметь смысл? Прежде всего, речь идет о ситуациях, в которых отыскание решения двойственной задачи в некотором смысле проще, чем прямой, причем решения этих задач определенным образом связаны друг с другом. В любом случае под- подразумевается, что имеется эффективный способ вычисления значений функции ср, т.е. оракул («черный ящик»), который для любой пода- подаваемой на его вход пары (Л, /л) Е V относительно легко находит зна- значение точной нижней грани в G). В некоторых важных случаях внут- внутренняя задача минимизации в G) допускает декомпозицию, а значит, легко решается. S Задача 3. Пусть п = J2 nh Рз с Rnj' ff Рз ~> R? Ff Рз ~> i=i ^ "R1 G •• Р- —? Hm i — Л ч Р — П Р- 3=1 j=l s G(x) = ^2,Gj{xj), x = (zi,. ..,xs)eP i=i (функции и отображения такого вида называют сепарабельными). Показать, что для множества D и функции у?, вводимых соглас- согласно F) и G), и для всякой пары (Л, /i) E *D справедливо равенство где <^-(Л, /х) = inf (fj(xj) + (Л, Fjixj)) + (м, Gj(xj))), j = 1,..., 5. В частности, внутренняя задача минимизации в G) распадается на s задач меньшей размерности, которые могут быть решены неза- независимо (например, параллельно). Обсудим вопрос о том, какую пользу можно извлечь из двойствен- двойственной релаксации. По построению /(ж) ^ L(x, А, ц) ^ <р(Х, ц) Ух е D, V (Л, fj.) е V, (8) т. е. значение целевой функции двойственной задачи в любой ее допу-
§6.1. Элементы выпуклого анализа и двойственные методы 233 стимой точке служит оценкой снизу для значения целевой функции прямой задачи в любой ее допустимой точке, а значит, оценкой снизу для значения V = inf f(x) прямой задачи. (Такие оценки особенно полезны в «трудных» задачах, например, в целочисленном програм- программировании, когда множество Р дискретно.) В частности, v^u, (9) где ш= sup <р(Л, //) — значение двойственной задачи. Соотношение (9) называется сла- слабым соотношением двойственности. Теорема 6. Для любого множества Р С Rn, любой функ- функции /: Р —>> R и любых отображений F: Р —>> R1 и G: Р —> Rm множество V, вводимое согласно F), выпукло, а функция ip, вводи- вводимая согласно G), вогнута и полунепрерывна сверху на V. Кроме то- го, если для некоторой пары (А, /х) Е V точная нижняя грань в G) достигается в точке х\^ Е Р, mo (F(xajjlx), С(жл,^)) ? д(р(Х, /х). Задача 4. Доказать теорему 6. Выводы, которые можно сделать из теоремы 6, весьма примеча™ тельны. Двойственная задача должна решаться относительно легко, если только значения ее целевой функции достаточно легко вычис™ лимы. Действительно, двойственная задача всегда является зада- задачей максимизации вогнутой функции на выпуклом множестве, при™ чем эта задача «корректно поставлена» в смысле полунепрерывности сверху ее целевой функции на допустимом множестве. И это — без каких-либо предположений относительно сложности и других свойств прямой задачи (в частности, множество Р может иметь сколь угодно плохую структуру, например, дискретную). Далее, размерность про- пространства переменных двойственной задачи равна числу (скалярных) функциональных ограничений прямой, а это число часто бывает зна- значительно меньше размерности пространства переменных прямой за- задачи. Кроме того, ограничения двойственной задачи часто оказыва- оказываются проще ограничений прямой; иллюстрацией этого факта служит, например, задача 2. Наконец, если для данной пары (A, /i) E V най- найдено решение х\^ внутренней задачи минимизации в G), то тем са- самым определено не только значение <р(А, /i), но и (без дополнитель- дополнительных затрат) один суперградиент {F{xxi/JL), С(жд,//)) ? ^^(^5 АО- Разумеется, чудес не бывает (см. ниже комментарии о возможном разрыве двойственности и восстановлении решений прямой задачи). Сделаем следующее важное замечание. В общем случае функ- функция (р не является гладкой. Ее гладкость можно гарантировать, если точная нижняя грань в G) достигается на единственном элементе для
234 Гл. 6. Методы негладкой выпуклой оптимизации любой пары (Л, fi) G 22; но это не так во многих прикладных зада- задачах. Поэтому в контексте двойственной релаксации на первый план выходят методы негладкой оптимизации. Кроме того, если внутрен- внутренняя задача минимизации в G) имеет более одного решения, то типич- типичной является ситуация, когда удается вычислить лишь одно из этих решений, а значит, только один суперградиент. Поэтому любой прак- практический метод должен подразумевать использование оракула, вы- выдающего в лучшем случае только ограниченную информацию — значе- значение функции и один суперградиент. Имеется в виду, что, скажем, схе- схема, предполагающая вычисление всего супердифференциала целевой функции двойственной задачи, вряд ли будет практически полезна. Под разрывом двойственности можно понимать разность tJ — ZU (см. неравенство (9)). Если выполнено соотношение двойственности U = п7, т. е. inf sup L(z, Л, /х) = sup inf L(x, A, /i), то говорят, что разрыв двойственности отсутствует. В этом случае, как следует из (8), все глобальные решения прямой задачи A), B) можно найти, решая задачу L(x, А, ~р) —> min, х G Р, A0) где (Л, ~р) G Х> — любое решение двойственной задачи E), F). Не вдаваясь в подробности, заметим, что отсутствие разрыва двойствен- двойственности можно гарантировать в случае, когда A), B) — задача вы- выпуклого программирования, ограничения которой удовлетворяют не- некоторому условию регулярности. Задача A), B) называется задачей выпуклого программирования^ если множество Р выпукло, отобра- отображение F аффинно, а компоненты gi(-) отображения G выпуклы на Р, г = 1,. . ., га. Одним из наиболее важных в этом контексте условий регулярности является так называемое условие Слейтерщ со- состоящее в том, что I = 0 (ограничения^равенства отсутствуют) и су- существует точка х G Р такая, что G(x) < 0, а также условие ли- линейности (двойственность для линейных задач изучается в п. 7.1.2). Необходимо, однако, иметь в виду, что далее при отсутствии раз- разрыва двойственности задача A0) может иметь «лишние» решения, не являющиеся решениями задачи A), B) (такие решения заведомо не являются допустимыми точками в A), B)). Вопрос о разрыве двойственности и восстановлении решений пря- прямой задачи при отсутствии предположения о ее выпуклости весьма важен, но здесь не рассматривается. Ограничимся лишь следующим фактом.
§6.2. Су б градиентные методы. Кусочно линейная аппроксимация 235 Задача 5. Пусть для множества Р С Rn, функции /: Р —>¦ R, отображений F: Р -^ R1 и С: Р —>- Rm и некоторой пары (Л, /х) G Е Х> точная нижняя грань в G) достигается в точке х\^ G Р. Пока- Показать, что жд?^ является глобальным решением следующего возмуще- возмущения задачи A), B): /(ж) —> min, ж G ^Ол,^, г ^(жЛ)Д если /ii > 0, . I max{0, gi(x\jfl)}, если /^ = О, В частности, если точка жд,^ допустима в прямой задаче и удо- удовлетворяет равенствам gi(x\yfl) = 0 для всех г = 1, ...,7тг таких, что Hi > 0, то жд}// является глобальным решением задачи A), B). § 6.2. Субградиентные методы. Кусочно линейнам аппроксимация 6.2.1. Субградиентные методы. Обратимся к задаче безусловной оптимизации f(x) -> min, х е Rn, A) где функция /: Rn —>• R предполагается выпуклой на Rn, но не предполагается гладкой. Начнем с некоторых комментариев, имеющих целью продемон- продемонстрировать, что идеи рассматривавшихся выше методов гладкой оп- оптимизации в данном контексте неприменимы, что приводит к необ- необходимости развития специальных методов негладкой оптимизации. Согласно утверждению б) теоремы 6.1.2 Уж, d G Rn /;(ж; d) = max (у, d), yedf(x) откуда легко следует, что d G Df(x) тогда и только тогда, когда (у, d) < О У у G df(x). Последствием этого является тот неутеши- неутешительный факт, что для отыскания направления убывания функции / в точке ж нужно знать весь субдифференциал df(x) (напомним, что субдифференциал выпуклой функции всегда непуст; см. теоре™ му 6.1.1). Как уже отмечалось выше в связи с двойственной релак- релаксацией, в практических задачах это обычно невозможно, если только функция / не является дифференцируемой в точке х (относительно последнего случая см. утверждение в) теоремы 6.1.2). Сказанное сви- свидетельствует о том, что использование идеи методов спуска в контек™ сте негладкой оптимизации может быть весьма проблематичным, во всяком случае в ее оригинальной форме. Задача 1. Рассмотрим функцию /: R2 —> R, /(ж) = |жх| + Н- 2|а?21- Показать, что для любого х\ Е R в точке ж = (#i, 0) спра- справедливо следующее: у = A, 2) G df (ж), но —у 0 J)f(x).
236 Гл. 6. Методы негладкой выпуклой оптимизации Другую очень серьезную проблему представляет получение ос- осмысленных правил остановки вычислительного процесса. Например, весьма популярный в гладкой безусловной оптимизации тест на до- достаточную малость \ff(xk)\ в текущей точке xk E Rn не имеет удовлетворительного аналога в негладком случае. Среди прочего это связано с «недостатком непрерывности» субградиентного отображе- отображения х —>- df(x) : Rn —>• R. Рассмотрим простейший пример, в кото- котором n = l, f(x) = |ж|, х G R. Как бы близка ни была точка хк ф Ф 0 к решению ж = 0 задачи A), имеет место равенство \у\ = 1 УуЕ df(xk). Более того, даже в случае попадания в точное решение, т. е. при хк = 0, нет никакой гарантии, что этот факт будет обнару- обнаружен, а вычислительный процесс остановлен. Действительно, если ора- оракул в каждой точке выдает лишь один субградиент, то он может вы- выдать любой вектор у G 9/@) = [—1,1], и величина \у\ совершенно не обязательно будет мала. Не вдаваясь в подробности, констатируем, что и другие правила остановки, естественные для гладкой оптимиза- оптимизации, оказываются неадекватными в негладком случае. В су б градиентных методах сложности, связанные с вычислением направления убывания, преодолеваются (в формальном, чисто тео- теоретическом смысле) очень просто за счет снятия самого требования монотонного убывания значений целевой функции и за счет априор- априорного назначения параметров длины шага. Имея в виду связь между субградиентными и более изощренными методами, рассматриваемы- рассматриваемыми ниже, будем считать, что вместо субдифференциала используется его е -расширение при е ^ 0, а именно множество def(x) = {у е R"| ДО > f{x) + {y,i-x)-e V? e R"}, B) называемое е -субдифференциалом функции / в точке х G Шп. Алгоритм 1. Выбираем х° Е Rn и полагаем к = 0. Выбираем последовательности {ek}, {(%k} С R+. 1. Вычисляем dk G d?kf(xk). 2. Полагаем х^1 = хк - akdk. C) 3. Увеличиваем номер шага к на 1 и переходим к п. 1. Теорема 1. Пусть функция /: Rn —>• R выпукла на Rn. Пусть в алгоритме 1 последовательности {st} и {о^} удовлетворяют условиям ] D) lim ek = 0. E) fc»
§6.2. Су б градиентные методы. Кусочно линейная аппроксимация 237 Тогда для любой траектории {хк} алгоритма 1 такой, что для соответствующей последовательности {dk} выполнено условие F) имеет место где U = inf fix). lim ak\dk\2 = О, k-^oo liminf f(xk) = v, k—Ь-оо Доказательство. Из B) и C) для произвольного х Е Rn имеем k+1 - х\2 = хк - х\2 + 2(хк+1 - хк, хк-х) хк+1 - хк\2 \хк - х 2ak(f(x) - f(xk) + ek) + a\\dk\2. G) (8) Предположим, что liminf f(xk) > Л. Тогда найдутся элемент х Е к—>оо € Rn, число 8 > 0 и индекс к такие, что f(x)< f(xk)-S Vfc^fc. Из E) и F) следует, что если к достаточно велико, то ak\dk\2 + 2ек ^8 Ук^Ъ, Но тогда согласно G) и (8) хк+1 - х\ хк - х\2 + акBек + ak\dk\2 - 28) Поэтому к i=k к i=k что противоречит D). -х^-х2) ? хк — х2 — 8ак У к ^ = х^-х 2^ ж^ + !^х 2 < Хк-Х Субградиентные направления в алгоритме 1 удобно нормировать; в этом случае утверждение о сходимости можно усилить. Для просто- простоты ограничимся случаем точных субдифференциалов. В итоге прихо- приходим к схеме хк + 1 _ хк _ j dk e df(xk), к = 0, (9) где /3^ > 0 — параметры длины шага (подразумевается, что если в текущей точке хк вычислен субградиент dk =0, то процесс оста™ навливают).
238 Гл. 6. Методы негладкой выпуклой оптимизации Теорема 2. Пусть функция /: Rn —>> R выпукла на Rn, при- причем задача A) имеет решение. Пусть в алгоритме 1 ek=0, ak= A- Vfc, A0) |tt I гс?е последовательность {Pk} удовлетворяет условиям оо оо у Ни = +оо, У pi < +оо. A1) Тогда любая траектория {хк} алгоритма 1 сходится к решению задачи A). Задача 2. Доказать, что если последовательности {а^}, {bk} С оо С R+ удовлетворяют условию a^+i ^ afe + bk V/г, причем У^ 6^ < < +оо, то последовательность {а^} сходится. ~ Доказательство теоремы 2. Пусть ж" G Rn — некоторое решение задачи A). Тогда f(x) ^ f(xk) Vfe, и, взяв в G) х = ж, с учетом A0) получим Отсюда, из второго соотношения в A1) и утверждения из задачи 2 следует, что последовательность \\хк — Щ} сходится. В частности, последовательность {хк} ограничена, поэтому согласно теореме 6.1.5 последовательность {dk} также ограничена. Но тогда из A0) и A1) вытекают соотношения D)—F). Поэтому, применяя теорему 1, по- получаем, что llm Inf f(xk) = f(x). Отсюда, из непрерывности функ™ к—»оо ции / на Rn (см. утверждение а) теоремы 6.1.2) и из ограниченно- ограниченности последовательности {хк} следует, что {хк} имеет предельную точку ж G Rn, являющуюся решением задачи A). Заменяя в прове- проведенном выше рассуждении ~х на ж, получим сходимость последова™ тельности {\хк — ж|}, причем сходимость к нулю, поскольку ж явля- является предельной точкой. ? С помощью операции проектирования субградиентные методы не- несложно распространить на случай наличия (простых) ограничений, т. е. на задачу f(x) ->> mm, x G P, A2) где Р С Rn — замкнутое выпуклое множество. Задача 3. Пусть Р С Rn — замкнутое выпуклое множество, а функция /: Rn —>• R выпукла на Rn. Модифицируем алгоритм 1, заменив в нем формулу C) формулой хк+1 = 7гР(хк ^akdk).
§6.2. Су б градиентные методы. Кусочно линейная аппроксимация 239 Получить аналоги теорем 1 и 2 для такой модификации алгорит- алгоритма 1 применительно к задаче A2). По-видимому, единственным привлекательным свойством субгра- субградиентных методов является их чрезвычайная простота, если известен простой способ вычисления субградиентов. К сожалению, на практи- практике эти методы часто оказываются бесполезными. Априорное задание параметров длины шага неизбежно приводит к низкой (сублинейной) скорости сходимости, какие бы (разумные) требования не накладыва- накладывались на решаемую задачу, и это, разумеется, совершенно неприемле- неприемлемо. Кроме того, в рамках субградиентных методов никак не решается фундаментальная проблема выбора сколько-нибудь надежного прави- правила остановки, обсуждавшаяся выше. Можно далее сказать, что два условия в A1) на выбор парамет- параметров длины шага несовместимы с вычислительной точки зрения: вто- второе условие подразумевает, что /3& —^ 0 [к —>• оо), т.е. в представле- представлении компьютера /3& становится нулем при больших /г, и это дела- делает невозможным выполнение первого условия. С другой стороны, тео- теоретически существует бесконечное множество подходящих последова- последовательностей {/3k}i и совершенно не ясно, почему один выбор этой по- последовательности предпочтительнее другого. Это, конечно лее, свиде- свидетельствует о том, что метод едва ли может быть эффективен. Наконец, известны некоторые ситуации, в которых субградиент- субградиентный метод можно несколько улучшить. Одна из таких ситуаций воз- возникает, если заранее известно значение V задачи A). Задача 4. Пусть функция /: Rn —> R выпукла на Rn, причем задача A) имеет решение. Доказать, что любая траектория {ж^}, ге- генерируемая по схеме (9), в которой /3& = f(xk) — г;, U = inf /(ж), xEHn сходится к некоторому решению задачи A), причем \iminfVk(f(xk)-v) = 0. Если дополнительно выполнено так называемое условие остроты (линейного роста), т.е. существуют окрестность U множества реше- решений S задачи A) и число j > 0 такие, что /(ж) -U^ 7dist(x, S) Ух е U, то скорость сходимости по аргументу геометрическая. Если значение U не известно, можно попытаться получить мо- модификацию метода из задачи 4, использующую динамический выбор оценок снизу величины U. 6.2.2. Методы кусочно линейной аппроксимации. Будем рас- рассматривать задачу A2), предполагая, что Р С Rn — выпуклый компакт, а функция /: Rn —>• R выпукла на Rn. Компактность Р
240 Гл. 6. Методы негладкой выпуклой оптимизации предполагается для того, чтобы гарантировать существование реше- решений у вводимых ниже вспомогательных задач, что иначе не является автоматическим. Базовая идея методов, рассматриваемых в этом пункте, состоит в использовании информации, накапливаемой по ходу итераций, для построения все более точной кусочно линейной аппроксимации сни™ зу целевой функции. В частности, такие методы являются многоша- многошаговыми. Будем считать, что к [к + 1) -му шагу получена следующая выборка г): x'eR", У*€д/{х% г = 0,1,..., А. Тогда (& + 1) -й шаг метода кусочно линейной аппроксимации состоит в решении задачи фк(х) -> min, жЕР, A3) где ^fc:Rn->R, фк(х)= max {/(^) + (у\ х - я*)}. A4) г=0, 1,...,к Заметим, что если множество Р — полиэдр, то задача A3) сво- сводится к задаче линейного программирования а —> min, (<т, х) Е Ukj A5) Uk = {(а, х) е R х Р\ f{xl) + (у\ х - х1) ^ a, i = 0, 1,. . ., к}. A6) Из определения субдифференциала и A4) следует, что ^фк{х) УжеВЛ A7) По мере добавления информации в выборку последняя становится все богаче, а аппроксимация A4) функции / — все точнее. Это дает основания ожидать, что решения задач A3) будут все лучше прибли- приближать решения задачи A2). Алгоритм 2. Выбираем ж0 Е Rn и полагаем к = 0. 1. Вычисляем f(xk) и ук Е df(xk). 2. Вычисляем х +1 как решение задачи A3) с целевой функцией, задаваемой формулой A4). 3. Увеличиваем номер шага к на 1 и переходим к п. 1. г) В западной литературе для подобных выборок информации обычно используется термин Bundle, что можно перевести как «связка» или «пу- «пучок». В связи с этим методы, рассматриваемые в § 6.3, обычно называют Bundle methods. Однако, с точки зрения авторов, такая терминология при всей ее выразительности не слишком информативна. Методы, рассматри- рассматриваемые в этом параграфе, известны в западной литературе под названием Cutting plane methods.
§6.2. Су б градиентные методы. Кусочно линейная аппроксимация 241 Наиболее важным достоинством описанного метода по сравнению с субградиентными методами является, видимо, возможность ввести разумное правило остановки. Для каждого к положим Из A7) следует, что А^H и f(x) > фк(х) > Фк(хк+1) = f(xk+1) -Ак Ухе Р, поэтому f(xk+1)^v^f(xk+l)-Ak, где U — значение задачи A2). Это значит, что разумно останавливать процесс после [к + 1) -го шага, если А^ не превосходит заданной ве- величины, выражающей допустимую погрешность аппроксимации зна- значения задачи. Заметим, что для некоторого к указанное событие неминуемо произойдет (см. теорему 3 ниже). Какие недостатки имеют методы кусочно линейной аппроксима- аппроксимации? Требование компактности Р едва ли следует считать слишком ограничительным. Более серьезную проблему представляет все воз- возрастающая сложность используемой аппроксимации по мере расши- расширения выборки, т. е. все возрастающее количество (скалярных) функ- функциональных ограничений в A5), A6). И хотя некоторые стратегии удаления «лишней» информации из выборки известны, для методов кусочно линейной аппроксимации в их примитивном виде реализация этих стратегий весьма проблематична (ср. с методами, рассматривае- рассматриваемыми в § 6.3). Другой очень серьезный недостаток методов кусочно линейной ап- аппроксимации состоит в их неизбежной неустойчивости. В частности, последовательности {хк} и {f(xk)} обычно ведут себя очень хао- хаотично. Чтобы убедиться в этом, достаточно применить алгоритм 2 к задаче A2), в которой п = 1, Р = [—1, 1], f(x) = ж2, х Е R. Разумеется, этот пример весьма специфичен в том смысле, что функ- функция / в нем гладкая; тем не менее он хорошо иллюстрирует смысл происходящего. Можно утверждать, что методы кусочно линейной аппроксимации хорошо работают лишь в том случае, когда задача имеет единственное решение, которое является острым (см. задачу 4). Теорема 3. Пусть Р С Rn — выпуклый компакт^ а функ- функция /: Rn —>> R выпукла на Rn. Тогда для любой траектории {хк} алгоритма 2 имеет место Mm фк(хк+1) = v = llminff(xk), к—^-оо к^оо где U = inf /(ж), а функции ipk задаются формулой A4). жЕ-Р Доказательство. Из A7) следует монотонное неубывание по- последовательности {tpk(xk^1)} и ее ограниченность сверху величиной
242 Гл. 6. Методы негладкой выпуклой оптимизации U. Но тогда эта последовательность сходится. Предположим, что она сходится не к г;, т. е. найдется число д > 0 такое, что Фк(хк+1) ^v-ё У к. A8) Последовательность {хк} лежит в компакте Р, поэтому, при не™ обходимости переходя к подпоследовательности, можем считать, что эта последовательность сходится. Но тогда из теоремы 6.1.5 следует существование числа М > 0 такого, что для любого достаточно боль- большого к к\ < М \хк+1 - хк < — \ук\ < М \у I ^ ш 1 2М " Отсюда, из A4), A8) и неравенства Коши—Буняковского^Шварца по- получаем v - S > фк(хк+1) > f(xk) + (/, xk+1 - хк) > ^v- M\xk+1 -xk\ ~Zv-&-, А что невозможно. Теперь предположим, что существует число S > 0 такое, что для любого достаточно большого к f(xk)^v + S. A9) Вновь, при необходимости переходя к подпоследовательности, можем считать, что \xk+1-xk ' ё 2L ' где L = sup \y\. Напомним, что в силу теоремы 6.1.5 величи- yeuxEPdf(x) на L конечна и является константой Липшица для функции /, а значит, и для фк+1 (см- заДачУ 2.2.3) на Р. Отсюда и из A4), A7), A9) получаем v + 5^ f{xk+1) <: max{^(^+1), f{xk+1)} = фк+1{хк+1) = = Фк+г(хк) + i)k+i{xkJrl) -фк+г(хк) ^ W+ L\xk+1 - хк\ ^ v + -, что опять же невозможно. П § 6.3. Многошаговые методы с квадратичными подзадачами Вновь будем рассматривать задачу безусловной оптимизации /(ж) ->> min, х Е Rn, A) где функция /: Rn —^ R выпукла на Rn, но не обязательно являет- является гладкой.
§ 6.3. Многошаговые методы с квадратичными подзадачами 243 Рассматриваемые в этом параграфе методы строятся на основе идеи кусочно линейной аппроксимации (см. п. 6.2.2), которая до- дополняется необходимым стабилизирующим механизмом, а также удо- удовлетворительными правилами остановки и управления размерами выборки информации, определяющей используемую аппроксимацию. Пусть xk G Rn — текущее приближение к решению задачи A), a z% G Rn, уг G df(zl)J i = 0,1,. . ., к, ~~ полученная к (к + 1) -му шагу выборка; подчеркнем, что точка z может не совпадать с х . Точка zfc+1 G Rn ищется как решение задачи ¦» min, х Е Rn, B) ' + 2 'Ж ~ где ^: Rn —>> R, tpk(x) = max {/(z*) + (г/г, х — ^г)}5 C) a Ik > 0 — так называемый проксимальный параметр. Точку ж^ можно рассматривать как центр стабилизации, а роль квадратичного члена состоит в том, чтобы не допустить слишком большого откло- отклонения точки zk+1 от этого центра, что может иметь место, если ис- использовать чистую кусочно линейную аппроксимацию (см. п. 6.2.2). Идея состоит в том, чтобы менять центр стабилизации лишь в том случае, когда это действительно оправдано, а именно, когда переход от хк к zkJrl приводит к достаточному уменьшению значения функ- функции /. Если это так, то полагают xkJrl = zk+1. В противном случае центр стабилизации (и текущее приближение) оставляют без измене- изменений, полагая хк+1 = хк. Заметим, что информация, полученная за счет решения задачи B), при этом не пропадает: она обогащает вы- выборку, а значит, улучшает аппроксимацию целевой функции. Поскольку целевая функция задачи B) сильно выпукла 1), реше- решение этой задачи всегда существует и единственно. Кроме того, зада- задача B) сводится к выпуклой задаче квадратичного программирования а + -у \х - хк\2 —» min, (a, x) E D, D) Uk = {(а, х) е R х Rn| f(zi) + (у\ х - zl) ^ а, г = 0,1,. . ., к}. E) С вычислительной точки зрения (выпуклые) задачи квадратично- квадратичного программирования сравнимы по сложности с задачами линейно- линейного программирования. Эти два класса задач допускают сходные чис- численные стратегии (конечные методы, методы внутренних точек), ко- которые вполне эффективны (см. гл. 7). Более того, при реализации 1) Сумма выпуклой и сильно выпуклой функции сильно выпукла. Мак- Максимум семейства выпуклых функций — выпуклая функция.
244 Гл. 6. Методы негладкой выпуклой оптимизации рассматриваемых здесь методов вместо D), E) обычно решают сле- следующую задачу, возникающую из соображений, связанных с двойст- двойственностью (см. задачу 1 ниже): 2 1 2 к г=0 *, F) г=0 г=0 ) Заметим, что задача F), G) всегда имеет решение в силу теоремы Вейерштрасса (теорема 1.1.1). Более того, ограничения этой задачи имеют очень специальную структуру: Ык есть стандартный симплекс в Rfe+1, и этот факт может быть эффективно использован при чис- численном решении таких задач. Другая мотивировка введения стабилизирующего квадратичного члена состоит в следующем. Общая теория численных методов оп- оптимизации, а также здравый смысл свидетельствуют о том, что на вы- высокую скорость сходимости молено рассчитывать лишь при использова- использовании аппроксимации второго порядка функции /. Разумеется, целевая функция задачи B) едва ли может претендовать на роль такой аппрок- аппроксимации. Однако, не вдаваясь в детали, заметим, что предлагаемый ниже анализ легко распространить на случай использования вместо B) более общей вспомогательной задачи вида 1 Фк(х) Н~ ~ (Hk(x ~~ х ), х — х ) —>- min, x E Rn, (8) где Hk E R(n, n) — симметрическая положительно определенная матрица. Схожая ситуация имеет место в гладкой условной оптими- оптимизации в связи с методами линеаризации и последовательного квадра- квадратичного программирования (см. § 5.4). Разумеется, здесь адекватный выбор матрицы Hk — весьма непростая проблема, поскольку Н^ дол- должна аппроксимировать некий «объект второго порядка», в то время как целевая функция задачи A) может не иметь даже первой производной. Попытки предложить единый способ такого выбора (для произвольной выпуклой функции /), видимо, безнадежны. Тем не менее достигну- достигнутые в последнее время успехи в анализе второго порядка для некоторых важных классов негладких выпуклых функций позволяют получать для соответствующих задач сверхлинейно сходящиеся методы с подза- подзадачами вида (8). Алгоритм 1. Выбираем х° Е Rn и полагаем к = О, 1С = 0. Выбираем е Е @, 1) и последовательность {jk} ? R+ \ {0}- Вычис- Вычисляем /(ж0) и полагаем z° = х°. 1. Вычисляем ук Е df(zk). Вычисляем zfc+1 как решение зада- задачи B), целевая функция которой определяется с помощью C).
§ 6.3. Многошаговые методы с квадратичными подзадачами 245 2. Вычисляем /(z +1) и Afc = f(xk) - фк(гк+1) - у \zk+1 - xk\2. (9) 3. Если f(xk)-f(zk+1)^eAk, A0) то полагаем xk+1 = zk+1 и включаем индекс к во множество 1С («шаг со спуском»). В противном случае полагаем хк+1 = хк («нуле- («нулевой шаг»). 4. Увеличиваем номер шага к на 1 и переходим к п. 1. Вопрос о правиле остановки и управлении выборкой будет рас- рассмотрен ниже. Правило остановки будет использовать величину Д&, которая всегда неотрицательна, что вытекает из неравенства (см. F.2.17)) и способа определения точки zk+1. Начнем с того, что установим некоторые свойства решения zk+1 вспомогательной задачи B). Лемма 1. Пусть функция /:Rn —t R выпукла на Rn. Для про- произвольных хк Е Rn, zl Е Rn, у{ е df{zl), i = ОД, ...,&, и jk > 0 положим к г=0 где ик Е Rfe+1 — произвольное решение задачи F), G). Тогда единственное решение zk+1 задачи B) с определяемой со- согласно C) целевой функцией имеет вид jk z - х - - , A3) причем dkedej(xk), A4) где k ?k = У^ v^fffx1*) — fiz1) — (f/\ xk — zi)) ^ 0. A5) г=0 Задача 1. Показать, что в условиях леммы 1 двойственная к D), E) задача имеет вид 2 /с 1 Ж ^ -»' .Жл / » / г\ / i 1$ г\\ j , /^л\ где множ:ество W^ введено в G).
246 Гл. 6. Методы негладкой выпуклой оптимизации Доказательство леммы 1. Очевидно, z G Rn является решением задачи B) в том и только том случае, когда (a&+i, zk+1) является решением задачи D), E), где <Jk+\ = Фк{%к+1)- Согласно результату задачи 1 ик является решением двойственной задачи к D), E) (очевидно, решения задач F), G) и A6), G) совпадают), а значит, в силу сказанного в конце п. 6.1.2 о восстановлении решения прямой задачи при отсутствии разрыва двойственности, (а&_|_1, z ^ ) является решением задачи к + Yl "iUW) + (У*> x-z^-a)^ min, (a, x) G R x Rne г=0 Применяя к этой задаче принцип Ферма (теорема 1.2.3), приходим к равенству г=0 а это с учетом A2) и есть A3). Далее, в силу утверждения в) теоремы 6.1.2 и теорем 6.1.3, 6.1.4 имеем 0€дфк(гк+1) + -ук(гк+1-хк), что с учетом доказанного равенства A3) влечет включение dk € дфк(гк+1). A7) Отсюда, из A1) и определения субдифференциала получаем f(x)^ipk(x)^ipk{zk+1) + (dk,x-zk+1) VxeR". A8) Используя соотношение двойственности (см. F.1.9)) применитель- применительно к взаимодвойственным задачам D), E) и A6), G) и учитывая A2), приходим к равенству Ы*к+1)+ f \zk+1-xk\2 = - -L |dfe|2 + ^^(/(z') + <yS хк-г>)). г=0 к Отсюда, из A3) и равенства J2 ^i = ^ следует, что г=0 k ufe 2 h fx fz УзХ z 7fe где Sk определено в A5). При этом из неравенства ик ^ 0 и включе- включений у1 G df{z%)J г = 0,1,. . ., к, следует, что ?к ^ 0.
§ 6.3. Многошаговые методы с квадратичными подзадачами 247 Объединяя A8) и A9) и используя A3), получаем f(x) > f(xk) + (dk, x^xk) + (d\ xk - z^1 Ik = f(xk) + (dk, x-xk)- ek Ух е Rn, что и дает A4). ? Заметим, что из (9) и A9) вытекает равенство Ак=ек+ ^-\dk\2. B0) Доказательство сходимости алгоритма 1 распадается на два слу- случая, в зависимости от конечности или бесконечности количества «ша- «шагов со спуском». Теорема 1. Пусть функция /: Rn —> R выпукла на Rn. Пусть в алгоритме 1 реализуется бесконечное множество 1С, причем последовательность {jk} удовлетворяет условию 1 кек: Тогда для траектории {хк} алгоритма 1 имеет место lim f(xk) = v, B2) где U= inf f(x). Если задача A) имеет решение^ причем /№^7>0 У к Е 1С, B3) г^е число j не зависит от /г, mo {xfc} сходится к некоторому ре- решению задачи A). Доказательство. В силу леммы 1 для всякого k E 1С имеем = хк - где числа А^ ^0 и ек ^ 0 связаны соотношением B0). Если U > ^оо, то dekf(xk), B4) B5) Отсюда и из B0) следует, что кек: keJC
248 Гл. 6. Методы негладкой выпуклой оптимизации Соотношения B1), B4), B6) и теорема 6.2.1 влекут равенство lim inf f(x ) = U. k-?oo С учетом того, что по построению последовательность {f(xk)} моно- тонно невозрастающая, отсюда следует B2). Пусть теперь ~х G Rn — решение задачи A), тогда У k E /С Ц? — B7) 7fe хк+1 - х\2 <: \хк^ х Ik (ср. с F.2.7)). Из B3) и B6) вытекает неравенство V- ( МТ 2г* \ 7 Цг + —^ < +°°. которое в совокупности с B7) и утверждением из задачи 6.2.2 таранти™ рует сходимость последовательности {|ж^ — ж"|}. В частности, последо- последовательность {хк} ограничена. Пусть х — некоторая предельная точка этой последовательности. Тогда в силу доказанного предельного соот- соотношения B2) х является решением задачи A). Заменяя в проведенном выше рассуждении ~х на ж, получим сходимость последовательности {\хк — ж|}, причем, очевидно, сходимость к нулю. ? При некоторых дополнительных условиях можно показать, что на «шагах со спуском» алгоритма 1 имеет место линейная оценка ско- скорости сходимости, но обоснование этого потребовало бы привлечения дальнейших средств выпуклого анализа. Кроме того, как уже было отмечено выше, более изощренный выбор квадратичного члена для задач более конкретной структуры может обеспечить даже сверхли- сверхлинейную скорость сходимости. Теорема 2. Пусть функция /: Rn —» R выпукла на Rn. Пусть в алгоритме 1 реализуется конечное множество 1С, т.е. для траек- траектории {хк} справедливо хк = хк Vк ^ к для некоторого индек- индекса к, причем последовательность {jk} удовлетворяет условиям оо = +оо. B8) Тогда хк — решение задачи A). Доказательство. Всюду считаем, что к ^ к. Покажем, что Afe^O (fc->oo). B9) Используя (9), A3), A7) и первое соотношение в B8), получаем fe)^A, + ^ z fe+2 _ ,3 + 112 _
§ 6.3. Многошаговые методы с квадратичными подзадачами 249 k+2 - zk+1 ^ (\zk+2 - z k+1 - хк k, zk+2 - zk+1) т. e. \zk+2 - \zk+2 - xk\2 .fe+i ^ 0. C0) монотонно невозрас- Таким образом, последовательность {A тающая и ограничена снизу, а значит, сходится. Покажем ограниченность последовательности {zk}. Используя формулы C), (9), A3) и A7), имеем -хк2 = zk + l_xk2 = V (dk, xk - zk+1) ^фк(хк) = /(хк). Поэтому с учетом первого соотношения в B8) и доказанного монотон- монотонного невозрастания последовательности {А^} получаем . 2Д* yk+i — х Ik 2Аж 1к что и требовалось. Далее, поскольку к 0 1С, условие A0) нарушено, т. е. f{xk) - f(zk+1) < sAk, откуда с учетом (9) выводим A - е)Ак <Ак + f(zk+1) - f(xk) = = f(zk+1) - у - хк\2 ^ f(zk+1) - C1) В силу ограниченности последовательности {zk} и теоремы 6.1.5 величина L = sup \y\ конечна и является константой Липшица для функции /, а значит, и для ф^ (см- заДачУ 2.2.3) на {zk}. По- Поэтому из C1) имеем (здесь принято во внимание вытекающее из C) и A1) равенство f(zk) = фк{%к))- Объединяя последнее неравенство с левым неравен- неравенством в C0), выводим Ак -
250 Гл. 6. Методы негладкой выпуклой оптимизации откуда в силу сходимости последовательности {А^} следует B9), а значит, с учетом B0), и предельные соотношения ?к^0, Щ: ^0 (jfe^oo). C2) У Ik Кроме того, из левого неравенства в C0) и сходимости последова- последовательности {Afc} имеем Отсюда, из второго соотношения в C2) и вытекающей из A3) оценки -1! |d — у ' Т 1 — ¦к\ следует, что ^dk+1\ ^o (fc-^oo). Но тогда второе условие в B8) гарантирует существование у последо- последовательности \_dk} такой подпоследовательности {cffei}, что {dki}^0 (i^oo). C3) Возьмем произвольный элемент х G Rn. Из A4) имеем неравен- неравенство переходя в котором к пределу при г —> оо и учитывая первое соотно- соотношение в C2), а также C3), получаем требуемое неравенство /(ж) ^ > /(ж?). П Обратимся к вопросу о правиле остановки. Заметим, что в обоих рассмотренных случаях имеет место B9). Действительно, во втором случае этот факт установлен в доказательстве теоремы 2. В первом же случае B9) вытекает из B5) и соображений, приведенных в нача- начале доказательства теоремы 2. Согласно B0) из B9) следует C2), и, в частности, ограниченность последовательности {jk} подразумевает предельное соотношение Из A4) и неравенства Коши-Буняковского-Шварца имеем > f{xk) - \dk\\x - хк\ -ек Ухе R/\ поэтому имеет смысл останавливать процесс после (А; + 1) -го шага, если А к либо 8^ и \dk\ не превосходят требуемой точности. Под-
§6.8. Многошаговые методы с квадратичными подзадачами 251 черкнем, что А^ можно рассматривать и как меру качества аппрок- аппроксимации функции / функцией ф^. Приведенное правило остановки допускает дальнейшую интерп- интерпретацию и обоснование через свойства непрерывности е^ -субдиф- -субдифференциала, но этот анализ выходит за рамки данной книги. От- Отметим только следующий ключевой факт: если dk E d?kf{xk) У к и {хк} —}~х, Ей —>- ?, {dk} —>> d (к —> оо) при некоторых ~s E R+ и d G Rn, то dG def^x). В частности, если считать, что в прави- правиле остановки используется нулевая точность, то е/% —> О, {dk} —>- О (А; —>> оо), причем О G <Э0/(ж) = df{x). Что же касается управления размером выборки, а точнее, коли- количеством линейных «кусков» в используемой аппроксимации функ- ции /, то идея состоит в агрегировании для данного к ^ 2 входящих в t/^ «кусков» в тех случаях, когда их количество (определяющее число ограничений задачи D), E) и соответственно число перемен- переменных задачи F), G)) становится слишком большим. После определе™ ния zk можно удалить из выборки любое количество пар (zf, уг), г = 0,1,. . ., А; — 1, если в целевую функцию задачи для определе- определения zkJrl ввести так называемый «агрегированный кусок» фк^: R" -»¦ R, фк-г{х) = фи-^) + lk\zk - хк-г\2- - 1к-г(гк - хк-\ х - х"-1) = фк-г(гк) + (d*, x - zk) C4) (см. A3)). Легко убедиться, что фк-1(х) <ь f(x) VxeR", фк-1(гк) = фк-1(гк), т.е., в частности, ф^-г^ как и ^ife-i? аппроксимирует / снизу, и по- поэтому такой «кусок» можно вводить в аппроксимацию без всякого вреда. Более того, оказывается, что ф^ агрегирует всю содержащую- содержащуюся в выборке информацию, необходимую для обеспечения сходимости метода. В частности, можно удалить из выборки все пары (zf, уг), г = 0,1,. . ., А; — 1, и определить z как решение задачи ^_i(a;), f(zk) + (ук, х - zk}} + ^ |ж - хк\2 -> min, x G Rn. C5) В утверж:дениях о сходимости достаточно рассматривать имен- именно такие «двухкусочные» аппроксимации: сходимость для них влечет сходимость для более точных аппроксимаций. Однако, вообще говоря, чем беднее выборка, тем метод менее эффективен. Задача 2. Доказать аналоги теорем 1 и 2 для случая, когда на шаге 1 алгоритма 1 при к ^ 2 для определения zk+1 вмес- вместо B) используется задача C5), целевая функция которой определя- определяется формулами A2), C4), причем ик в A2) — произвольное реше- решение задачи F), G).
252 Гл. 6. Методы негладкой выпуклой оптимизации Идеи, лежащие в основе обсуждавшихся в этом параграфе мето- методов, могут реализовываться и в других формах. Например, вместо введения стабилизирующего квадратичного члена в целевую функ- цию вспомогательной задачи можно использовать доверительную об- область. В этом случае вспомогательная задача принимает вид tjjk{x) ~* min, х G -Dfc, где 8k > 0 — радиус доверительной области. Если в определении вместо • использовать оо, то эта задача сводится к задаче ли- нейного программирования. Другая возможность состоит во введении вспомогательной задачи вида \х — х к 2 min, х где параметр с^ назначается по определенным правилам. Может сложиться впечатление, что вариант, использующий довери- доверительные области (и соответственно линейные подзадачи), предпочти- предпочтительнее варианта, использующего квадратичные подзадачи. Однако на самом деле это не так. Во-первых, как уже отмечалось выше, трудо- трудоемкости решения задач линейного и квадратичного программирования посредством современных численных методов сравнимы. Во-вторых, методы, использующие квадратичные подзадачи, могут выигрывать в некоторых аспектах реализации, например связанных с управлением размером выборки. Можно показать, что описанные разные формы рассматриваемых методов в некотором теоретическом смысле экви- эквивалентны: решение вспомогательной задачи для одной из этих форм будет решением вспомогательной задачи для любой другой формы при соответствующем (явно указываемом) выборе параметров. Вместе с тем реализации и практические свойства этих форм различны.
Глава 7 СПЕЦИАЛЬНЫЕ ЗАДАЧИ ОПТИМИЗАЦИИ Заключительная глава посвящена главным образом задачам ли™ нейного программирования (ЗЛП) и задачам квадратичного програм- программирования (ЗКП). Важность этих классов задач определяется в пер™ вую очередь тем неоднократно отмечавшимся выше фактом, что мно- многие методы общего назначения подразумевают многократное решение вспомогательных ЗЛП либо ЗКП, и итоговая эффективность таких методов в значительной степени определяется тем, насколько эффек- эффективно решаются вспомогательные задачи. § 7.1. Элементы теории линейного программирования Можно, видимо, утверждать, что наиболее полно изученный класс задач условной оптимизации составляют ЗЛП, для которых разрабо- таны как законченная теория, так и эффективные численные методы (хотя и в этой области до сих пор появляются новые результаты). Из- Изложению важнейших вопросов теории линейного программирования и посвящен настоящий параграф. 7.1.1. Общие свойства линейных задач. Напомним, что под ЗЛП понимается задача оптимизации, целевая функция которой линейна, а допустимое множество является полиэдром. ЗЛП является выпук- лой задачей оптимизации, а значит, обладает всеми свойствами, при- присущими выпуклым задачам. В частности, любое локальное решение ЗЛП является глобальным (поэтому далее будем говорить просто о решении), а любая стационарная (в смысле определения 1.2.2) точка является решением. Общую ЗЛП будем записывать в виде (ci, хг) + (с2, х2) -> min, (хъ х2) G D, A) D = {(жь х2) е Р\ Лцхг + А12х2 = Ьъ А21хг + А22х2 ^ b2}, B) где ci e Rni, с2 е НП2, Аг1 е R(/, ni), A12 e R(/, n2), A21 e е R(m, щ), А22 е R(m, n2), Ьг G R1, Ъ2 е Rm, Р = W11 x R^2. Выделение условия неотрицательности части переменных в каче- качестве прямого ограничения оказывается удобным в этом контексте.
254 Гл. 7. Специальные задачи оптимизации Вектор с = (ci, c2) называют вектором коэффициентов целевой функции, матрицу — матрицей ограничений, а вектор b = {b\, b2) — вектором правых частей ограничений задачи A), B). Задача 1. Пусть полиэдр X = {х Е Rn| Ах ^ Ь}, где А Е € R(m, n), 6 € Rm, ограничен, причем int X ф 0. Требуется впи- вписать в X шар наибольшего радиуса. Сформулировать эту задачу как ЗЛП. Особую роль играет так называемая каноническая ЗЛП, которая получается из A), B) при п\ = т = 0. Таким образом, полагая п = = 7i2, каноническую ЗЛП молено записать в виде (с, х) ~^? min, х Е D, C) — SТ rz р\ ДТ — h\ (Д\ где с = c2 E Rn, A = A12 E R(/, n), 6 = 6i E R1, P = R+. Заметим, что общую ЗЛП A), B) за счет введения вспомогательных перемен- переменных всегда можно свести к канонической (ci, и1 — и2} + (с2, ж2) —» min, (и1, и2, х2, у) Е D, D = {(w1, и2, х2, у) Е Р| Ац(и1 — и2) + А\2х2 = &i, ^гхС^1 — ^2) + ^22^2 — у = 62}, где Р = R^1 х R х R x R!^. Допустимые множества и решения этих двух задач связаны очевидным образом. Теорема 1. Если допустимое множество ЗЛП непусто, а зна- значение конечно, то эта ЗЛП имеет решение. Доказательство. В силу сказанного выше о сведении об- общей ЗЛП A), B) к канонической доказательство достаточно прове- провести только для последней. Пусть допустимое множество D зада- задачи C), D) непусто, причем Л = inf (с, х) < +оо. Предположим, что утверждение теоремы неверно, т. е. система Ах = 6, (с, х) = U, х ^ 0 относительно х Е Rn несовместна. Очевидно, это равносильно несов- несовместности однородной системы Ах — ?6 = 0, (с, х) — tv = 0, х ^ 0, t > 0, относительно (х, t) E Rn x R, применяя к которой теорему Моцкина (лемму 1.4.2), получим существование пары (у, т) Е R1 x R такой,
§7.1. Элементы теории линейного программирования 255 что АТу + тс ^ 0, F, у) + rv < 0. Но тогда У х ? D из первого неравенства имеем (Лт|/, ж) + т(с, х) ^ 0, что вместе со вторым неравенством дает т(с, х) ^ -(у, Ах) = -(у, b) > tv. Поэтому inf т(с, х) > тИ = т inf (с, ж), x?D xED что не может иметь места ни при каком т. ? Доказанный результат означает, что в ЗЛП решения может не быть лишь в том случае, когда либо пусто ее допустимое множество, либо бесконечно значение. Напомним, что нелинейные задачи могут не иметь решения и в других случаях. Приведем критерий оптимальности для ЗЛП. Необходимость в этом критерии вытекает из теоремы 1.4.3 и того факта, что условие линейности является условием регулярности ограничений (см. задачу 1.4.3; ограничение Х2 ^ 0 здесь удобно трактовать как функциональное). Достаточность же следует из сказанного выше о выпуклости ЗЛП (впрочем, достаточность легко устанавливается и непосредственной проверкой). Теорема 2. Пусть сг е Жп\ c2GRn2, Аг1 G R(Z, пг), А12 G G R(/, n2), A2i e R(m, ni), A22 G R(m, n2), h G R1, b2 G Rm, P = Rni x R^2. Точка (xi, "x2) G D является решением задачи A), B) тогда и только тогда, когда найдутся элементы A G R1 и ~р Е R!p такие, что Aj±J + A2i7J = ci, А72А + ЛJ2/I ^ с2, E) G1, А21хг + А22ж2 - Ь2> = 0, (Л^А + Aj2/I - с2, ж2) = 0. F) Задача 2. Используя геометрические построения, высказать ги™ потезу о решении задачи — 2х\ — Х2 —^ min, х Е D = = {х е R Проверить эту гипотезу с помощью теоремы 2. Задача 3. То же задание для задачи — 8a?i + 2ж2 + Зжз —)" min, х Е D = {х Е R^_| 2a?i — z2 — жз = 2, Ж1 — Зж2 - жз ^ —4, —7a?i + 2ж3 ^ -
256 Гл. 7. Специальные задачи оптимизации Займемся фундаментальным понятием вершины полиэдра D. Здесь будет удобно считать, что п2 = 0, т. е. прямых ограничений нет (они отнесены к функциональным ограничениям-неравенствам). Тогда, полагая п = rii, можем переписать B) в виде D = {х Е Rn| Агх = Ъъ А2х ^ 62}, G) где А1 = Ац Е R(f, га), А2 = А21 еЩ1, т). Пусть аь г = 1,... ... , га, — строки матрицы А2. Как обычно, для всякой точки х Е Е Rn через /(ж) = {г = 1,. . ., га| (бц, х) = (&2)г} будем обозначать множество номеров активных ограничений-неравенств в этой точке. Следующее определение вполне соответствует интуитивному пред- представлению о вершинах. Определение 1. Точка хЕ D называется вершиной заданного в G) полиэдра D, если строки матрицы А\ и векторы оц, г Е /(ж), образуют в Rn систему ранга п. Если число элементов в этой си™ стеме равно п, то вершина называется невырожденной, а если боль- больше п, то вырожденной. Иными словами, х Е D является вершиной полиэдра D вида G), если х является единственным решением линейной системы Отсюда немедленно вытекает следующий важный факт. Предложение 1. Любой полиэдр имеет не более конечного числа вершин. Теорема 3. Для любых Аг Е R(/, n), A2 E H(m, n), b\ E R1 и Ъ2 Е Rm заданный в G) полиэдр D имеет по крайней мере одну вершину тогда и только тогда, когда D ф 0 и для матрицы i2y справедливо rank Л = п. Более того, если rank Л = га, то для лю- любой точки х Е D существует такая вершина ж, что 1(х) С 1(х). Доказательство. Необходимость очевидна. Для доказательст- доказательства достаточности возьмем произвольную точку х Е D и положим / = /(ж), J = {1,. . ., т} \ I. Если строки матрицы А\ и вектеь ры ttij г Е /, образуют в Rn систему ранга п, то ж является вершиной по определению, и все доказано. Пусть ранг этой системы равен г < га. Тогда найдется вектор h E Rn \ {0} такой, что Агк = 0, (п{, h) = 0 Vz E/. (8) Если предположить, что (сц, /i) = 0 Vi E J, то Ah = 0, что противоречит условию rank Л = га. Поэтому найдется номер i E J
§7.1. Элементы теории линейного программирования 257 такой, что (ац, К) ф 0; без ограничения общности будем считать, что (a,i, h) < 0. Для произвольного числа t ^ 0, положив x(t) = x + th, в силу (8) имеем = А\х + tA\h = 61, <ai, я(*)> = (ai, ж) + Ца{, h) = {b2)i Vi e /. (9) Поэтому x(t) G Z? тогда и только тогда, когда (сц, x(t)) = {аи х) + t(ai5 h) ^ F2)i Vi G J. Положим ti = max t. Легко видеть, что существует номер %\ Е J такой, что (а^, /г) < 0 и 0 < ^ = —^7^— A0) (ср. с задачей 4.1.6; напомним, что Fг)г — («г? х) < 0 У i E J). Положим ж1 = ж(?х), /i = /(ж1); тогда из (9) следует включение /C/i. A1) Из A0) имеем (аг1, х1) = (ah, х) + {b2)il~^X) К, Л> = (&2)u, т.е. г 1 G /i. Если предположить, что при некоторых у ? Ж1 и числах /3^, г G /, то в силу (8) 0 > (ail, h) = (у, A±h) + J]0г(сы, h) = 0, что невозможно. Это значит, что строки матрицы Ai и векторы а^, г G /i, образуют в Rn систему ранга г\ > г. Если Т\ = п, то ж1 является вершиной, и в силу A1) все дока- доказано. В противном случае нужно повторить всю процедуру, заменив точку х на ж1. В результате s -кратного повторения получим такой набор точек ж, ж1, ж2, ...,/ED, что /(ж) С /(ж1) С /(ж2) С... С 1(х% Г < Г\ < Г2 < • • • < Гв, где rjfe — ранг системы строк матрицы /!]_, дополненных вектора- векторами ац, г G 1(хк)^ к = 1,. . ., s. Ясно, что для какого-то номера s выполнится rs = n, а значит, ж = ж5 — вершина, причем /(ж) С С /(ж). ? 9 А.Ф. Измаилов, М.В. Солодов
258 Гл. 7. Специальные задачи оптимизации Если нужно найти все вершины полиэдра D вида G), то можно действовать по следующей схеме. Для каждого (п — I) -элементного множества / С {!,..., т} решаем линейную систему Агх = Ьъ (a,i, х) = F2)i, г ? I. Если решение этой системы существует, единственно и принадле- жит D, то оно является вершиной D. В противном случае перехо- дим к следующему множеству /. Заданное в D) допустимое множество канонической ЗЛП назы- называется каноническим полиэдром (напомним, что в D) Р = R™, А ? ? R(/, п), Ъ ? R1). Для всякой точки х ? Rn положим J(x) = {j = = 1,. . ., n| Xj > 0}. Пусть aJ\ j = 1,. . ., гг, — столбцы матрицы А. Теорема 4. Для любых А ? R(/, п) и b E R1 точка х ? D является вершиной заданного в D) (при Р = R!J: ) канонического по- полиэдра D тогда и только тогда, когда векторы aJ, j ? «/(ж), лп- нейно независимы. Если множество J(x) состоит из I элементов^ то вершина х невырожденная, а если из менее чем I элементов, то вырожденная. Задача 4. Доказать теорему 4. Важнейшее свойство канонических полиэдров содержится в сле- следующей теореме. Теорема 5. Для любых А ? R(/, n) и b G R1 заданный в D) (при Р = R" ) канонический полиэдр D имеет по крайней мере одну вершину. Более того, для любой точки х ? D существует такая вершина х полиэдра D, что J(x) D J(x). Задача 5. Используя теорему 3, доказать теорему 5. Для канонического полиэдра применяется следующая специаль- специальная схема отыскания его вершин. Для каждого множества J С {1,. . . ... ,п} такого, что векторы aJ', j ? J, линейно независимы, решаем линейную систему > а3 х« = Ь. Если эта система имеет решение с компонентами хj ^ 0 Vj E J, то, положив Xj = 0, j ? {1,. . . , п} \ J, получим вершину х = (х\, . . . ... , хп). В противном случае переходим к очередному множеству J.
§7.1. Элементы теории линейного программирования 259 Следующая теорема, справедливость которой вытекает немедлен- немедленно из теорем 2 и 3, важна в плане практического отыскания реше- решений ЗЛП. Геометрическая интуиция подсказывает, что если ЗЛП име- ет решение, то решением обязательно является одна из вершин до- допустимого множества. Учитывая, что число вершин полиэдра конеч- конечно (предложение 1), для отыскания решения достаточно просто пере- перебрать все вершины (например, указанными выше способами), выбрав те, где значение целевой функции максимально; по крайней мере од- одно решение таким образом будет найдено. Теорема 6. Если ЗЛП имеет решение, причем ее допустимое множество имеет по крайней мере одну вершину, то по крайней мере одна из вершин допустимого множества является решением ЗЛИ 7.1.2. Теория двойственности длм линейных задач. Двойственная задача к общей ЗЛП A), B) (где Р = Rni x R) имеет вид {Ъъ Л> + F2, /i) ^max, (A,/i)gD, A2) V = {(А, /х) е V\ Ajt\ + А^ф = сь Aj2X + A^2fi ^ с2}, A3) где V = Ж1 х R/p (см. задачу 6.1.1). Подчеркнем, что указанный вид двойственная задача имеет именно для задачи вида A), B) (т.е. для ЗЛП на минимум и с нужной направленностью знаков ограничений- неравенств). Заметим, что двойственная к ЗЛП сама является ЗЛП. Например, двойственная к канонической ЗЛП C), D) (где Р = = R+) имеет вид F, А) ->> max, AgD, V = {\ eUl\ ATX^ с}; такая задача называется основной ЗЛП на максимум. Если очевид- очевидными преобразованиями привести последнюю к виду A), B) и в со- соответствии с A2), A3) выписать двойственную к ней, то полученная задача будет совпадать с C), D) (для формального совпадения нуж- нужно будет поменять знак у целевой функции полученной задачи, чтобы перейти к задаче на минимум). Аналогичный факт имеет место и для общей ЗЛП. А именно, на классе ЗЛП переход к двойственной задаче есть, как говорят, двойственная операция: ее двукратное применение дает исходную задачу. Напомним, что для нелинейных задач это, во- вообще говоря, неверно: двойственной к любой (даже невыпуклой) за- задаче оптимизации является выпуклая (при соответствующем выборе знака целевой функции) задача (см. теорему 6.1.6). Теорема 7. ЗЛП A), B) и A2), A3) взаимодвойственны: двойственной к A2), A3) является задача A), B) (с точностью до выбора знака целевой функции и знаков ограничений-неравенств).
260 Гл. 7. Специальные задачи оптимизации Задача 6. Доказать теорему 7. Таким образом, множество всех ЗЛП разбивается на пары взаи- взаимодвойственных задач: при необходимости задачу A2), A3) можно считать прямой, а задачу A), B) двойственной. Напомним (см. F.1.8), F.1.9)), что (ci, xi) + (с2, х2) ^ ^ (Ьъ А) + <62, /х) V(*b я2)е?>, V(A,m)gD, A4) и, в частности, где U = inf ((ci, X\) + (с2, ж2)) — значение прямой задачи, a U = (Ж1,ж2)е?> = sup ((^i, А) + F2, /х)) — значение двойственной (здесь важно, что прямая задача является задачей на минимум, иначе знаки не- неравенств были бы направлены в другую сторону). Особое значение имеет случай, когда в A4) реализуется равенство, т.е. для некоторых пар (afi, ~Х2) ? D и (А, ~р) Е D имеет место (съ хг) + (с2, ж2) = (Ъъ А) + (Ь2, /I). A5) Из A4) следует, что при этом (жх, ^2) — решение задачи A), B), а (А, ~р) — решение задачи A2), A3), причем выполнено соотношение двойственности v=W. A6) Лемма 1. Если в условиях теоремы 2 V = В/ х R/J1, а жно- жества D и V заданы в B) и A3) соответственно, то ii/ш произ- произвольных пар (~xi,~X2) ^ D и (Х,~р) Е V равенство A5) имеет место тогда и только тогда, когда выполнено F). Доказательство. Из условий (afi, ж2) € D и (A, /I) G D вы- выводим (сь xi) + (с2, ж2) ^ (ДпА + Л^х/!, жх> + (^2А + Л^2/1, ж2) = = (А, Ацхг + А12х2) + G1, Л21жх + Л22ж2) ^ (А, Ьх> + (~Р, h)- Если выполнено A5), то левая часть равна правой, а значит, про™ межуточные неравенства выполняются как равенства. Легко видеть, что это возможно только при выполнении F). Обратно, если выпол™ нено F), то оба промежуточных неравенства выполняются как равен- равенства, что и дает A5). ? Соотношение F) было получено как условие дополняющей не- нежесткости для прямой задачи. Таким образом, соотношение A5), или, что то же самое, условие дополняющей нежесткости F), являет- является достаточным условием оптимальности допустимых точек (ж"х? ^г)
§7.1. Элементы теории линейного программирования 261 в прямой задаче и (Л, ~р) в двойственной. Чтобы показать, что это условие является и необходимым, заметим, что включение (Л, ~р) Е V в точности совпадает с условием E), дополненным неравенст- неравенством /1^0. Отсюда, из леммы 1 и теоремы 2 вытекает следующий критерий оптимальности в ЗЛП. Теорема 8. Пусть в условиях теоремы 2 V = R1 x R^ и мно- множества D и V заданы в B) и A3) соответственно. Точка ("x\, ~X2) E D является решением задачи A), B) тогда и только тогда, когда существует пара (А, ~р) Е V, удовлетворяющая равенству A5), или, что то же самое, F). При этом (А, ~р) являет- является решением задачи A2), A3). Если принять во внимание теорему 7, становится ясно, что теоре- ма 8 содержит в себе следующие две классические формулировки, ко- которые называют теоремами двойственности для линейных задач. Теорема 9. Прямая ЗЛП имеет решение тогда и только тог- тогда, когда двойственная к ней ЗЛП имеет решение. При этом зна- значения И и U этих задач совпадают, т. е. выполнено соотношение двойственности A6). Теорема 10. В условиях теоремы 8 пары {х\, Ж2) E D и (А, ~р) Е V являются решениями взаимодвойственных задач A), B) и A2), A3) соответственно тогда и только тогда, когда выполнено условие дополняющей нежесткости F). Наконец, из теорем 1 и 9 вытекает следующая теорема существо- существования, позволяющая судить о существовании решения у одной из вза- взаимодвойственных задач по виду допустимого множества другой. Теорема 11. Если допустимые множества взаимодвойствен- взаимодвойственных ЗЛП непусты, то обе они имеют решения. Если шее непусто до- допустимое множество лишь одной из этих задач, то ее значение бес- бесконечно. Как отмечалось в п. 6.1.2, использование перехода к двойственной задаче может приносить непосредственную пользу, если двойственная задача оказывается проще прямой и если нет разрыва двойственно- двойственности. Этот тезис становится особенно наглядным в контексте ЗЛП. Ре- Решив сначала двойственную ЗЛП, можно по ее решению восстановить решения прямой, например с помощью теоремы 10. Задача 7. Используя геометрические построения, высказать ги- гипотезу о решении задачи, двойственной к задаче —7жх — жз + 4^4 —>• min, х Е D = {х Е R/H —х\ + х2 — 2ж3 + ж4 > -6, —2^1 - х2 + ж3 > 1}.
262 Гл. 7. Специальные задачи оптимизации Проверить эту гипотезу и восстановить решение прямой задачи с помощью теоремы 10. Задача 8. То же задание для задачи ж Е D = {ж Е R+1 2a?i — Ж2 — жз + Ж4 ^ 2, —х\ — Зж2 + жз + Ж4 ^ 1}. Задача 9. Найти все решения задачи х\ + Х2 + жз + Х4 —> min, ж G D = {ж G -^ч- Ж1 ^ Z2 ^ 0, a?i + Х2 — жз + Ж4 ^ 1}. Задача 10. Построить задачу, двойственную к так называемой блочной ЗЛП s ^2{cj, Xj) -)> min, (хъ . . ., xs) e D, i 3" s 1 D = < (жь. . . ,жв) Е Р Л^ж^ ^ 6j, j = 1,. . .,5, ^BjZj ^ d > , I i=i J где Cj G Rni, Л G R(mj, %•), 6j G RTOj', В G R(m5 n^), j = 1, . . . ... ,e, deRm, P= ft R+j. i=i Задача 11. Построить задачу, двойственную к так называемой динамической задаче планирования производства j, Xj) -> min, (xi, ...,xa)eD, 1} = {(жь . . . , x8) G P| Aa^j > ж^-.!, j = 1, . . . , s}, где Cj G Rn, j = 1,. . ., s, A ? R(m, n), жо G Rn задано, Р = Задача 12. Решить задачу (с, х) —ь min, ж Е D = {ж Е Р| (а, ж) = 6}, где с, а G Rn, 6 Е R, а > 0, 6 > 0, Р = R^. Задача 13. Решить задачу > min, жЕ1)=<жЕР i=i I i=i где P = R^. г, г = 1,. . ., п > , J
§7.2. Симплекс-метод 263 Задача 14. Множество решений ЗЛП может: а) состоять из одной точки; б) состоять более чем из одной точки, но быть ограниченным; в) быть неограниченным. Привести примеры, показывающие, что для множеств решений взаимодвойственных ЗЛП возможно любое сочетание этих случаев. Задача 15. Доказать, что допустимые множества основной ЗЛП и двойственной к ней не могут быть одновременно непустыми и огра- ограниченными. § 7.2. Симплекс-метод Симплекс-метод (СМ), о котором пойдет речь в этом параграфе, можно назвать основным численным методом решения ЗЛП, хотя это вовсе не означает, что именно его следует всегда выбирать на прак- практике (см. § 7.4). Общепринятое название метода не слишком удачно, поскольку выражает лишь тот факт, что исторически первые задачи, к которым он применялся, имели в качестве допустимого множества стандартный симплекс. СМ вводится для канонической ЗЛП (с, х) —» min, х ? D, A) D = {х е Р\ Ах = 6}, B) где с G Rn, A e R(Z, га), b ? R/, Р = Щ_. Разумеется, это ни- нисколько не ограничивает область применения метода, поскольку, как отмечалось в п. 7.1.1, любую ЗЛП можно свести к канонической. Всюду в этом параграфе используется обозначение J(x) = {j = = 1,. . ., п \ Xj > 0} для множества номеров положительных компо- компонент точки х Е Rn. Через aJ', j = 1, ...,п, обозначаются столбцы матрицы А. 7.2.1. Общая схема симплекс-метода. В предложении 7.1.1 и тео- теоремах 7.1.5 и 7.1.6 обоснован простейший численный метод решения ЗЛП, а именно метод полного перебора вершин допустимого множе- множества (способы такого перебора обсуждались в п. 7.1.1): если зада- задача A), B) имеет решение, то по крайней мере одно решение будет найдено таким методом за конечное число шагов. Теоретически метод полного перебора вершин применим к любой ЗЛП, однако уже при пи/ порядка нескольких десятков реализа- реализация метода требует огромного количества вычислений (см. п. 7.4.2). Таким образом, практической ценности этот метод не имеет; его зна- значение в том, что он естественным образом приводит к основной идее СМ: полный перебор нужно заменить упорядоченным, «разумным»,
264 Гл. 7. Специальные задачи оптимизации в процессе которого заведомо неоптимальные вершины исключались бы из рассмотрения. Напомним, что по теореме 7.1.4 точка ж Е D является вершиной заданного в B) канонического полиэдра D в том и только том слу- случае, когда столбцы aJ, j E J{x), линейно независимы. При этом ес- если число элементов в множестве «/(ж) равно /, то ж — невырожден- невырожденная вершина, а если меньше /, то вырожденная. Заметим, что для любого х Е D п U Л \. Л 7 \. Л 7* Cj? j? JL fJL/ 7 %JU 9&J *Ъ ———— Jr \Ju 9JL/ *Ъ Щ j = t jEJ(x) т. е. вектор правых частей ограничений b линейно выражается через столбцы матрицы Л, отвечающие положительным компонентам до- допустимой точки ж, причем коэффициентами такого выражения явля- являются сами эти положительные компоненты. Определение 1. Базисом вершины ж заданного в B) канони- канонического полиэдра D называется любая система из I линейно неза- независимых столбцов матрицы Л, включающая в себя все столбцы aJ", j е J(x). Иными словами, система В = f aJ, j Е J}, где J С {1,. . ., п}, яв- является базисом вершины ж, если, во-первых, В — базис в R1 (это предполагает, что J состоит из I номеров), а во-вторых, J D J(x). Ясно, что невырожденная вершина имеет единственный базис В = = {flJ, j E «/(ж)}, а вырожденная вершина может иметь несколько базисов либо вовсе не иметь базиса. Наличие у канонического полиэдра вырожденных вершин связано с нетипичной ситуацией, когда вектор Ъ лежит в линейном подпро- подпространстве пространства R/, натянутом менее чем на I столбцов мат- матрицы А. Почти любое малое возмущения b приводит к исчезнове- исчезновению вырожденных вершин. Напомним, что в силу теоремы 7.1.5 непустой канонический поли- полиэдр всегда имеет хотя бы одну вершину. Очевидно, произвольная вер- вершина имеет базис в том и только том случае, когда rank Л = I. Далее считаем это предположение выполненным, чего всегда можно добить- добиться, исключая из системы ограничений-равенств, определяющих ?), «лишние» уравнения. Симплекс-метод представляет собой вычислительную процедуру, которая специальным образом генерирует вершины xk допустимого множества D и их базисы Bk-, к = 0,1,. . ., причем для каждого к в зависимости от знаков определенных параметров делается один из следующих трех выводов: 1) хк — решение задачи A), B); 2) задача A), B) не имеет решений;
§7.2. Симплекс-метод 265 3) существует (конструктивно указываемая) вершина х +1 мно- множества D с базисом Sfc+i, причем либо xk+1 ф хк, (с, xk+1) < (с, xk), C) либо xk+1 = xk, Бк+1фБк. D) Если делается вывод 1) либо 2), то алгоритм, разумеется, останав- останавливают. Если вершина хк невырожденная и делается вывод 3), то всегда обязательно реализуется C). Если же вершина хк вырождена, то может реализовываться и D), однако процедура допускает такую организацию, которая исключает возможность циклического перебо- перебора базисов. При этом рано или поздно реализуется C), т.е. осуществ- осуществляется переход к новой («лучшей», чем текущая) вершине. Теперь- ясно, почему в литературе СМ иногда называют методом последова- последовательного улучшения плана; это название значительно более инфор- информативно. Так как число вершин допустимого множества конечно, и при раз- разрешимости задачи A), B) среди вершин обязательно есть решение, то такой процесс за конечное число шагов приведет либо к выводу 1), либо к 2). Иными словами, если задача A), B) разрешима, то реше- решение будет найдено за конечное число шагов; если же задача A), B) не имеет решения, то этот факт будет установлен, причем также за конечное число шагов. Подчеркнем, что теоретически на пути к решению СМ может «по- «посетить» все вершины допустимого множества, т. е. свестись к полно- полному перебору вершин. Известны искусственно построенные примеры, в которых это явление действительно имеет место. Однако, как по- показывает практический опыт, обычно число итераций СМ находится в пределах от I до 21, и метод позволяет за приемлемое время ре™ шать ЗЛП с размерностями п и I порядка нескольких сотен и даже тысяч. 7.2.2. Жтерацим симплекс-метода. Пусть вершины ж0, ж1,. . ., хк полиэдра D уже получены (о методах поиска начальной верши- вершины см. ниже). Пусть Bk = {aJ', j € Jk} — базис вершины хк, Jk С С {1,. . ., п}. В этом пункте будет описана одна очередная итерация, поэтому для краткости будем опускать индекс к: х = хк, В = В&, Поскольку В — базис в R/, столбцы матрицы А однозначно рас- раскладываются по этой системе векторов: а — у Jji® 5 г — 1,. . ., n, {D)
266 Гл. 7. Специальные задачи оптимизации где числа 7ji? J ^ ^? г = 1, ...,п, называются коэффициентами замещения. Определим так называемые оценки замещения А — — \~^ ' — 1 ffil Заметим, что {1, если j = г, Д^ = О ?г Е J, О, если j e J\ {г}, и для г Е J коэффициенты и оценки замещения интереса не пред- представляют. А вот анализ знаков Д^ и 7ji ПРИ 3 ^ «Л i 0 J как раз и позволяет сделать один из трех выводов, о которых говорилось в п. 7.2.1 (здесь и далее запись г ? J означает, что г Е {1,. . ., n}\J). Теорема 1. Пусть для А Е R(/, п) и Ь Е R1 точка х Е D яв- является вершиной заданного в B) (при Р = М/^ ) полиэдра D^ а Б = = f «J, 3 ^ J} ~ базис этой вершины, J С {1,. . ., п\. Тогда если для вводимых согласно E) и F) оценок замещения справедливо Дг ^ 0 Vi 0 J, G) mo ж ^решение задачи A), B). Доказательство. Рассмотрим основную ЗЛП, являющуюся двойственной к задаче A), B): F, А) -^ max, AGD, (8) D = {A E R1! ЛТА ^ с}. (9) Согласно теореме 7.1.8 достаточно указать такую точку A G D, что (с, х) = (Ь, Л). A0) Так как Б — базис в R1, то существует единственный элемент А Е R', удовлетворяющий линейной системе {а\ A) = Cj, j€J. A1) Для этого А с учетом E)—G) получаем: V г 0 J имеет место <а\ А) = УУ что в совокупности с A1) дает включение Л Е Т). Далее, так как Б — базис вершины ж, то J(x) С J, т.е. Xj = 0 Vj* 0 J. Отсюда, из A1) и включения х Е D получаем п I п \ (с, х) = J^(aJ, X)xj = (^a3xj, Л \ = (Лж, Л) = F, Л), т.е. выполнено A0). П
§7.2. Симплекс-метод 267 Из приведенного доказательства следует, что если выполнено G), то решение двойственной задачи (8), (9) может быть найдено как ре- решение линейной системы A1). Лемма 1. В условиях теоремы 1 для произвольных номера s 0 J и числа t ^ 0 точка x(t) Е Шп с компонентами {Xj - tjjs, если j E J, t, если j = s, A2) О, если j 0 JJ ф s, удовлетворяет равенствам Ax{t) = 6, A3) (c,x(t)) = (c,x) + tA8. A4) Доказательство. В силу E), F) и A2) имеем Ax(t) = ^aJ'^j(t) = ^2aJ(xj ~ *7i (c, a;(t)> = что и дает A3), A4). ? Теорема 2. Пусть выполнены условия теоремы 1. Тогда если для вводимых согласно E) ti F) коэффициентов и оце- оценок замещения существует номер s ? J такой, что As<0, jjs^0 VjeJ, A5) то задача A), B) не имеет решения. Доказательство. Из A4) и A5) для точки x(t), компоненты которой задаются формулой A2), имеем x(t)^0 Vt^O, (с, x(i)) + tAs -^ -оо (t ->> +оо). Вместе с A3) эти два соотношения означают, что U = ^оо. ? Задача 1. Доказать теорему 2 без использования леммы 1, опи- опираясь на теорию двойственности.
268 Гл. 7. Специальные задачи оптимизации Теперь предположим, что существуют номера s ^ J и j E J та- такие, что А, < 0, jjs > 0. A6) Общая идея итерации СМ такова: нужно так изменить базис теку- текущей вершины, чтобы в отвечающей новому базису вершине значение целевой функции задачи было меньше, чем в текущей. Положим t= max t. A7) t^O:x(t)^O Из A2) ясно, что t= mm ^- . A8) jGJ: 7jS>0 Ijs Будем считать, что минимум в последнем равенстве достигается на номере г, т. е. reJ, 7™ > 0, ^- = I A9) "Jrs Введем множество J=(J\{r})U{s}. B0) Теорема 3. Пусть выполнены условия теоремы 1. Тогда если для вводимых согласно E) и F) коэффициентов и оце- оценок замещения существуют номера s ? J и j G J такие, что вы- выполнено A6), mo точка х = x(t), вычисленная по формулам A2), A8), является вершиной полиэдра D, а система Б = {aJ', j G J}, г^е множество J задано в A9), B0), является ее базисом. При этом если t > 0, wo (с, ж) < (с, ж); еслм з#се t = 0, mo x = ж, но В^В. Доказательство. Из A2), A7) и равенства в A9) следует, что х ^ 0 и хг = хг — tjrs = 0. Следовательно, привлекая лемму 1 и B0), получаем: х Е D ш J(x) С J. B1) Кроме того, из E) имеем as = ^ 7js«J = ^2 7^flJ + ^5аГ' jeJ jeJ\{r} причем согласно A9) jrs > 0, поэтому аг = — as ^ V ^ аК B2) 7 ^ Отсюда, из B0) и того, что В — базис в R1, следует, что В — тоже базис в R1. Но тогда согласно B1) и теореме 7.1.4 точка х является вершиной D, а В — ее базисом.
§7.2. Симплекс-метод 269 Последнее утверждение теоремы следует немедленно из A2), A4) и A6). ? Таким образом, новый базис В отличается от старого В лишь тем, что в нем вместо столбца аг присутствует as. Говорят, что столбец аг «выводится из базиса», а столбец as «вводится в базис». Коэффициент замещения jrs иногда называют ведущим элементом. Если х — невырожденная вершина, то J(x) = J, т.е. Xj > О Vj Е J. Но тогда из A8) следует, что t > 0, поэтому на такой ите- итерации СМ обязательно реализуется C), т.е. происходит переход к но- новой, «лучшей» вершине. Если же х — вырожденная вершина, то, возможно, найдется но- номер j ? J такой, что Xj = 0 и jjs > 0. Тогда из A2) и A8) еле™ дует, что t = 0, х = ж, т.е. перехода к новой вершине не произой- произойдет, и результатом итерации будет лишь смена базиса В вершины х на В. Подчеркнем, что это тоже нетривиальная операция, посколь- поскольку для нового базиса пересчитываются коэффициенты и оценки заме- замещения, и, возможно, на следующей итерации поменяется и сама вер- вершина. Однако может возникнуть ситуация, когда итерации СМ све- сведутся к перебору базисов одной вершины, которые, в силу того, что их конечное число, с определенного момента начнут повторяться, т. е. произойдет зацикливание метода. Известны примеры, в которых это явление действительно имеет место. На практике же зацикливание возникает крайне редко. Напомним, что само наличие у допустимого множества задачи вырожденных вершин — «редкая» ситуация, одна™ ко и для вырожденной вершины обычно рано или поздно находится базис, который позволяет перейти к новой вершине. Кроме того, итерацию СМ можно организовать так, чтобы полно™ стью исключить возможность зацикливания. Суть таких реализаций состоит в специальных правилах выбора столбцов для вывода из ба- базиса и для ввода в базис в тех случаях, когда «претендентов» на эти роли несколько. Одним из простейших правил такого рода является так называемое правило Блэнда, согласно которому при выполнении неравенств A6) следует брать наименьшие подходящие s и г: s = min i, r = min _j i^J: A{<0 jeJ: 7j.s>0, Xj/ljs=t (CM. [3]). Таким образом, описана итерация СМ. На следующей итерации процедура повторяется для вершины х и ее базиса В. Для этого сначала необходимо вычислить соответствующие коэффициенты 7ji и оценки А^ замещения, j E J, г = 1,. . ., п, что, в принципе, тре- требует решения соответствующей линейной системы (см. E)). Однако последнего можно избежать, поскольку коэффициенты и оценки за™ мещения на двух последовательных итерациях связаны друг с другом
270 Гл. 7. Специальные задачи оптимизации явными формулами. А именно, используя равенства E), F) и B2), легко убедиться, что Vi = 1,. . ., п ( Iji-ljslnhrs, если j€J\{r}, I Irillrs, если j = 5, Jrs Задача 2. Вывести формулы, связывающие коэффициенты и оценки замещения на двух последовательных итерациях СМ. Задача 3. Решить задачу х е D = {х е R+| 2^1 + Зж2 + 4ж3 = 10, zi + ж2 - ж3 = 4}, методом полного перебора вершин. Задача 4. Из вершины х = @, 1, 3) сделать для задачи —х\ ~~ Х2 ~~ жз —>• min, ж Е D = {ж Е R^ —2a?i + Ж2 + жз = 4, Ж1 — 2^2 + х$ = 1}, одну итерацию СМ. Задача 5. То же задание для задачи —х\ + 2^2 — хз —>- min, ж G D = {х G R+ а?1 — Ж2 + 2жз = 0, х\ + Ж2 + 5жз = 2}, и вершины ж = A, 1, 0). Задача 6. Стартуя из вершины х = A, 0, 1, 0), решить задачу —х\ + Зж2 + 5жз + Ж4 —> min, ж Е D = {ж Е R^_ | Ж1 + 4ж2 + 4жз + х^ = 5, a?i + 7ж2 + 8жз + 2^4 = 9}, с помощью СМ. 3 а д а ч а 7. То же задание для задачи —Ъх\ ~~ Х2 — жз + Ж4 —ь min, ж Е D = {ж Е R. Ж1 — Ж2 + жз = 1, 2ж1 + ж2 + Ж4 = 3}, и вершины ж = @, 0, 1, 3). В заключение обсудим вопрос о поиске начальной вершины, кото™ рая вместе с некоторым ее базисом должна быть указана для нача- начала работы СМ. Иногда сделать это нетрудно. Рассмотрим, например, так называемую стандартную ЗЛП (с, ж) —> min, ж Е D, D = {ж Е Р\ Ах > 6},
§7.2. Симплекс-метод 271 где, напомним, с Е Rn, A Е R(/, n), 6eR', Р = R+, причем будем предполагать, что 6^0. Эта задача сводится к следующей канониче- канонической ЗЛП: (с, х) ->> min, (ж, 2/) E 5, = {z = (ж, Ax - у = 6}, B3) где Р = R™ х R™. Легко видеть, что точка z = @, 6) является вер™ шиной канонического полиэдра D, а стандартный базис пространст- пространства Rm является базисом этой вершины, причем очень удобным. В общем же случае поиск начальной вершины оказывается сравни- сравнимым по трудоемкости с самой процедурой СМ. Рассмотрим один метод построения начальной вершины, называемый методом искусственного базиса, который напрямую использует СМ. Без ограничения общности считаем, что в задаче A), B) 6^0; этого всегда можно добиться, меняя знаки у ограничений-равенств. Введем вспомогательную ЗЛП I ^ ^ (ж, у) е D, B4) где множество D введено в B3). Тогда, как отмечено выше, извест- известна вершина z = @, Ъ) полиэдра D и ее базис. Стартуя из этой вер- вершины, будем решать задачу B3) посредством СМ. Очевидно, целевая функция задачи B4) ограничена снизу (числом 0) на непустом мно- множестве D, поэтому согласно теореме 7.1.1 задача B4) имеет решение. Поэтому СМ остановится в решении z° = (ж0, у0), которое является вершиной полиэдра D. Возможны два случая. Если г/° ф 0, то значение задачи B4) положительно, и допустимое множество D задачи A), B) пусто. Действительно, если предположить, что существует точка х Е D, то z = (ж, 0) G D, причем значение целевой функции задачи B4) в точке z равно нулю. Но это противоречит тому, что z° являет- является решением задачи B4). Если же г/° = 0, то х° — вершина множе- множества D, так как это равносильно тому, что (ж0, 0) — вершина мно- множества D. Метод искусственного базиса можно снабдить процедурой, позво- позволяющей одновременно указывать и базис начальной вершины ж0. Задача 8. Доказать, что если в условиях теоремы 1 вершина х невырожденная, то справедливо утверждение, обратное утверждению этой теоремы: если х является решением задачи A), B), то выпол- выполнено условие G), причем если х — единственное решение, то Д^ > > 0 yi^J. Привести пример, показывающий, что для вырожден- вырожденной вершины такое утверждение может не иметь места.
272 Гл. 7. Специальные задачи оптимизации § 7.3. Методы решения задач квадратичного программирования Основной интерес к ЗКП объясняется теми же причинами, что и интерес к ЗЛП: такие задачи возникают в качестве вспомогатель- вспомогательных при реализации многих численных методов решения более общих задач. Ярким примером являются обсуждавшиеся в § 4.4 и § 5.4 ме- методы последовательного квадратичного программирования, которые, безусловно, относятся к числу наиболее эффективных современных оптимизационных алгоритмов общего назначения. Вместе с тем эф- эффективность таких методов существенно зависит от того, насколько эффективно решаются вспомогательные ЗКП. Как и ЗЛП, выпуклая ЗКП допускает конечные методы решения. Ниже излагается один такой метод, иногда называемый методом осо- особых точек. Подчеркнем, что для выпуклых ЗКП существуют так- также и эффективные бесконечношаговые алгоритмы, например методы внутренней точки (см. § 7.4). Об этих и других методах решения ЗКП см. [48]. Будем рассматривать ЗКП вида /(ж) ->> min, х Е D, A) D = {x eRn| Ax <: 6}, B) где /:R»->R, f{x) = ±(Cx,x) + {c,x), С G R(n, n) — симметрическая положительно определенная матри- ца, с G Rn, A G R(ra, n), b G Rm. Специальный вид ограниче- ограничений не снижает общности, так как любую ЗКП можно свести к задаче с ограничениями такого вида. Кроме того, описываемый ниже метод можно модифицировать так, чтобы он был применим и в случае неот- неотрицательно, но не обязательно положительно определенной матрицы С (о таких модификациях см., например, [33]). Будем предполагать, что D ф 0. Тогда задача A), B) имеет единственное решение, поскольку целевая функция этой задачи силь- сильно выпукла на выпуклом множестве D. 7.3.1. Особые точки. Пусть ац, г = 1,. . ., т, — строки матри- матрицы А. Центральную роль в излагаемом ниже методе играет следую- следующее понятие. Определение 1. Точка х G D называется особой точкой зада- задачи A), B), если существует множество / С {1,. . ., т} такое, что х является решением задачи f(x) —> min, x G Dj, C) DI = {xenn\ (аи x) = ьи i e 1} D) (случаи 1 = 0 и / = {1,..., m} не исключаются).
§7.8. Методы решения задач квадратичного программирования 273 Теорема 1. Для всякой симметрической положительно опреде- определенной матрицы С Е R(n, п) и любых с Е Rn, A ? R(ra, п) и b E Е Rm число особых точек задачи A), B) конечно^ причем решение этой задачи является ее особой точкой. Доказательство. Число задач вида C), D) конечно, причем каждая из них имеет сильно выпуклую целевую функцию, а значит, не более одного решения (решений нет для тех /, для которых Dj = = 0). Это дает конечность числа особых точек. Пусть ~х Е Rn — решение задачи A), B). Очевидно, ~х является локальным решением задачи f(x) —> min, x E D, ~D = {х Е Шп\ (аи х) ^buie /(ж)}, где 1{х) = {г = 1,. . . ,т (с^, ~х) = bi} — множество номеров ак- активных ограничений в точке ~х. Но эта задача выпукла, поэтому ж является ее глобальным решением, а значит, и решением задачи C), D) при / = 1(х). П Из доказанной теоремы вытекает, что для отыскания решения за- задачи A), B) достаточно перебрать все особые точки этой задачи, вы- выбрав ту, где значение целевой функции минимально. Для отыскания всех особых точек задачи A), B) достаточно для каждого множества / С {1,. . ., га}, для которого Dj ф 0, решить задачу C), D) и про™ верить допустимость полученной точки в задаче A), B). Что касается отыскания решений задач вида C), D) (с ограни™ чениями-равенствами), то всякая такая задача может быть многими способами сведена к задаче безусловной минимизации сильно выпук™ лой квадратичной функции. Для этого можно использовать операцию проектирования на множество Dj (см. утверждение е) из задачи 4.1.3), представление точек множества Dj через некоторый базис линейного подпространства {х Е Rn| (ац, х) = 0, г Е /}, а также двойственную релаксацию (подробности см. в [36, 48]). Задача безусловной миними- минимизации сильно выпуклой квадратичной функции решается за конечное число шагов, например, методом сопряженных градиентов (п. 3.3.1) либо методами вычислительной линейной алгебры. Описанный метод полного перебора особых точек находит реше- решение задачи A), B) за конечное число шагов. Однако, как и обсуж- обсуждавшийся в пп. 7.1.1, 7.2.1 метод полного перебора вершин для ЗЛП, метод полного перебора особых точек для ЗКП не имеет практиче- практической ценности: число различных задач вида C), D) равно 2т, и ре™ ализация метода требует огромного количества вычислений уже при небольших п и га. Поэтому, как и при введении еимплеке-метода, возникает идея заменить полный перебор упорядоченным, что и бу- будет сделано ниже.
274 Гл. 7. Специальные задачи оптимизации Задача 1. Решить задачу х е D = {х е Н2| -хг - х2 ^ -4, хг ^ 5, ж2 ^ 3}, методом полного перебора особых точек. Задача 2. То же задание для задачи Oi - IJ + (х2 + IJ ->> min, ж G D = {ж G R2| —xi + ж2 ^ 1, х\ + ж2 ^ 1, ж2 ^ 0}. 7.3.2. Метод особых точек. Метод особых точек генерирует осо™ бые точки хк, к = 0, 1, . . ., задачи A), B), причем так, что значе- значение функции / в каждой последующей точке меньше, чем в преды- предыдущей. Согласно теореме 1, этот процесс не может продолжаться бес- бесконечно и неминуемо прервется в решении задачи A), B) после ко™ нечного числа шагов. Пусть уже получены особые точки ж0, ж1,. . ., хк. Требуется про- проверить, является ли точка хк решением, и если нет, то найти такую особую точку хк+1 задачи A), B), что f(xk+1) < f(xk). E) Это делается в два этапа. Цель первого этапа — найти любую (не обязательно особую) точ- точку хк G Rn такую, что f(xk) < f(xk), xk G D, F) либо установить отсутствие такой точки (последнее будет означать, что хк — решение задачи A), B)). Это построение можно осущест- осуществить многими способами. Например, достаточно сделать из точки хк для задачи A), B) один шаг простейшего метода возможных направ- направлений (см. § 4.2). С учетом линейности ограничений задачи A), B) вместо D.2.5), D.2.6) будем рассматривать упрощенную вспомогательную ЗЛП (f'(xk), d) = (Cxk + с, d) -»• min, d?Dk, G) Dk = {deRn\ {aud) ^0,i&I(xk), -l^dj <l, j = l,...,n}. (8) Пусть dk — решение этой задачи, a v^ = (ff(xk)^ d) — ее значе- значение. Если Vk = 0, то процесс останавливают. Задача 3. Пусть С G R(n, n) —симметрическая неотрицатель- неотрицательно определенная матрица, с G Rn, A G R(ra, n), b G Шт. Показать, что если в точке хк Е D, где множество D введено в B), значение задачи G), (8) равно нулю, то хк — решение зада- чи A), B).
§7.8. Методы решения задач квадратичного программирования 275 Если Vk < 0, то, как следует из лемм 3.1.1, 4.1.3 и утверждения из задачи 4.1.5, вектор dk удовлетворяет условию dk Е Df(xk) П П То[хк)- Поэтому условия F) будут выполнены при хк = хк + adk для любого достаточно малого числа а > 0. Конкретное значе- значение а = аи может выбираться различными способами, скажем, дроблением заданного числа а. > 0 до тех пор, пока не выпол- выполнится F). Представляется разумным брать в качестве а& решение одномерной задачи f(xk + adk) -+ min, a E [0, ак], (9) где — . bi — (cLi, X ) _ /-,гл\ ак = max a = mm —-г—- > 0 A0) ^О k + dkED i = l,...,m: (ai5 dfe) >0 (а», rf ) (см. задачу 4.1.6; имеется в виду, что если (п{^ dk) ^ 0 У i = 1,. . . ... , га, то oik = +оо)« Используя квадратичность функции / и по- положительную определенность С, получаем явную формулу для ре- решения задачи (9): с, На втором этапе (если не произошла остановка на первом) ищется особая точка хк~^г задачи A), B), удовлетворяющая неравенству f(xk+1) ^ f(xk). (И) Для этого строится вспомогательная последовательность точек е, ^, с1, ?,..., г, г, ••• A2) в Rn по следующему правилу. Полагаем ^° = х. Пусть уже получена точка f G D; тогда в ка- качестве ^s берется решение задачи C), D) при / = I(^s). Точка ^s допустима в такой задаче, поэтому /(Г) < /(Г)- A3) Возможны два случая. Если f GD, to ^s — особая точка задачи A), B) по опреде™ лению. В этом случае процесс построения последовательности A2) прерывается: полагаем хк^г = ^s. Если же ^s ^ D , то в качестве ^s+1 берется точка отрезка, соеди- соединяющего ^s и <fs, ближайшая к ^s среди всех точек этого отрезка, допустимых в задаче A), B): Z'+1 = Z' + te(ta-n, A4) ts = max_ t = min _ ——lgtJ J A5)
276 Гл. 7. Специальные задачи оптимизации (последнее равенство легко проверяется; ср. с A0)). При этом из соот- соотношений A3)—A5) и выпуклости функции / имеем Далее, очевидно, что /(^s+1) С /(^s). Кроме того, пусть мини- минимум в правой части A5) достигается на индексе г = is. Тогда г8 0 i ПС) и = к {ais т.е. is G ^(Cs+1)? и? в частности, множество /(Cs+1) содержит по крайней мере на один элемент больше, чем /(?*). Но все эти мно- жества содержатся в {1,..., т}, поэтому при некотором s неминуе™ мо реализуется случай ^s € D, т.е. процесс построения последова- последовательности A2) будет прерван после конечного числа шагов. Для полученной особой точки xk+1 = ^s в силу A3), A6) имеем т.е. выполнено A1). Из неравенства в F) и A1) получаем E). Итера- Итерация метода полностью описана. Как и для симплекс-метода, нужно еще указать способ построения начальной особой точки х°. Для этого достаточно найти произволь- произвольную точку х^1 G D (например, с помощью обсуждавшегося в п. 7.2.2 метода искусственного базиса), а потом воспользоваться рассмотрен- рассмотренным выше алгоритмом второго этапа. В некоторых случаях оказывается полезным применять описан- описанный метод в сочетании с двойственной релаксацией. Согласно резуль- результату задачи 6.1.2 двойственной к A), B) является задача - \ (AC-1Atli, м) " {АС-1 с + Ь, /х) - \ (С^с, с) ->• max, /г е R?, A7) причем, если /л — решение двойственной задачи, то единственное ре- решение прямой дается формулой х = -С^1(с +Лт/1). A8) Таким образом, достаточно решить двойственную ЗКП A7), а за- затем восстановить решение прямой ЗКП A), B) по явной форму- формуле A8). Заметим, что ограничения задачи A7) очень просты, и конст- конструкция метода особых точек для такой ЗКП существенно упрощает- упрощается [36]. В то же время матрица АС~гЛТ, будучи неотрицательно определенной, является положительно определенной лишь при допол- дополнительном условии гапкЛ = тя. С другой стороны, как отмечалось выше, метод особых точек можно распространить и на ЗКП с выпук- выпуклыми, но не обязательно сильно выпуклыми целевыми функциями.
§7.4- Методы внутренней точки 277 Задача 4. Для допустимой точки х = @, 3) задачи (х\ — бJ + х\ —>• min, х ? D = {ж е R2| xi + ж2 ^ 4, Зж1 + 2ж2 ^ 8, -4a?i + х2 ^ 4}, применить алгоритм построения особой точки без увеличения значе- ния целевой функции (второй этап итерации метода особых точек). § 7.4. Методы внутренней точки Методы внутренней точки (МВТ) привлекают большое внимание специалистов с середины 80-х годов прошлого века. Первоначальный энтузиазм был обусловлен главным образом тем, что эти методы об- обладают так называемым свойством полиномиальной трудоемкости, в отличие, скажем, от симплекс-метода (СМ), трудоемкость которо- которого экспоненциальна (см. ниже). Обоснованность этого интереса бы- была подтверждена развитием весьма совершенных алгоритмов внут- внутренней точки, которые оказались на практике не только конкуренто- конкурентоспособными, но и более эффективными, чем СМ, при решении ЗЛП большой размерности (скажем, начиная с размерностей порядка 104). Кроме того, МВТ естественным образом распространяются на нели- нелинейные задачи выпуклого программирования, в частности на выпук- выпуклые ЗКП. В этом параграфе предлагается очень краткое изложение основных идей МВТ; сколько-нибудь полное изложение потребовало бы написания отдельной книги. 7.4.1. Барьеры. В определенной степени МВТ (особенно прямые) могут рассматриваться как реализация идеи использования так назы- называемых барьерных функций, которую и предлагается обсудить в пер- первую очередь. Рассмотрим задачу /(ж) -> min, х Е D, A) х е D = {х е Р\ G{x) ^ 0}, B) где множество Р С Rn, функция /: Р —>- R, и отображение G: Р ^ —>• Rm с компонентами gi(-), г = 1,. . ., га, заданы. Определим мно- множество D0 = {хе Р\ G{x) <0}, C) и будем предполагать, что ° (x) = v > -оо, D) где U = inf /(ж) — значение задачи A), B). xED Идея методов барьерных функций, как и методов штрафных функций, состоит в замене задачи A), B) последовательностью за-
278 Гл. 7. Специальные задачи оптимизации дач, в которых функциональные ограничения отсутствуют (или могут игнорироваться). В данном случае эта идея реализуется за счет добавления к целевой функции слагаемого, которое бесконечно растет при приближении к D \ D0. А именно, функция ф: D° —> R называется барьером (внутрен- (внутренним штрафом) для заданного в B) множества D, если она непре- непрерывна на D0, причем для любой последовательности {хк} Е D0 та- такой, что gi(xk) —} 0 хотя бы для одного г Е {1,. . ., ттг}, выполнено ф(хк) —> +оо (к —} сю). Соответствующее семейство барьерных функций имеет вид (ра:О°^Ж, <ра(х) = f(x) + аф(х), E) где а > 0 — барьерный параметр. Задача A), B) аппроксимируется задачами вида cd (т) —у min т (= D° (fi) Наиболее часто используются логарифмический барьер m ih(r) — — \ ^ ]и( — ^-(т)) т G D0 G) г = 1 и обратный барьер Задачу F) можно считать задачей без функциональных ограни- ограничений в следующем смысле. Ясно, что если просто игнорировать фор- формальные функциональные ограничения (строгие неравенства) в опре- определении Do и решать задачу {ра{х) —>• min, х Е Р, любым подходящим итерационным методом, использующим началь- начальную точку из D0, то при любом а > 0 можно ожидать, что вся траектория метода, как и ее предельные точки, останется в D0. Вме- Вместе с тем решения задачи A), B) обычно лежат в D \ D0, поэтому для обеспечения итоговой аппроксимации решения барьерный пара- параметр о" нужно устремить к нулю. Опишем метод барьерных функций. Алгоритм 1. Для заданного в C) множества D0 фиксируем барьер ф: D° —> R. Выбираем монотонно убывающую последова- последовательность {ак} С R+ \ {0} и полагаем к = 0. 1. Вычисляем хк Е D0 как глобальное решение задачи F) с целе- целевой функцией, задаваемой формулой E) при а = <т^. 2. Увеличиваем номер шага к на 1 и переходим к п. 1. Последовательность {ак} может выбираться не заранее, а адап- адаптивно, в ходе процесса.
§7.4- Методы внутренней точки 279 Теорема 1. Пусть функция /: Р —>> R полунепрерывна сни- снизу на Р, а отображение G: Р —> Жт непрерывно на Р, Р С Rn. Пусть для заданного в C) множества D0 выполнено D), г^е г; = = inf f(x). Тогда если траектория {хк} сгенерирована алгоритмом 1, то f(xk+1)^f(xk), ф(хк+1) > ф(хк) V/e, (9) и если ак —t 0 (& —>¦ оо), wo любая предельная точка последователь- последовательности {хк} является глобальным решением задачи A), B). Доказательство. Для всякого к из E) и определения хк^ имеем f(xk+1) + ак+1ф(хк+1) = V<rk+1(xk+1) ^ < <Р*к+1 (хк) = f(xk) + ak+l1p(xk). A0) С другой стороны, из E) и определения хк имеем Складывая соответственно левые и правые части двух последних формул и группируя слагаемые, приходим к неравенству (ак - ак+1)ф(хк) ^ {ак - ak+1)%jj{xk+1), которое в силу монотонного убывания последовательности {ак} дает второе неравенство в (9). Но тогда, вновь используя A0), получаем f(xk+1) - f(xk) < ак+1(ф(хк) - ф(хк+1)) ^ 0, а это — первое неравенство в (9). Теперь предположим, что ~х — предельная точка последователь- последовательности {хк}, {xki} —> х {j —> оо). Из B), C), включения {хк} С D0 и непрерывности G следует, что ~х Е D. Если f(x) = г;, то все доказано. Пусть f(x) > ~v. Введем число S=\(f(x)-v)>0. (И) Тогда из второго соотношения в D) следует существование такого элемента х Е D0, что f(x) <JJ + S. Последовательность {f(xk)} не™ возрастающая (в силу первого неравенства в (9)) и ограничена снизу (в силу включения {хк} С DQ и второго соотношения в D)), а зна- значит, сходится, причем из полунепрерывности снизу функции / выте- вытекает, что для всякого j где также принято во внимание A1). Поэтому в силу выбора х
280 Гл. 7. Специальные задачи оптимизации Отсюда, из определения xkj, включения JgD°, формулы E) и второго соотношения в (9) следует, что если а^ ^ 0 [к —^ оо), то для любого достаточно большого j 0 ^ (pakj (xki) - ipakj (х) = f(xki) + ак.ф{хк*) - f(x) - ак.ф(х) > что невозможно. П Задача 1. Пусть Р С Rn — выпуклое множество, функция /: Р —$> R и компоненты gi отображения G: Р —>¦ Жт выпуклы и дифференцируемы на Р. Для каждого сг > 0 обозначим через х((г) произвольное решение задачи F) с целевой функцией, задаваемой формулой E), где барьер ф задан в G). Доказать оценку f(x(a)) ^ U + та. Для случая барьера ф, заданного в (8), доказать оценку Для всякого к = 1, 2,. . . в качестве начального приближения для метода решения задачи F) при а = <т& естественно брать точку ж^™1, как и в методе штрафных функций (см. п. 4.3.2). Однако с практиче- практической точки зрения перспектива решать точно (или во всяком случае достаточно точно) бесконечную последовательность вспомогательных задач F) выглядит не слишком реалистично, даже несмотря на то, что вспомогательные задачи существенно проще исходной. Более ра- разумным представляется воспользоваться идеей конечных алгоритмов продолжения по параметру (см. п. 5.3.1), т.е. решать задачу F) для данного значения параметра а = ак приближенно, ограничившись лишь несколькими шагами некоторого эффективного итерационного метода из точки х . Сказанное выражает сущность прямых МВТ. Подчеркнем, что, в отличие от методов продолжения, обсуждав- обсуждавшихся в § 5.3, здесь речь идет не о построении достаточно хороше- хорошего приближения к решению исходной задачи, а об аппроксимации са- самого решения. Это приводит к необходимости бесконечно измельчать «сетку» по мере приближения сг к нулю. В результате возникает схе- схема, которую можно трактовать как обычный итерационный метод и, в частности, говорить о его сходимости и скорости сходимости. 7.4.2. Некоторые замечания о трудоемкости алгоритмов. Под трудоемкостью алгоритма понимается зависимость наибольшего возможного количества вычислений (итераций, арифметических опе- операций, битовых операций), необходимого алгоритму для отыскания точного решения задачи рассматриваемого класса, от размерности задачи. Если эта зависимость оценивается сверху полиномом (пока-
§7.4- Методы внутренней точки 281 зательной функцией), то говорят о полиномиальной (соответствен- (соответственно экспоненциальной) трудоемкости. Подчеркнем, что речь идет об оценках в наихудшем возможном случае, т.е., в терминологии ис- следования операций, о «гарантированном результате». Оказывается, МВТ обладают полиномиальной трудоемкостью. Во- Вообще, эти методы близки по своей природе к типичным алгоритмам нелинейного программирования. Напротив, СМ имеет ярко выражен- выраженную комбинаторную природу, и его трудоемкость экспоненциальна. Не вдаваясь в формальный анализ, ограничимся некоторыми замечания- замечаниями о понятии трудоемкости. Рассмотрим ЗЛП, например, каноническую: (с, х) —> min, х Е D, A2) D = {x еЩ\ Ах = Ь}, A3) где с G Rn, A G R(/, п), Ь G R/ заданы. Количество вычислений обычно оценивают в терминах размера задачи A2), A3); так называ- называют число s = q + п + 1, где q — общее число бит, используемое для представления элемен- элементов с, А и Ъ в предположении о целочисленности этих данных (ра- (рациональные данные можно сводить к целыми числами). Смысл вве- введения числа s состоит в следующем: 2s — очень большое число, превосходящее результат любой арифметической операции с данны- данными задачи. Соответственно 2~s — очень маленькое число, обладаю- обладающее следующими свойствами, которые можно доказать формально. Если х является вершиной полиэдра D, то, во-первых, Xj ? (О, 2^s) V j = 1,. . ., п, а во-вторых, (с, х) — U 0 @, 2^2s), где U = inf (с, х) — значение задачи A2), A3). Напомним, что СМ конечен, т. е. находит точное решение за ко- конечное число шагов. Как будет видно из излагаемого ниже, МВТ этим свойством не обладают: они генерируют приближения, которые аппроксимируют решение «изнутри» допустимого множества, в то время как точное решение обычно находится на «границе». Однако по достаточно хорошему приближению точное решение может быть восстановлено с помощью так называемой процедуры уточнения г), которая для произвольного х G D вычисляет такую вершину х по- полиэдра D, что (с, х) ^ (с, ж), причем не более чем за О(пл) ариф- арифметических операций. Разумеется, эта процедура играет чисто теоре- теоретическую роль и не используется в практических вычислениях; она служит для того, чтобы сделать СМ и МВТ сравнимыми. ) Общепринятый английский термин — Purification procedure.
282 Гл. 7. Специальные задачи оптимизации Таким образом, при выводе оценок трудоемкости МВТ считают, что метод останавливается при выполнении в текущей точке х нера- неравенства (с, х) -v < 2~2\ A4) Когда говорят о полиномиальной трудоемкости МВТ, то имеют в ви- виду следующее: количество вычислений, необходимое методу для до- достижения A4), оценивается сверху полиномом относительно п и s . В силу сказанного выше после достижения A4) процедура уточнения позволяет найти вершину, являющуюся точным решением, и оценка количества вычислений при этом по-прежнему будет полиномиальна. Разумеется, для разных вариантов МВТ получаются разные оценки. Для количества итераций известны оценки порядка O(y/ns), а для количества арифметических операций — порядка О(тг3*5«). В то же время ясно, что количество вершин полиэдра D может экспоненциально зависеть от п (например, параллелепипед в Rn имеет 2п вершин), и, как отмечалось в п. 7.2.1, СМ может посе- посетить все вершины D прежде, чем будет найдено решение. Существу- Существуют примеры, в которых это действительно имеет место, и количество итераций СМ растет экспоненциально с ростом п. Необходимо, однако, подчеркнуть, что хотя благоприятные оцен- оценки трудоемкости весьма желательны, они никоим образом не явля- являются критерием качества практического поведения алгоритма на ра- разумных (а не придуманных искусственно) задачах. (В этой связи об- обращаем внимание на вероятностный анализ трудоемкости СМ [42], в рамках которого уже удается получить полиномиальные оценки.) Нередко методы с лучшими свойствами трудоемкости проигрывают по эффективности теоретически более трудоемким методам. Это одна из причин, по которым вопросы трудоемкости не обсуждаются здесь более детально. Существуют МВТ с полиномиальной трудоемкостью, которые совершенно непрактичны в сравнении с СМ. В то же время удачные МВТ (особенно прямодвойственные) действительно эффек- эффективны, и в настоящее время именно они часто выбираются для реше- решения ЗЛП большой размерности. 7.4.3. Прямые методы внутренней точки для линейных задач. Опишем МВТ для канонической ЗЛП A2), A3), что, напомним, не ограничивает общности. Здесь будет удобно положить Р = {х Е Rn Ах = 6}, а условия неотрицательности переменных рассматривать как функциональные ограничения. Будем предполагать, что задан- заданное в A2) множество D ограничено, причем DQ ф 0, где в данном случае D0 = {х Е Р х > 0}. A5)
§7.4- Методы внутренней точки 283 Пусть, кроме того, rank Л = I, чего, напомним, всегда можно добить- добиться. Определим (прямую) центральную траекторию (ЦТ) как отобра- отображение х: (-^+\{0}) ~* ^°5 сопоставляющее каждому значению а > О барьерного параметра решение задачи F), где п (ра: {х ? Жп\ х > 0} ->> R, <ра(х) = (с, х) -a^ln^. A6) Привлекая утверждение из задачи 1.1.5, а также тот факт, что в сде- сделанных предположениях введенная в A6) функция (ра сильно вы- выпукла на D0, легко видеть, что для всякого а > 0 решение зада- задачи F) существует и единственно, а значит, ЦТ корректно определена. Подчеркнем, что естественно двигаться вдоль ЦТ от а = +оо к а = 0. В связи с этим ЦТ обычно доопределяют при а = +оо следующим образом. Задаче F) с целевой функцией из A6) сопоста- сопоставим задачу п у j In Xj — — (с, х) —>• max, x E D , которая при а > 0 имеет то же решение, что и F). Переходя к пре- пределу при а —>• +оо , получаем задачу п У^1пж^ —> max, x E D0, решение которой и берут в качестве х(+°°)- Заметим, что эта на- начальная точка ЦТ, называемая аналитическим центром заданного в A3) множества D, зависит только от А и 6, но не от с. Заметим также, что для а > 0 точку х(°~) можно рассматривать как аналитический центр пересечения множества D с гиперплос- гиперплоскостью, на которой целевая функция задачи A2), A3) принимает зна- значение (с, х(°")): х(а) является решением задачи \хj —>• max, x E D^, (с, я) = (с, хН>}. Можно показать, что lim х(°") существует и является аналитиче- ским центром множества решений задачи A2), A3). Этот факт здесь не доказывается, поскольку уже теорема 1 убеждает, что движение вдоль ЦТ — вполне разумная стратегия, особенно если будет пред- предложен эффективный способ такого движения, не связанный с много- многократным вычислением точных (или «почти» точных) значений отоб- отображения х-
284 Гл. 7. Специальные задачи оптимизации Опишем базовую схему (прямых) методов внутренней точки. Алгоритм 2. Выбираем число <tq > 0. Для заданного в A5) множества D0 выбираем ж™1 € D0, и полагаем к = 0. 1. Стартуя из точки ж*5, определяем хк € D0 как результат не™ скольких шагов некоторого внутреннего (обычно ньютоновского) ме- метода для задачи F) с целевой функцией, задаваемой формулой A6) при а = ак. 2. Выбираем число dk+i ? @, ®k)- 3. Увеличиваем номер шага к на 1 и переходим к п. 1. Подразумевается, что точка х~г должна быть достаточно близка к х(о"о), а, назначаемое количество шагов внутреннего метода обеспе- обеспечивает близость очередной точки хк к х{ак)- Подчеркнем, что су™ ществуют алгоритмы с полиномиальной трудоемкостью, которые поз- позволяют для любого ctq > 0 аппроксимировать x(ctq) с любой требуе- требуемой точностью. Вообще, алгоритм 2 не является алгоритмом в полном смысле: он представляет собой лишь базовую схему МВТ. Для получения кон™ кретного алгоритма в рамках этой схемы необходимо конкретизиро- конкретизировать ряд важных позиций. Например, большое значение имеет ско- скорость убывания ак с ростом к. Если последовательность барьерных параметров будет убывать медленно, то для каждого к точка х{ак) будет близка к x(ak-i)i и тогда можно надеяться, что небольшое количество шагов внутреннего метода (или даже один шаг) из точ- точки хк~г приведет в точку хк, близость которой к х{°~к) достаточ- достаточна для обеспечения общей сходимости процесса. Ниже будет показа- показано, что это действительно имеет место. Вместе с тем, такая стратегия может потребовать большого количества внешних итераций для того, чтобы сама точка х{°~к) оказалась достаточно близка к решению за- задачи A2), A3). Альтернативой является быстрое уменьшение барьер- барьерного параметра, за что приходится платить увеличением количеством внутренних итераций. В первом случае говорят о методах с корот- коротким шагом г), а во втором — о методах с длинным шагом 2). Ниже обсуждаются именно методы с коротким шагом, которые обладают лучшими оценками трудоемкости. Заметим, однако, что удачные реа- реализации методов с длинным шагом на практике обычно выигрывают в сравнении с методами с коротким шагом. Конкретный МВТ определяется также выбором той или иной параметризации центральной траектории, инициализацией (т. е. выбором сто и способом определения ж), способом управления погрешностью аппроксимации точек центральной траектории (т. е. г) Общепринятый английский термин — Short-step methods. ) Общепринятый английский термин — Long-step methods.
§7-4- Методы внутренней точки 285 количеством шагов внутреннего метода), масштабированием (см. ни- ниже) и правилами изменения всех параметров, участвующих в реали- реализации метода. Кроме того, возможны другие определения централь™ ной траектории в зависимости от того, какой барьер используется. Пусть х G D0 — текущее приближение к решению задачи F). Ньютоновский шаг для этой задачи определим так: следующее при- приближение х G Rn ищется как решение задачи (<p'IT(x),t-x)+l(<p';(x)(?-x),t-x)^min, ?€Р. A7) Если отбросить в задаче F) формальные функциональные ограни- ограничения, т. е. условия положительности переменных, то, с одной сторо- стороны, это итерация условного метода Ньютона с единичным парамет- параметром длины шага (см. п. 4.1.3), а с другой стороны (с учетом линей- линейности ограничений, описывающих множество Р) — итерация метода последовательного квадратичного программирования (см. п. 4.4.1). Всюду далее e = (l,...,l)G Rn, и для заданного х G Rn че- рез X G R(n, n) обозначается диагональная матрица с диаго- диагональю (ж]_,. . ., хп). Введем отображения Л: (R+ \ {0}) xD°4R', А(<7, х) = (АХ2АГ)-1 АХ(Хс - ае), A8) d: (R+ \ {0}) х D0 -> R", d(a, х) = - Х(с - АТХ(а, х)) - е. A9) Задача 2. Пусть для заданных числа а > 0 и х Е D0 точка х Е Rn является решением задачи A7), где функция (ра задана в A6), с G Rn, A e R(l, n), b e R1, Р = {х е Rn| Ax = 6}, а мно- множество D0 задано в A5). Пусть векторы d(cr, х) G Rn и Х(а, х) G G R1 определены в соответствии с A8), A9). Показать, что х = х — Xd(a, ж), причем А(<т, х) является решением задачи Х( (у) min, G R1. Показать, что d(cr, ж) = 0 тогда и только тогда, когда х — реше- решение задачи F). Таким образом, вектор ^d(<j, x) = Х^г(х — х) можно рассматри- рассматривать как масштабированный (матрицей Х^1) ньютоновский шаг для задачи F) из точки х. Как показывается ниже, величина \d(x, a)\ может служить мерой близости х к х(<т). Следующий результат относится скорее не к МВТ, а к основной схеме методов барьерных функций (т. е. к алгоритму 1) применитель- применительно к ЗЛП A2), A3). С другой стороны, он позволяет установить, с ка- какой точностью нужно решать подзадачи МВТ для обеспечения его общей сходимости.
286 Гл. 7. Специальные задачи оптимизации Предложение 1. Пусть с Е Rn, A Е R(/, га), 6 Е R1, Р = = {ж Е Rn Л ж = 6}, а множество D0 задано в A5). Пусть отобра- отображения X и d определяются формулами A8), A9). Тогда, если для заданных числа а > 0 и точки х Е D0 выполне- выполнено \d(a, x)\ < 1, то (с, х) —V ^ (с, х) ~~ F, А(а, х)) ^ а(п х)\) где v = Inf (с, ж). Доказательство. Согласно A9) Х(с- Ат\(а, х)) B0) — е откуда следует, что Х(с — ЛтА(сг, ж)) > 0. Отсюда и из условия х G Е D0 вытекает, что с-ЛтА(а, ж) > 0. B1) Тогда для любого решения а; задачи A2), A3) U = (с, ж") ^ (ЛтА(о-, ж), ж) = (А(сг, ж), Лж) = (А(а, ж), 6), где учтено включение ~х Е D. Тем самым доказано первое неравенств во в B0). Далее, в силу неравенства Коши—Буняковского^Шварца е, -Х(с-. О" — Х{с — ДтА(«т, ж)) — е = \fn\d(a, x)\ < а с другой стороны, е, i , ж)) - е\ = ^ (ж, с - т, ж)) - |е = - ((с, ж) - F, А(<7, ж))) - п, где учтено включение ж Е Р. Объединяя последние два соотноше- соотношения, получаем два последних неравенства в B0). ? Напомним, что рассматриваемая точка ж допустима в прямой за- задаче A2), A3). В то же время в условиях предложения 1 выполне- выполнено B1), а значит, А(а, ж) — допустимая точка двойственной к A2), A3) задачи F, А) -)> max, AgD, B2) = {AERI B3) При этом B0) содержит готовую оценку близости (с, ж) и F, А(сг,ж)),
§7-4- Методы внутренней точки 287 причем разность этих величин стремится к нулю при а —>> 0 (ср. с теоремой 7.1.8). Теперь убедимся, что множество {х Е D° |<i(<x, x)\ < 1} содер- содержится в области квадратичной сходимости описанного ньютоновско- го метода для вспомогательной задачи F). После этого будет показа- показано, как следует изменять барьерный параметр, чтобы на следующем внешнем шаге остаться в области быстрой сходимости для очередной подзадачи. Предложение 2. В условиях предложения 1, если для задан- заданных числа а > 0 и точки х Е D0 выполнено |с?(а, ж)| < 1, то для точки х = х ~~ Xd(cr, x) справедливо х Е D°, |d(cr, x)\ ^ |d(cr, ж)|2. B4) Доказательство. Положим z = Х(с ~~ ЛтЛ(сг, ж))/сг, тогда согласно A9) d(a^ х) = z — е. Из условия |d(cr, x)| < 1 вытекает, что О < Zj < 2 V j = 1,. . ., п. Кроме того, х = х — X(z — е) = 2х — Xz, поэтому Xj = B — Zj)xj > 0 V j = 1,. . ., п. В силу первого утверж- утверждения из задачи 2 х Е Р, а значит, выполнено включение в B4). Далее, Л(<т, ж) является решением задачи 1 ~ т (см. задачу 2), поэтому min, г/ Е R х)\ = -Х(с- х)) - е ^Х(с^. о- х Вспоминая, что ж = 2ж — Xz, имеем - e XX -1, = BХ - = 2z- Zz. Последние два соотношения дают r, x)\2 \2z ^ ^ e|2 = ^ z) - \f = - If а это и есть неравенство в B4). ? - I) = \z - e Этот результат показывает, что если величина |d(<j, x)\ достаточ- достаточно мала, то после ньютоновского шага величина |е/(<т, х)\ будет еще (значительно) меньше. Поэтому, если новое значение 5 барьерного
288 Гл. 7. Специальные задачи оптимизации параметра не слишком отличается от «г, то можно ожидать, что ве- величина \d(a, х)\ также будет мала. Точнее, справедливо следующее Предложение 3. В условиях предложения 1, если для задан- заданных числа а > 0 и точки х Е D0 выполнено \d(cr, х)\ = 5 < 1, то при любом О G @, у/п) для числа а = 1 - B5) ti точки х = ж — Xd(a, x) справедливо 1 V ' Л ^ 1-0/yfr' В частности, если О ^ 8A — 8) / A + E), то \d(a, х)\ ^ 8. Доказательство. Из A9), неравенства в B4), B5) и того фак- факта, что А (а, х) является решением задачи 1х{с-АТу)-е О" ~^ min, i/GR1 (см. задачу 2), имеем \d(a,x)\= ^ X(c - АТХ(а, х)) - е К (с - ЛтА(сг, ж)) — е ((т1 х) г, ж) + е 1 - что и требовалось. П — е _ \d(< \d(*,x)\2 1 - 1 - 0/л/п Итак, если выбрать точку х г достаточно близкой к х(°"о) и аде- адекватно управлять барьерными параметрами crfe, то при каждом к одного шага ньютоновского метода будет достаточно для аппроксима- аппроксимации х[ак)- В частности, всегда можно заставить генерируемые точ™ ки хк быть настолько близкими к центральной траектории, насколь- насколько требуется. Как уже говорилось выше, платой за это является необ- необходимость уменьшать барьерный параметр достаточно медленно (см. формулу B5) в предложении 3). Тем не менее приведенные факты концептуально важны и дают средства для разработки различных практических реализаций метода. Еще раз отметим, что аккуратно сконструированные методы с длинным шагом обычно оказываются предпочтительнее.
§7.4- Методы внутренней точки 289 Важный момент, не отраженный в алгоритме 2, связан с масшта- масштабированием. Близость текущей точки хк^г Е D0 к границе неотри- неотрицательного ортанта может приводить к необходимости делать очень короткие шаги, а также к проблемам с вычислительной устойчиво- устойчивостью, поскольку матрица Хк^г будет близка к врожденной (см. фор- формулы A8), A9)). Эти проблемы снимаются, если масштабировать за- задачу, например, следующим образом. Пространство Rn формаль- формально преобразуем линейным оператором (Хк~1)~1; элемент хк~г при этом переходит в ^^1 = е. Вычисляем —d(akj C^1) как ньютонов- ньютоновский шаг для масштабированной задачи F) при а = сг*. (заметим, что Е!^1 = Еп). Полагаем ^к = (,к^г — d((ikj ?,к^г), после чего об- обращаем масштабирование: хк = Хк^к. Суть этой процедуры состо- состоит в том, чтобы «отодвинуть» текущую точку так далеко от грани- границы R/J., чтобы получить достаточно «пространства для действия». Кроме того, некоторые формулы для барьеров и их производных по- после масштабирования упрощаются. 7.4.4. Прямодвойственные методы внутренней точки для линей- линейных задач. Выпишем даваемую теоремой 7.1.2 систему необходимых и достаточных условий оптимальности для задачи A2), A3), считая все ее ограничения функциональными: ЛТЛ + z = с, Ах = 6, B6) х ^ 0, z ^ 0, (z, x) = 0 B7) относительно (ж, Л, z) E Rn x R1 x Rn; двойственная переменная z отвечает условию неотрицательности переменных прямой задачи. Идея прямодвойственных методов внутренней точки состоит в таком преобразовании приведенной системы, которое позволило бы освобо- освободиться от необходимости иметь дело с негладкой (комбинаторной) природой условия дополняющей нежесткости в B7). Для этого заменим B7) условиями Xj > 0, Zj > 0, XjZj = СГ, j = 1, . . . , П, где а > 0 — параметр (подразумевается, что этот параметр будет стремиться к нулю). Тогда, отбрасывая строгие неравенства, вмес- вместо B6), B7) имеем систему ЛтЛ + ^ = с, Ax = b, XZe = ae. B8) Двойственная задача B2), B3) может быть записана в виде F, Л) -> max, (Л, z) E V, B9) V = {(A, z) Е R1 х Щ\ АТХ + z = с}. C0) Для фиксированного а > 0 рассмотрим вспомогательную задачу (ра{х, z)->min, (z, (A, z)) G D° x P°, C1) 10 А.Ф. Измаилов, М.В. Солодов
290 Гл. 7. Специальные задачи оптимизации где D0 введено в A5) при Р = {ж G Rn| Ах = 6}, V0 = {(A, z) G V\ z > 0}, C2) V = {(A, z) G R1 x Rn| ЛТА + z = c}, C3) ^: {ж G Rn| ж > 0} x {z G Rn| z > 0} ->> R, n ^(ж, z) = (ж, z) - a^ln^Xj). C4) i=i Прямодвойственная центральная траектория определяется как отображение (х(-)? (^(*)? С('))): (^+ \ {0}) ^^°х ^°? сопоставляю™ щее каждому о" > 0 решение задачи C1). Задача 3. Пусть с € Rn5 A G R(Z, п), 6 G R1, F = {ж G Rn | т4ж = 6}, множество D0 задано в A5), а множество D0 — в C2), C3). Показать, что для всякого числа а > 0 решения задачи C1) с целевой функцией, заданной в C4), характеризуются системой уравнений B8). Итерация прямодвойственных методов внутренней точки сос- состоит в следующем. Для текущего сг^ > 0 в текущей точке (xk^ Afc, zk) G Rn x R1 x Rn такой, что xk > 0 и (Afc, zk) G X>°, определяют ньютоновское направление для системы B8). По этому направлению организуют одномерный поиск для функции качества !р: RnxRn-> R, !p(x, z) = (ж, z) + \Ах - Ь|, C5) одновременно обеспечивая выполнение для получаемого следующего приближения (ж^+1, Afc+1, zk+1) неравенств xk+1 > 0 и zk+1 > 0. Заметим, что 0 < {xk, zk) = (с, хк) - F, \к) + {Ь- Ахк, Хк). В частности, если хк € Р (а значит, хк € D0), то ?(**, г*) = (с, хк)-(Ь, Хк). Вообще же стремление (р(хк, zk) к нулю означает, что (с, хк) - F, Хк) -+ 0, {Аж^}^6 (ife^cx)), откуда и из теоремы 7.1.8 следует, что любая предельная точка по- последовательности {(хк, А^)} является прямодвойственным решением задачи A2), A3). Заметим, что, как будет показано ниже, допусти- допустимость точек генерируемой последовательности {ж^} в прямой задаче для данного метода не является автоматической, в отличие от пря- прямых МВТ, и введение в функцию качества (р второго слагаемого как раз и связано с необходимостью решить эту проблему, по крайней ме- мере в пределе.
§7-4- Методы внутренней точки 291 Алгоритм 3. Выбираем число о~® > 0. Для заданного в C2), C3) множества V0 выбираем (ж0, A0, z°) G Rn x R1 х Еп, х° > 0, (A0, z°) Е V0, и полагаем к = 0. 1. Вычисляем (d^, d\, dk) Е Rn x R1 x Rn как ньютоновский шаг для системы B8) из точки (хк, Afe, zk) при а = crfc. 2. Полагаем fVfe + 1 \fe + 1 rfc + 1>l — (тк \к vk\ Л- л/, (Ик Ик Нк\ {х , д , z ) — (х , л , z ) -\- ak{uxJ ад, azj, где параметр длины шага а^ Е @, 1] выбирается так, чтобы выпол- выполнялось г*+1 > 0, zk+1 > 0, ^(a:*+1, zk+1) < ф(хк, zk). 3. Выбираем число dk+i E @, crjfe). 4. Увеличиваем номер шага к на 1 и переходим к п. 1. Как и в случае прямых МВТ, алгоритм 3 обычно снабжают под- подходящими процедурами масштабирования. Вообще, сколько-нибудь полное описание и анализ прямодвойственных МВТ потребовали бы обсуждения массы технических деталей. Ниже приводится лишь на- набросок анализа для описанной базовой схемы. Задача 4. Пусть х Е Rn, х > 0, (A, z) GP°, где множест- множество V0 введено в C2), C3), с Е Rn, A E R(l, n), ЬеТО. Показать, что для заданного числа а > 0 ньютоновский шаг D, d\j dz) ? Rn x R1 x Rn для системы B8) из точки (ж, A, z) задается равенствами dx = (AZ^1XATy1{AZ^1{XZe - <те) + Ь - Ах), dz = -ATdx, C6) dx = Z^(ae - XZe) - Z~xXdz. Показать, что точка х + dx допустима в прямой задаче A2), A3), а точка (А + d\, z + dz) — в двойственной задаче B9), C0). Если в задаче 4 в качестве параметра длины шага берется а Е Е @, 1), то точка х + adx может уже не быть допустима в пря- прямой задаче, хотя, как нетрудно видеть, точка (А + ad\, z + adz) по-прежнему будет допустима в двойственной задаче. Покажем, что определенное согласование значений а и а приводит к уменьшению значения функции качества ф. Предложение 4. Пусть с Е Rn, A E R(/, n), b E R1. Пусть х Е Rn, х > 0, (A, z) ЕР0, где множество Т)° введено в C2), C3), и для заданного числа а > 0 вектор (dx^ d\, dz) E Rn x R1 x х Rn определен как ньютоновский шаг для системы B8) из точ- точки (ж, A, z). ю*
292 Гл. 7. Специальные задачи оптимизации Тогда У а ? @,1] А(х + adx) - 6 = A - а)(Ах - 6), C7) ф(х + ас!ж, z + ocfz) = = ф(х, z) — а((ж, z) — па + |Лж - Ь\) + о2(Дж - 6, d\), C8) gcfe функция <р введена в C5). Доказательство. Ньютоновский шаг для системы B8) из точ- точки (ж, Л, z) определяется равенствами ATdx + dz = 0, Adx = b-Ax, Zdx^Xdz = ae- XZe. C9) Из второго равенства имеем А(х + adx) - b = Ах + a(b - Ах) - Ь = A - а)(Ах - 6), что и дает C7). Далее, (х + adXJ z + adz) = (ж, z) + a((x, dz) + (z, dx)) + а2(с1ж, dz). D0) Умножая левую и правую части последнего равенства в C9) скалярно на е , получаем (ж, dz) + (z, <ix) = (е, ае — XZe) = па — (ж, z). Кроме того, используя C6) и второе равенство в C9), имеем (dx, dz) = -(dx, ATdx) = (Ax - b, dx). Последние два равенства позволяют преобразовать D0) к виду (ж + adx, z + adz) = (ж, z) — а((ж, z) — па) + а2(Ах — 6, d\), откуда и из C5), C7) окончательно получаем (р(х + adxi z + adz) = (ж + adxi z + adz) + \A(x + adx) — b\ = = (ж, z) — а((ж, z) — na) + a2(Ax — 6, d\) + A — а)|Аж — b\, а это и есть C8). ? Как следует из C7), невязка ограничений прямой задачи умень™ шается, как бы ни выбирался параметр длины шага а Е @, 1], если только точка ж сама не является допустимой в задаче A2), A3) (ее™ ли точка ж допустима, то новая точка ж + adx также допустима). Кроме того, как следует из C8), если а < (ж, z)/п, то существует число "а > 0 такое, что любой выбор а Е @, ~ol) приводит к умень- уменьшению значения функции ф. Правильное построение последовательностей {ст^} и {а^} в со- сочетании с масштабированием, а также разумным выбором методов вычислительной линейной алгебры для решения вспомогательных ли- линейных систем, позволяет построить такие прямодвойственные МВТ, которые оказываются чрезвычайно эффективными на практике [48].
§7-4- Методы внутренней точки 293 Задача 5. Рассмотрим задачу /О) ->> min, х е D = {х е Rn| Ax = 6, G(x) ^ 0}, D1) где функция /: Rn —>• R и компоненты g^ отображения G: Rn ^ —>• Rm выпуклы и дважды дифференцируемы на Rn, г = 1,. . ., га, Л G R(l, n), fceR*. Пусть гапкЛ = 1, гапкС/(ж) = ш Уж е D, причем существует точка х Е D такая, что G(x) < 0. Определим прямодвойственную центральную траекторию как отображение (Х(-), Н-), <@): (R+ \ {0}) -»¦ R" х R' х R™, сопоставляющее каждому а > 0 решение системы f(x) + ДТА + {С(х))Тц = 0, Лж = 6, D2) gi(x)<0, fj,i > 0, fJ>igi(x) = <T, i = l,...,m, D3) относительно (ж, A, /i) G Rn x R1 x Rm. Доказать, что следующие утверждения эквивалентны: а) множество решений задачи D1) непусто и ограничено; б) при любом а > 0 система D2), D3) имеет единственное реше- решение и, в частности, прямодвойственная центральная траектория кор- корректно определена; в) система D2), D3) имеет единственное решение хотя бы при од- одном а > 0; г) система f'(x) + АТХ + (G'(x))tli = 0, G(x)<0, ц > 0, имеет решение; д) система f'(x) + АТХ + (G'(x))Tfi = 0, /i>0, имеет решение.
СПИСОК ЛИТЕРАТУРЫ 1. Аоки М. Введение в методы оптимизации. — М.: Наука, 1977. 2. Арутюнов А.В. Условия экстремума. Анормальные и вырожденные задачи. — М.: Факториал, 1997. 3. Ашманов С.А., Тимохов А.В. Теория оптимизации в задачах и упражнениях. — М.: Наука, 1991. 4. Базара М., Шетти К. Нелинейное программирование. Теория и ал- алгоритмы. — М.: Мир, 1982. 5. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. — М.: Наука, 1987. 6. Бертсекас Д. Условная оптимизация и методы множителей Лагран- жа. — М.: Радио и связь, 1987. 7. Васильев Ф.П. Лекции по методам решения экстремальных задач. — М.: Изд-во МГУ, 1974. 8. Васильев Ф.П. Методы оптимизации. — М.: Факториал Пресс, 2002. 9. Васильев Ф.П. Методы решения экстремальных задач. — М.: Наука, 1981. 10. Васильев Ф.П. Численные методы решения экстремальных задач. — М.: Наука, 1988. 11. Васильев Ф.77., Иваницкий А.Ю. Линейное программирование. — М.: Факториал, 1998. 12. Воеводин В.В., Кузнецов Ю.А. Матрицы и вычисления. — М.: Нау- Наука, 1984. 13. Гилл Ф., Мюррей У., Райт М. Практическая оптимизация. — М.: Мир, 1985. 14. Гольштейн Е.Г., Третьяков Н.В. Модифицированные функции Лагранжа. — М.: Наука, 1989. 15. Гроссман К., Каплан А.А. Нелинейное программирование на основе безусловной минимизации. — Новосибирск: Наука, 1981. 16. Деннис Дою., Шнабель Р. Численные методы безусловной оптимиза- оптимизации и решения нелинейных уравнений. — М.: Мир, 1988. 17. Евтушенко Ю.Г. Методы решения экстремальных задач и их при- применение в системах оптимизации. — М.: Наука, 1982. 18. Жшлявский А.А., Жилинскас А.Г. Методы поиска глобального экс- экстремума. — М.: Наука, 1991.
Список литературы 295 19. Зангвилл У.И. Нелинейное программирование. — М.: Сов. радио, 1973. 20. Измаилов А.Ф., Третьяков А.А. Факторанализ нелинейных отобра- отображений. — М.: Наука, 1994. 21. Измаилов А.Ф., Третьяков А.А. 2-регулярные решения нелиней- нелинейных задач. Теория и численные методы. — М.: Физматлит, 1999. 22. Ильин В.А., Садовничий В.А., Сендов Бл.Х, Математический ана- анализ. — М.: Наука, 1979. 23. Карманов В.Г. Математическое программирование. — М.: Физмат- Физматлит, 2000. 24. Кларк Ф. Оптимизация и негладкий анализ. — М.: Наука, 1988. 25. Левитин Е.С. Теория возмущений в математическом программиро- программировании и ее приложения. — М.: Наука, 1992. 26. Мину М. Математическое программирование. Теория и алгорит- алгоритмы. — М.: Наука, 1990. 27. Михалевич B.C., Гупал A.M., Норкин В.И. Методы невыпуклой оптимизации. — М.: Наука, 1987. 28. Моисеев Н.Н., Иванилов Ю.П., Столярова Е.М. Методы оптимиза- оптимизации. — М.: Наука, 1978. 29. Нурминский Е.А. Численные методы выпуклой оптимизации. — М.: Наука, 1991. 30. Ортега Дою., Рейнболдт В. Итерационные методы решения нели- нелинейных систем уравнений со многими неизвестными. — М.: Мир, 1975. 31. Полак Э. Численные методы оптимизации. Единый подход. — М.: Мир, 1974. 32. Поляк Б. Т. Введение в оптимизацию. — М.: Наука, 1983. 33. Пшеничный Б.П., Данилин Ю.М. Численные методы в экстремаль- экстремальных задачах. — М.: Наука, 1975. 34. Рокафеллар Р. Выпуклый анализ. — М.: Мир, 1973. 35. Стронгин Р. Г. Численные методы в многоэкстремальных задачах. — М.: Наука, 1978. 36. Сухарев А.Г., Тимохов А.В., Федоров В.В. Курс методов оптимиза- оптимизации. — М.: Наука, 1986. 37. Фиакко Л., Мак-Кормик Г, Нелинейное программирование. Методы последовательной безусловной минимизации. — М.: Мир, 1972. 38. Химмельблау Д. Прикладное нелинейное программирование. — М.: Мир, 1975. 39. Allgower E.L., Georg К. Numerical continuation methods. An introduc- introduction. — Berlin, Heidelberg: Springer-Verlag, 1990. 40. Bertsekas D.P. Nonlinear programming. — Second Edition. — Belmont: Athena, 1999.
296 Список литературы 41. Bonnans J.F., Gilbert J.Ch., Lemarechal С, Sagastizabal С. Numeri- Numerical optimization. Theoretical and practical aspects. — Berlin: Sprlnger- Verlag, 2003. 42. Borgwardt K.H. The simplex methods. A probabilistic analysis. — Berlin, Heidelberg: Springer-Verlag, 1987. 43. Conn A.R., Gould N.I.M., Toint Ph.L. Trust-region methods. — Philadelphia: SIAM, 2000. 44. Fletcher R. Practical methods of optimization. V. 1. Unconstrained op- optimization. — Chichester, New York, Brisbane, Toronto: John Wiley, 1980. 45. Fletcher R. Practical methods of optimization. V. 2. Constrained op- optimization. — Chichester, New York, Brisbane, Toronto: John Wiley, 1981. 46. Mangasarian O.L. Nonlinear Programming. — Philadelphia: SIAM, 1994. 47. More J.J., Wright S.J. Optimization software guide. — Philadelphia: SIAM, 1993. 48. Nocedal «/., Wright S.J. Numerical optimization. — New York, Berlin, Heidelberg: Springer-Verlag, 2000.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Антиградиент условный 111 Базис вершины полиэдра 264 Барьер 278 — логарифмический 278 — обратный 278 Вектор правых частей ограниче- ограничений 254 — касательный 20 — коэффициентов целевой функ- функции 254 Вершина полиэдра 256 вырожденная 256 невырожденная 256 Выборка 240 График отображения 206 Дифференциал Кларка 151 Задача безусловной оптимизации 14 — выпуклого программирования 234 — квадратичного программиро- программирования 15 — линейного программирования 15 блочная 262 каноническая 254 основная на максимум 259 стандартная 270 — математического программи- программирования 13 — оптимизации 13 выпуклая 54 двойственная 231 прямая 231 Задача планирования производ- производства динамическая 262 — условной оптимизации 14 — экстремальная 14 Зацикливание симплекс-метода 269 Значение задачи оптимизации 14 Итерация метода 49 Конус 18 — касательный 20 — контингентный (Булигана) 20 — критический (критических на- направлений) 44 — острый 23 Коэффициент замещения 266 Матрица ограничений 254 Метод барьерных функций 278 — бесконечношаговый 49 — Бройдена^Флетчера^Голдфар- ба-Шэнно 92 — внутренней точки 283 прямодвойственный 290 с длинным шагом 284 с коротким шагом 284 — возможных направлений 113 — градиентный 69 , конечно разностный аналог 100 , стохастический конечно раз- разностный аналог 102 — Давидона-Флетчера-Пауэлла 91 — дихотомии 58 — доверительной области 199 — Зойтендейка 116 — золотого сечения 60 — искусственного базиса 271
298 Предметный указатель Метод квадратичного штрафа 120, 173 — квазиньютоновский 88 — конечношаговый (конечный) 49 — кусочно линейной аппроксима- аппроксимации 240 — модифицированных функций Лагранжа 128, 183 — мультистарта 55 — Ньютона 82, 86, 118 обобщенный 155, 160 усеченный 84 условный 112 — особых точек 274 — пассивный 48 — перебора на равномерной сетке 56 — покоординатного спуска 101 — последовательного квадратич- квадратичного программирования 137, 138 улучшения плана 265 — последовательный 48 — предиктор-корректор 211 — проекции градиента 103 модифицированный 138 — прямого поиска 100 — скорейшего спуска 69 — случайного поиска 102 покоординатного спуска 102 — сопряженных градиентов 96 направлений 94 — спуска 63, 110 — субградиентный 236 — условного градиента 111 — хорд 84 — штрафных функций 172 Множество выпуклое 15 — допустимое 13 — индексов активных ограниче- ограничений 39 Множитель Лагранжа 30, 41 Направление возможное 109 — убывания 62 Необходимое условие оптималь- оптимальности прямое 21 прямодвойственное 22 Нормы взаимодвойственные 212 Область доверительная 196 Ограничение активное 38 — прямое 14 — функциональное 14 Операция двойственная 259 Оракул 232 Отображение аффинное 15 — градиентное 85 — дифференцируемое по направ- направлению 153 — непрерывное по Липшицу 56 — полугладкое 154 — сепарабельное 231 — сильно полу гладкое 154 — В-дифференцируемое 153 — RD-регулярное 155 — CD-регулярное 155 Оценка замещения 266 Параллелепипед 15 Параметр барьерный 278 — длины шага 63 — проксимальный 243 — штрафа 120 Переменная двойственная 22 — прямая 21 Погрешность метода 56 Поиск одномерный 63 Полиэдр 15 — канонический 258 Порядок метода 49 Последовательность критическая 18 — минимизирующая 50 Правило Армихо 64, 104 — Блэнда 269 — Вулфа 67 — Голдстейна 67 — одномерной минимизации 64, 104 — постоянного параметра 66, 104 Приближение к решению 49 Принцип Лагранжа 29 — Ферма 23 Проекция 18 Производная по направлению 153 Процедура уточнения 281
Предметный указатель 299 Размер задачи 281 Разность разделенная вперед 100 центральная 100 Разрыв двойственности 234 Релаксация двойственная 231 Решение глобальное 13 — квалифицированное 43 — локальное 13 — строгое 14 Сечение золотое 59 Симплекс-метод 264 Система векторов Л -сопряжен- -сопряженная 94 — Каруша-Куна-Таккера 41 — Лагранжа 31 Скорость сходимости 51 арифметическая 52 геометрическая 52 квадратичная 51 линейная 51 сверхлинейная 51 сублинейная 51 Соотношение двойственности 234 слабое 233 Субградиент 229 Субдифференциал 229 Супердифференциал 229 Схема итерационная 49 многошаговая 49 одношаговая 49 Сходимость 49 — глобальная 50 — локальная 50 — к множеству решений 50 — по аргументу 50 — по градиенту 50 — по функции 50 Теорема Вейерштрасса 16 — Денниса-Морэ 88 — Каруша-Куна-Таккера 40 — Люстерника 29 — Моцкина 37 — о малом возмущении невырож- невырожденной матрицы 83 неявной функции 27 среднем 28 существовании неявной функ- функции 27 Теорема об оценке расстояния 28, 156, 187 — Радемахера 151 — Робинсона 187 — Ф. Джона 42 Теоремы двойственности 261 Точка допустимая 13 — золотая (меньшая и большая) 59 — критическая 24 — особая задачи квадратичного программирования 272 — стационарная 21, 24, 30, 41 — экстремальная 14 Траектория метода 49 — центральная 283 прямодвойственная 290 Трудоемкость метода 280 полиномиальная 281 экспоненциальная 281 Условие гладкости Куммера 153 сильное 153 — дополняющей нежесткости 41 — квадратичного роста 72, 77 — квазирегулярности 164 — линейной независимости 41, 175 — линейности 43 — остроты (линейного роста) 239 — отделимости критических по- поверхностей уровня 79 — регулярности 29 Мангасариана^Фромовица 39 ограничений 43 — Слейтера 234 — строгой дополнительности 44 Фаза итерации касательная 226 нормальная 226 Фильтр 226 Функция барьерная 278 — бесконечно растущая (коэрци- (коэрцитивная) 18 — вогнутая 54 — выпуклая 54 — дополнительности 150 — естественной невязки 150 — качества 192
300 Предметный указатель - квадратичная 15 ¦ квазивыпуклая 57 ¦ Лагранжа 29, 40 - модифицированная 127, 182 - обобщенная 42 ¦ непрерывная по Липшицу 56 ¦ оценивающая расстояние 167 - полунепрерывная снизу 17 - еепарабельная 232 - сильно выпуклая 54 - строго выпуклая 57 - строго квазивыпуклая 58 - унимодальная 57 - Фишера-Бурмейстера 150 ¦ штрафная 120, 172, 181 - точная 126 гладкая 131, 189 Функция целевая 13 Центр аналитический 283 Шаг метода 49 Штраф 171, 181 — внутренний 278 — квадратичный 120, 173 — степенной 173 — точный 126, 188 Экстремум 14 Элемент ведущий 269 Эффект Маратоса 220 В-дифференциал 151 Ro -свойство 156 е-субдифференциал 236
A.F. IZMAILOV, M.V. SOLODOV NUMERICAL METHODS OF OPTIMIZATION PHYSICS AND MA THEM A TICS PUBLISHERS «FIZMATLIT» Moscow, 2003, 304 pages About the Authors Izmailov, Alexey F., D. Sc. (Mathematics), Moscow State University, Russian Federation. Solodov, Mikhail V., Ph. D. (Computer Sciences), Institute de Ma™ tematica Рига е Aplicada, Rio de Janeiro, Brazil. The first author is a specialist in theoretical and numerical nonlinear analysis, with extensive interests in optimization. The second author is a researcher in the theoretical and algorithmic issues of optimization and related problems. Book Summary The book is a relatively complete self-contained course on modern computational optimization. That said, it is written from the point of view of a mathematician. The emphasys is on theoretical foundations of optimization algorithms, while the details of practical implementa- implementation and use are mostly left aside. Nevertheless, the authors strived to give more coverage to those approaches to solving optimization problems which have demonstrated themselves to be practically useful. What per™ haps distinguishes this book is the rigor of mathematical presentation: with very few exceptions, all the stated results are proven in full and us- using only the previous material in the book, without leaving any gaps or referring to outside sources. The main subject of the book is a smooth finite-dimensional optimiza- optimization problem, unconstrained or constrained, without any convexity or special-structure assumptions. Nonsmooth problems and problems with limited or insufficient smoothness, though practically very important, are not treated in full detail. The reason for this is that no book can cover
everything, and some choices have always to be made as to which sub- subjects to discuss and which not. Nevertheless, nonsmooth analysis and nonsmooth algorithms could not have been left out completely, having in mind the important place they occupy in modern optimization. In the present book nonsmoothness arises naturally, and in a highly structured manner, as a means of handling smooth constrained optimization prob- problems via Lagrangian relaxation or via equation-based reformulation of the complementarity part of classical optimality conditions. This leads to the consideration of subgradient and bundle methods for nonsmooth con™ vex optimization in the first case, and to generalized nonsmooth Newton methods in the second case. The rest of the book always assumes that the problem is smooth enough and does not require neither the tools of nonsmooth analysis nor of convex analysis. In fact, conscious exclusion of the use of convex analysis from the main stream of the book is one of its distinctive features. Most opti- optimization monographs invoke convexity systematically as it simplifies the structure considerably, and often allows one to "complete" the analysis of convergence of various algorithms and compare them to each other. This is convenient, since it leads to a unified picture. On the other hand, the analysis and comparisons obtained for the convex case are valid only for a rather limited class of optimization problems. Indeed, it is fair to say that most practical (nonlinear) optimization problems are nonconvex, or if convex then nonsmooth. One of the goals of this book was to write a unified course on optimization theory and algorithms without the use of convexity assumptions or convexity tools. For example, the classical primal-dual optimality conditions are obtained directly (via the charac- characterization of the tangent cone and its dual), not using the popular argu- argument of separation of convex sets. Thus the only pre-requisite in the de- development of optimality conditions is the classical implicit function theo- theorem and its direct consequences. The book begins with some basic definitions and existence results, and proceeds to deriving the primal form of optimality conditions using the tangent and contingent cones. Next, the primal-dual form of first-order necessary optimality conditions is discussed, based on the constructive characterization of the tangent cone and its dual. The case of the equal- equality constraints under the linear independence constraint qualification is treated first, followed by mixed equality and inequality constraints under the Mangasarian—Fromovitz constraint qualification. The subject is con- concluded with the second-order necessary and second-order sufficient con- conditions of optimality. The first algorithmic subject concerns methods for one-dimensional minimization. Next, gradient-type algorithms and line- searches are discussed, including global and local convergence proper- properties and rates of convergence. Newton and quasi-Newton methods and discussed next, followed by the conjugate directions methods for the quadratic case. Constrained optimization methods start with the case
of simple constraints, and in particular the gradient projection and fea- feasible descent algorithms. The case of pure equality constraints is con™ sidered next and includes methods for solving the Lagrange optimal- ity system, the (quadratic) penalty and the modified Lagrangian meth- methods. This is followed by a rather complete analysis of the sequential quadratic programming approach for the case of mixed equality and in- inequality constraints. Next, equation-based reformulations of the Karush- Kuhn—Tucker optimality system are considered, together with the gen- generalized nonsmooth Newton methods for solving them. The techniques for the accurate identification of active constraints are also discussed. Penalty and augmented Lagrangian methods for mixed constraints con- conclude this block. The issues of globalization of local Newton-type al- algorithms constitute the next chapter. Lineasearch and trust-region ap- approaches are discussed. Globalized sequential quadratic programming methods are treated separately and in detail. Methods for nonsmooth convex minimization (subgradient, cutting-planes and bundle methods) and methods for linear and quadratic programming conclude the book.
Учебное издание ИЗМАИЛОВ Алексей Феридович СОЛОДОВ Михаил Владимирович ЧИСЛЕННЫЕ МЕТОДЫ ОПТИМИЗАЦИИ Редактор Е.Ю. Ходан Корректор Т.С. Вайсберг Компьютерный набор автора Компьютерная верстка Е.Ю. Морозова Оформление переплета А.Ю. Алехиной ЛР №071930 от 06.07.99. Подписано в печать 28.02.05. Формат 60x90/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 19. Уч.-изд. л. 20,9. Заказ № Издательская фирма «Физико-математическая литература» МАИК «Наука/Интерпериодика» 117997 Москва, Профсоюзная, 90 E-mail: fizmat@maik.ru Отпечатано с готовых диапозитивов в ПФ «Полиграфист» 160001, г. Вологда, ул. Челюскинцев, 3 Тел.: (8172) 72-55-31, 72-61-75, факс (8172) 72-60-72 E-mail: form.pfp@votel.ru http://www.vologda/~pfpv ISBN 5-9221-0045-9 9 785922 100458