Text
                    Nonlinear Programming
Theory and Algorithms
Mokhtar S. Bazaraa
С. М. Shetty
School of Industrial and Systems Engineering
Georgia Institute of Technology
Atlanta, Georgia
John Wiley and Sons
New York Chichester Brisbane Toronto
1979


.Базара, К.Шетти Нелинейное программирование Теория д алгоритмы Перевод с английского Т. Д. Березневой и В. А. Березнева под редакцией Д. Б. Юдина Издательство «Мир»-Москва 1982
ББК 22.143 17 УДК 51.38 + 519.9 Базара М., Шетти К. Б 17 Нелинейное программирование. Теория и алгоритмы: Пер. с англ. — М.: Мир, 1982. 583 с. Относительно простой, но достаточно строгий курс нелинейного программи- программирования. Монография, написанная известными американскими специалистами, поможет подготовить инженеров к совместной с математиками работе по переводу прикладных задач на формальный язык. Для инженеров и математиков-прикладников, специализирующихся в области нелинейного программирования и оптимизации. 20-82, чЛ 1502000000 ББК 22.143 041 @1)-82 Редакция литературы по математическим наукам Copyright © 1979 by John Wiley & Sons, Inc. All rights reserved. Authorized translation from English language edition published by John Wiley & Sons, Inc. © Перевод на русский язык, «Мир», 1982
Предисловие редактора перевода Оптимизационный подход к постановке и решению задач син- синтеза сложных систем является важным резервом повышения ка- качества управления, планирования и проектирования. Выбор це- целей оптимизации и областей изменения управляющих параме- параметров— задача конкретных общественных, экономических и технических наук. Разработка аппарата оптимизации — предмет математического программирования. Общеизвестны рост и достижения линейного программирова- программирования в повышении эффективности экономического моделирования и оптимизации плановых решений. Более скромны успехи ли- линейного программирования в технических приложениях, управ- управлении и проектировании. Совершенствование технологических процессов и качества управления объектами различной природы, так же как и создание экономных и надежных конструкций, тре- требует, как правило, учета нелинейных эффектов. В последние годы все чаще возникает необходимость в использовании нели- нелинейных моделей и для описания экономических процессов. Многие нелинейные задачи оптимизации, встречающиеся в экономике и технике, описываются в естественной постановке выпуклыми или вогнутыми функционалами и выпуклыми обла- областями допустимых значений управляющих параметров. Это определяется как неформальными, так и формальными сообра- соображениями. Так, зависимость показателей эффективности техниче- технических систем от своих аргументов описывается обычно вогнутой функцией. Чем выше технические характеристики системы, тем труднее добиться приращения величины критерия ее эффектив- эффективности. Производственные функции, характеризующие экономи- экономические системы, определяют вогнутую функциональную зависи- зависимость объема выпускаемой продукции от объемов используемых ресурсов. При больших капиталовложениях выпуск продукции на каждый рубль дополнительных вложений увеличивается меньше, чем при малых капиталовложениях. Чем больше объем производства, тем больше средств отвлекается на согласование и организацию взаимодействия между элементами системы.
6 ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА Формальное описание широкого круга ситуаций, в которых функционалы и множества, определяющие нелинейную задачу математического программирования, оказываются выпуклыми, устанавливается содержательным истолкованием теоремы Ка- стена, обобщающей известную теорему Ляпунова. Особое внимание, уделяемое выпуклому программированию, объясняется и тем, что для класса выпуклых задач общего вида и для различных его подклассов можно создать методы, гаран- гарантирующие решение любой задачи класса с заданной точностью за время, растущее относительно медленно с увеличением раз- размерности задач. Для нелинейных задач более широких классов таких гарантий дать нельзя. Предлагаемый вниманию читателя перевод представляет со- собой относительно элементарный и в то же время достаточно строгий и систематический курс нелинейной оптимизации. Этот курс выгодно отличается от опубликованных в последнее время монографий по различным аспектам теории и методов оптимиза- оптимизации своей практической ориентацией — он адресуется инженеру, ответственному за постановку практических задач. В своем пре- предисловии авторы подробно характеризуют содержание книги, поэтому отметим лишь некоторые методические особенности из- изложения. Применение введенных в монографии понятий и мето- методов иллюстрируется графическими и численными примерами. Кроме того, в каждой главе содержится большое количество упражнений различной степени трудности. Часть из них непо- непосредственно связана с излагаемым материалом, другие расши- расширяют круг вопросов, рассматриваемых в основном тексте. Имеются достаточно трудные задачи, рассчитанные на подготов- подготовленного читателя. В методическом отношении полезны приводи- приводимые в конце каждой главы замечания, библиографические справки, обобщения и прикладные и теоретические проблемы, связанные с излагаемым в соответствующей главе материалом. Все это способствует активному усвоению книги. Следует отме- отметить, что работам советских специалистов по математическому программированию в книге достаточного внимания не уделено. Для удобства читателей мы сочли возможным привести допол- дополнительный библиографический список, содержащий работы со- советских математиков по затронутым в книге вопросам, а также некоторые библиографические комментарии. Книга М. Базара и К. М. Шетти заинтересует многочислен- многочисленных специалистов-практиков в области исследования операций, управления, планирования и проектирования, а также будет по- полезна студентам соответствующих специальностей. Д. Б. Юдин
Посвящается нашим родителям Предисловие Математическое программирование имеет дело с задачей опти- оптимизации значений некоторой целевой функции при ограничениях типа равенств и неравенств. Задача, в которой все фигурирую- фигурирующие при ее описании функции линейны, называется задачей линейного программирования. В противном случае имеет место задача нелинейного программирования. Разработка симплекс- метода и появление быстродействующих вычислительных машин сделали линейное программирование важным инструментом ре- решения многих проблем, возникающих в самых различных обла- областях. Однако большинство реальных задач не может быть адекватно описано с помощью моделей линейного программи- программирования из-за нелинейности целевой функции или некоторых ограничений. В последние два десятилетия значительного про- прогресса достигли исследования нелинейных задач. Настоящая книга представляет собой достаточно полное изложение этих достижений. Книга разделена на три основные части: выпуклый анализ; условия оптимальности и двойственности; вычислительные ме- методы. Конечной целью при изучении оптимизационных задач является построение эффективных вычислительных схем для ре- решения практических задач. Выпуклый анализ, включающий в себя теории выпуклых множеств и выпуклых функций, играет важную роль при изучении области определения задач оптими- оптимизации. Условия оптимальности и теория двойственности могут использоваться как для получения критериев, отличающих оп- оптимальное решение, так и для обоснования вычислительных методов. При подготовке монографии особое внимание уделялось пол- полноте и замкнутости изложения, дающим возможность использо* вать ее также в качестве учебного пособия либо справочника. Чтобы облегчить усвоение вводимых понятий и методов, в каж^- Дой главе приводятся детально разобранные примеры и иллк^ страции. Кроме того, каждая глава содержит упражнения. Они включают в себя A) простые числовые задачи, предна2- значенные для закрепления обсуждаемых вопросов; B) за- задачи, дополняющие изложенный в главе основной материал;
8 ПРЕДИСЛОВИЕ C) теоретические упражнения для более подготовленных чита- читателей. Каждая глава завершается библиографическими сведе- сведениями и комментариями, которые будут полезны читателю при более глубоком изучении предмета. В конце книги приводится об- обширная библиография по математическому программированию. Первая глава содержит примеры задач из разных областей инженерных дисциплин, которые могут быть формально сведены к задачам математического программирования. В частности, об- обсуждаются модели математического программирования, к кото- которым сводятся задачи дискретного и непрерывного оптимального управления. Изложение иллюстрируется примерами управления производством и запасами. Рассматривается также пример, свя- связанный со строительством шоссейных дорог. Приводятся при- примеры проектирования конструкций в строительной механике и машиностроении. Устойчивые состояния электрической цепи ин- интерпретируются как оптимальные решения задачи квадратич- квадратичного программирования. Исследуются нелинейные задачи, воз- возникающие при управлении водными ресурсами. Наконец, обсуж- обсуждаются нелинейные модели, возникающие в стохастическом программировании. Остальные главы книги разделены на три части. Первая часть, содержащая гл. 2 и 3, посвящена анализу выпуклых множеств и выпуклых функций. Во второй главе обсуждаются то- топологические свойства выпуклых множеств, понятия опорной и разделяющей гиперплоскостей, многогранные множества и их свойства. Кроме того, здесь приводится краткий очерк линейного программирования. В третьей главе рассмотрены свойства вы- выпуклых функций, и в частности субдифференцируемость и усло- условия существования минимума и максимума на выпуклом мно- множестве. Здесь же описываются обобщения понятия выпуклой функции и исследуется их взаимосвязь. Алгоритмы нелинейного программирования, построенные для выпуклых функций, могут быть использованы для решения задач более широкого класса, содержащих псевдовыпуклые и квазивыпуклые функции. Вторая часть (гл. 4—6) посвящена условиям оптимальности и теории двойственности. В гл. 4 рассматриваются классиче- классические условия оптимальности Ф. Джона и Куна — Таккера как для задач с ограничениями-равенствами, так и для задач с ог- ограничениями-неравенствами. В гл. 5 изучаются различные типы условий регулярности. В гл. 6 с помощью функции Лагранжа вводится понятие двойственности и исследуются условия опти- оптимальности, связанные с седловыми точками. Обсуждаются тео- теоремы двойственности, свойства двойственных функций и методы решения двойственных задач. Существуют также и другие опре- определения двойственности. Наиболее обнадеживающим с точки зрения создания алгоритмов решения нелинейных задач пред:-
ПРЕДИСЛОВИЕ 9 ставляется определение двойственности по Лагранжу. Резуль- Результаты, которые могут быть получены при разных подходах к двойственности, оказываются сравнимыми. Поэтому, а также в силу ограниченности объема монографии мы предпочли об- обсуждать в книге двойственность по Лагранжу, а остальные под- подходы ввели только в упражнениях. В третьей части, содержащей гл. 7—И, обсуждаются алго- алгоритмы условной и безусловной оптимизации решения задач нелинейного программирования. Глава 7 имеет дело исключи- исключительно с теоремами сходимости. При этом алгоритмы рассма- рассматриваются как точечно-множественные отображения. Эти тео- теоремы используются для доказательства сходимости методов, изложенных в последующих главах книги. Приведено также краткое описание критериев, которые могут быть использованы для оценки качества алгоритмов. Глава 8 посвящена безуслов- безусловной оптимизации. Здесь обсуждаются различные методы одно- одномерного поиска и методы минимизации функции нескольких переменных. Отдельно излагаются методы, использующие и не использующие производные. Рассмотрены методы, основанные на понятии сопряженности векторов. В гл. 8—11 доказана схо- сходимость всех описанных методов. Из-за ограниченности места вопросы, связанные с порядком сходимости, кратко рассмотрен- рассмотренные в гл. 7, более не обсуждаются. В гл. 9 приводятся методы барьерных и штрафных функций для нелинейного программи- программирования. При использовании этих методов задача сводится к последовательности задач безусловной оптимизации. В десятой главе рассмотрены методы возможных направлений, заключаю- заключающиеся в том, что сначала ищется некоторое направление спуска из допустимой точки, и затем новая допустимая точка находится минимизацией целевой функции вдоль этого направления. Об- Обсуждается оригинальный метод, предложенный Зойтендейком и модифицированный затем для обеспечения сходимости Топки- сом и Вейноттом. В гл. 10 представлены также такие разновид- разновидности метода возможных направлений, как метод проекции гра- градиента Розена, метод приведенного градиента Вулфа и выпук- выпуклый симплексный метод Зангвилла. В гл. 11 рассматриваются специальные задачи с линейными ограничениями, которые мо- могут быть решены при помощи несильно модифицированного симплекс-метода. В частности, здесь приводятся задачи квадра- квадратичного, сепарабельного и дробно-линейного программирова- программирования. Для решения задач квадратичного программирования ис- используется описанный в этой главе алгоритм дополнительного ведущего преобразования, принадлежащий Лемке. Предлагаемую вниманию читателя книгу можно использо- использовать и как справочник по нелинейному программированию, и как руководство для занимающихся исследованием операций,
ПРЕДИСЛОВИЕ управлением, прикладной математикой и инженерными дисцип- дисциплинами, связанными с численными методами оптимизации. Ма- Материал книги требует некоторой математической зрелости и зна- знания линейной алгебры и методов вычислений. Для удобства читателей в приложении А собраны основные математические определения и утверждения, часто используемые в книге. Книга может быть использована для подготовки курса «Основы оптимизации» или «Вычислительные методы нелиней- нелинейного программирования» по указанным ниже схемам. По ма- материалам книг можно также построить двухсеместровый курс, охватывающий обе темы. 1. Основы оптимизации Этот курс предназначается для студентов, специализирую- специализирующихся по прикладной математике, или для аспирантов факуль- факультетов, где прикладная математика не является профилирующей дисциплиной. Предполагаемое содержание курса схематически приведено ниже. Курс может быть прочитан за один семестр. Главу 5 об условиях регулярности можно опустить, не нарушая непрерывности изложения. Кроме того, те, кто знаком с линей- линейным программированием, могут пропустить § 2.6. Глава 2 Глава 3 Глава 4 У* Глава 5 S ч Глава 6 2. Вычислительные методы нелинейного программирования Этот курс предназначен для студентов и аспирантов, инте- интересующихся алгоритмами решения задач нелинейного програм- программирования. Схема курса приведена ниже. Он может быть прочитан за один семестр. Лица, заинтересованные главным образом в приложениях, могут опустить гл. 7 и обсуждение сходимости, проводимое в гл. 8—11. Минимальные сведения из выпуклого анализа и условий оптимальности, необходимые для изучения гл. 8—11, собраны для удобства в приложении В. Первая глава, содержащая много примеров качественных задач, которые могут быть формально описаны задачами нелинейного программирования, будет хо- хорошим введением к этому курсу. Однако если ее опустить, то непрерывность изложения не нарушится. Глава 1 Глава 7 * 7 Приложе- Приложение В t Глава Глава 9 Глава 10 Глава \\
ПРЕДИСЛОВИЕ И Авторы благодарят доктора Роберта Н. Лехрера (Robert N. Lehrer, Director of the School of Industrial and Systems Engi- Engineering) из Технологического - института (шт. Джорджия) за поддержку при подготовке монографии. Авторы активно обсуж- обсуждали различные вопросы с доктором Дж. Дж. Гудом (Jamie J. Goode of the School of Mathematics) из Технологического ин- института (шт. Джорджия). Ему принадлежит пример 7.3.3 замк- замкнутости сложных отображений. Авторы глубоко признательны ему за дружбу и сотрудничество. Наконец, авторы благодарят г-жу Кэролин Пиерсма, г-жу Джоан Оуэн и г-жу Кай Уоткинс за успешную расшифровку и перепечатку черновиков моно- монографии, которые иногда выглядели так, будто бы они были на- написаны по-арабски или на языке хинди. Атланта, Джорджия М. Базара, /(. Шетти 1 января 1979 г.
1 Введение Инженеры и специалисты по исследованию операций часто стал- сталкиваются с необходимостью решения оптимизационных задач. На практике встречаются разнообразные в содержательном смысле задачи оптимизации. Это могут быть задачи проектиро- проектирования, задачи распределения ограниченных ресурсов, задачи расчета траектории полета ракеты и т. п. В недалеком прошлом в задачах такого рода вполне приемлемыми считались решения из довольно широкой области. В инженерном проектировании, например, обычно задавался большой коэффициент надежности. Однако с развитием производства все больше ужесточаются требования, предъявляемые к приемлемому проекту. В других областях деятельности, таких, как проектирование космических кораблей, условия функционирования проектируемых систем предъявляют экстремальные требования к характеристикам проекта. Таким образом, существует очевидная потребность в решении следующих важных вопросов. Каково наиболее эффек- эффективное использование имеющихся ресурсов? Можно ли получить более экономный в том или ином смысле проект? В каких пре- пределах можно считать риск допустимым? Важность и актуаль- актуальность этих проблем вызвали в последние три десятилетия ин- интенсивные разработки моделей и методов оптимизации. Этому способствовало также увеличение количества и быстродействия вычислительных машин. С другой стороны, развитие моделей и методов оптимизации стимулировалось значительным увеличением размерности и сложности оптимизационных задач, вызванным существенным технологическим подъемом после второй мировой войны. Инже- Инженеры и руководители производства оказались вынужденными учитывать все существенные факторы и их взаимосвязи, влияю- влияющие на качество принимаемых решений. Некоторые из этих связей не всегда даже могли быть поняты и нуждались, таким образом, в дополнительном анализе и проверяемых гипотезах. Успехи в методах измерений и статистических методах про- проверки гипотез существенно помогли в установлении взаи- взаимодействия между различными компонентами исследуемых систем.
14 ГЛ. 1. ВВЕДЕНИЕ В настоящее время методы исследования операций довольно широко применяются инженерами, экономистами, специали- специалистами, ответственными за принятие решений в военной, куль- культурной, административной и других областях. Это объясняется, по-видимому, уже накопленным положительным опытом прак- практического использования моделей и методов оптимизации. На раннем послевоенном этапе применения исследования операций в планировании и управлении производством, как правило, ис- использовались методы линейного программирования и статисти- статистического анализа. Теперь хорошо известны эффективные методы и машинные программы для решения такого рода задач. В этой книге рассматриваются нелинейные задачи, устанавливаются важнейшие свойства их оптимальных решений и обсуждаются различные вычислительные методы нелинейного программиро- программирования. В настоящей главе приводится постановка общей задачи не- нелинейного программирования, а также рассматриваются некото- некоторые простые практические задачи, описываемые моделями нели- нелинейного программирования. Авторы стремились в этой главе прежде всего показать читателю многочисленные источники прикладных задач нелинейного программирования, не утруждая его глубоким исследованием каждой конкретной задачи. 1.1. Постановка задачи и основное определения Общая задача нелинейного программирования имеет вид минимизировать f (x) при условиях ?* XGl Здесь f, g\, ..., gm, hu ..., hi — определенные на Еп функции, X — множество из Еп, х— вектор с компонентами х\, ..., хп. Задача заключается в нахождении переменных х\, ••-, хп, удов- удовлетворяющих ограничениям и отвечающих при этом минималь- минимальному значению функции f(x). Функцию f обычно называют целевой функцией, или крите- критерием оптимальности. Каждое условие g*(x)^0, / = l, ..., т, называют ограничением-неравенством или ограничением в фор- ме неравенства, а условие вида й/(х) = 0, 1= 1, ..., /, — огра- ограничением-равенством или ограничением в форме равенства. Век- Вектор х е X, удовлетворяющий всем ограничениям, называют до- допустимым решением, или допустимой точкой. Совокупность всех допустимых точек образует допустимую область. Таким обра-
1.1. ПОСТАНОВКА ЗАДАЧИ И ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ 15 зом, задача нелинейного программирования заключается в на- нахождении такой допустимой точки х. для которой /(х)^/(х) при всех допустимых решениях_х. Точка х называется оптималь- оптимальным решением или просто решением задачи. Ясно, что задача нелинейного программирования может быть сформулирована как задача максимизации /(х), а ограничения- неравенства записаны в виде g/(x)^0, ?—1, ..., пг. В спе- специальном случае, когда целевая функция f(x) линейна и все ограничения, включая соотношения, описывающие множество X, могут быть представлены в виде линейных равенств и/или не- неравенств, сформулированная выше задача называется задачей линейного программирования. В качестве примера рассмотрим следующую задачу: минимизировать {хх — ЗJ + (х2 — 2J при условиях х\— х2 — 3^0, Целевая функция и три функции ограничений имеют вид На рис. 1.1 изображена допустимая область. Задача заклю- заключается в нахождении такой точки из допустимой области, для которой (х\ — 3J + (х2 — 2J имеет наименьшее возможное зна- значение. Заметим, что точки (xi,x2), удовлетворяющие равенству (х\ — 3J + (х2 — 2J = с, лежат на окружности радиуса Vе с центром в точке C, 2). Для каждого неотрицательного с та- такая окружность называется линией уровня целевой функции, от- отвечающей заданному значению с. Таким образом, задача заклю- заключается в нахождении минимального с, при котором хотя бы одна точка окружности принадлежит допустимой области. Ины- Иными словами, нужно найти окружность наименьшего радиуса, которая пересекала бы допустимую область. Как видно из рис. 1.1, такая окружность наименьшего радиуса соответствует с = 2 и пересекает допустимую область в единственной точке B,^1). Поэтому B, 1) — оптимальное решение, и значение целе- целевой функции в этой точке равно 2. Использованный выше подход состоит в нахождении опти- оптимального решения с помощью построения линии уровня целе- целевой функции, отвечающей наименьшему значению, при котором
16 ГЛ. I. ВВЕДЕНИЕ Рис. 1.1. Геометрический способ решения задачи нелинейного программиро- программирования. / — линии уровня функции; 2 — оптимальная точка; 3 — допустимая область. она пересекает допустимую область. Очевидно, что такой гео- геометрический способ решения подходит для очень простых задач и практически неприменим в задачах, где число переменных больше двух. Обозначения В книге приняты следующие обозначения. Векторы записы- записываются малыми буквами латинского алфавита, набранными жирным шрифтом, например х, у, z. Если специально не огово- оговорено, то все векторы представляют собой векторы-столбцы. Век- Вектор-строка получается транспонированием вектора-столбца. Так, \т представляет собой вектор-строку (х\, ..., хп). Совокупность всех векторов размерности п образует /2-мерное евклидово про- пространство, которое обозначается через Еп. Матрицы записывают- записываются заглавными латинскими буквами, набранными жирным шрифтом, например А и В. Скалярные функции обозначаются малыми латинскими или греческими буквами, такими, как /, g и 0. Вектор-функции обозначаются теми же буквами, но на- набранными жирным шрифтом, например g и ф. Скаляры обозна- обозначаются малыми латинскими и греческими буквами (гД, а и т. п. 1.2. Примеры В этом параграфе обсуждаются несколько задач, которые мо- могут быть формально представлены в виде моделей нелинейного программирования. В частности, рассматриваются задачи опти- оптимизации, возникающие в следующих областях;
t.2. ПРИМЕРЫ 17 A. Оптимальное управление. B. Проектирование строительных конструкций. C. Проектирование механических конструкций. D. Электрические цепи. E. Управление водными ресурсами. F. Распределение ресурсов в условиях неполной информации. G. Размещение оборудования. А. Задачи оптимального управления Как будет показано ниже, задачу оптимального управления с дискретным временем можно сформулировать как задачу нели- нелинейного программирования. Кроме того, задачу оптимального управления с непрерывным временем можно аппроксимировать задачей нелинейного программирования. Таким образом, мето- методы, обсуждаемые в дальнейшем в книге, могут быть использо- использованы для решения задач оптимального управления. Задача оптимального управления с дискретным временем Рассмотрим задачу оптимального управления с дискретным временем продолжительности К периодов. К началу k-то пе- периода система описывается вектором состояния yk-\ (вектором фазовых переменных). Вектор управления и* изменяет к концу 6-го периода состояние системы от g^-i до ун в соответствии с формулой + ( ) Применяя последовательность управлений ui, ..., U/c, полу- получаем при начальном состоянии уо последовательность состояний Уь •.., У/с, называемую траекторией. Этот процесс изображен на рис. 1.2. Последовательности управлений щ9 ..., и* и векторов со- состояний уо, уь ..., у/с называют возможными или допустимы- допустимыми, если они удовлетворяют следующим ограничениям: у*е=Гб, 6=1, ..., /С, иЛе=?/ь Л=1, ..., К, ..., У/с, «ь ¦-. Здесь Уь ..., У/с, Uu ..•» Uк — заданные множества, ф — из* вестная вектор-функция, обычно называемая функцией ограни- ограничений на траекторию. Среди всех допустимых управлений и траекторий выберем управление и соответствующую ему траек- траекторию, которые оптимизируют некоторую целевую функцию.
18 ГЛ. 1. ВВЕДЕНИЕ Уо 1 * 2 У? У*-1 k У/с Рис. 1.2. Построение траектории в задаче оптимального управления с дис- дискретным временем. Таким образом, задача оптимального управления с дискретным временем формулируется в виде минимизировать при условиях о(Уо, Уь ..., У/с, иь ..., ик) У* = У*-1 + Фл(у*-ь Щ), k=l, ..., /С, Yk^Yk, k=l, ..., /С, f (Уо, Уь ..., У/о иь .-¦> vlk)^D. Если обозначить через х вектор с компонентами уь ..., у^, Ui, ..., ик и подобрать соответствующие вектор-функции g, h и множество X, то сформулированную выше задачу можно пе- переписать в виде определенной в § 1.1 задачи нелинейного про- программирования. Пример планирования производства и запасов. Проиллю- Проиллюстрируем постановку задачи оптимального управления с ди- дискретным временем на следующем примере. Предположим, что некоторая компания производит определенный продукт, спрос на который известен. Спрос на продукт в любой период времени •может удовлетворяться как за счет продукции, хранимой на складе к началу этого периода, так и за счет произведенной в течение этого же периода продукции. Количество продукции, производимое в каждом периоде времени, ограничено имеющи- имеющимися производственными мощностями. Трудовые ресурсы не ограничены. Чтобы обеспечить бесперебойную работу, произ- производственный план должен быть составлен на несколько (напри- (например, К) периодов времени. Задача заключается в составлении плана производства на К периодов, гарантирующего удовлетворение спроса на продук- продукцию в каждом периоде при минимальных суммарных затратах. Пусть Lk — число рабочих, используемое в производстве в k-м периоде. Тогда и* = Lk — Lk-\ — изменение потребности в ра- рабочей силе при переходе от (k— 1)-го к&-му периоду. Обозначим через Ik запасы продукции в k-u периоде. Предполагается, что затраты определяются нестабильностью в требуемой рабочей силе — значениями иь для А = 1, ..., К — и затратами на под-
1.2. ПРИМЕРЫ 19 держание уровня запасов /* в каждом из планируемых пе- периодов. Чтобы сократить колебания в требуемой рабочей силе, целе- целесообразно считать, что затраты на изменение Uk пропорциональ- пропорциональны и\. Пусть при этом затраты на поддержание уровня запасов lk пропорциональны величине запасов. Требуется найти такие интенсивности труда Lk (требуемое число рабочих) и такие запасы продукции h в каждом из пе- периодов k — 1, ..., К, при которых удовлетворяется спрос d*, a суммарные затраты минимальны. В этой задаче каждому пе- периоду времени отвечают две фазовые переменные —уровень запасов h и требуемое число рабочих Lk. Параметром управ- управления является Uk — изменение требуемых трудовых ресурсов (uk < 0 означает сокращение необходимой рабочей силы). За- Задача может быть формализована следующим образом: к минимизировать X {fku\ "Ь cJk) при условиях Lk = Lk_i + uk, k=l, ..., К, h = h-i + pLk-\ — dky k = 1, ..., K, Здесь /о — начальный запас продукции, Lo — начальное число рабочих, нанятых компанией, ^-—известный спрос на продук- продукцию в каждом из периодов, р — количество единиц продукции, выпускаемых одним рабочим в течение одного периода, Ъ — мак- максимальный объем производимой в одном периоде продукции, определяемый ограниченными производственными мощностями. Задача оптимального управления с непрерывным временем В задаче оптимального управления с дискретным временем управляющие параметры используются в конечном числе фик- фиксированных точек. Рассмотрим теперь задачу оптимального управления с непрерывным временем, в которой управляющая функция n(t) оказывает влияние на состояние объекта управле- управления во всех точках заданного отрезка времени [О, Г]. При из- известном начальном состоянии уо связь между функцией управ- управления и(^) и функцией состояния системы у (t) описывается следующим дифференциальным уравнением: , 11@], /е[0, Т].
20 ГЛ. 1. ВВЕДЕНИЕ Функция управления и функция состояния, описывающая траекторию, называются допустимыми, если выполняются сле- следующие условия: уе=У, ug(/, *(y,u)eD. Типичным примером множества допустимых управлений U яв- является совокупность кусочно-непрерывных на отрезке [0, Т] функций, таких, что а<и(/)<Ь при /е[0, Т]. При заданном начальном состоянии у(О) = уо задача оптимального управления может быть сформулирована следующим образом: г минимизировать \ а [у (/), и (/)] dt о при условиях у @ = <р [у (/), и (/)], / е= [0, Т], Задачу оптимального управления с непрерывным временем можно аппроксимировать задачей с дикретным временем. Пусть отрезок планирования [0, Т] разбит на К периодов длительно- длительности Д, т. е. /СД = Т. Обозначим у(&Д} через у*, а иFД)— через и*. Тогда исходная задача аппроксимируется следующей: к минимизировать X <*(У/ь Щ) при условиях Ул — Ул-п + фЛУа-ь u*), k = \, ..., /С, ky k=ly ..., /С, , Уь ..., У/с, «ь ..., U/c)^^. Здесь начальное состояние уо задано. Пример. Запуск ракеты. Рассмотрим задачу о запуске раке- ракеты с поверхности земли до высоты у, которую ракета должна достичь за время Г. Обозначим через уA) высоту, достигнутую ракетой за время /, а через u{t) — силу, действующую на ра- ракету в вертикальном направлении в момент t. Пусть масса ра- ракеты равна т. Тогда уравнение движения имеет вид
1.2. ПРИМЕРЫ 21 Здесь y(t) —ускорение движения ракеты в момент времени t, a g — ускорение свободного падения. Будем считать, что макси- максимальная сила, прилагаемая к ракете в любой момент времени, не провосходит Ь. Требуется вычислить минимальную энергию, которую необходимо затратить для выведения ракеты на вы- высоту у за время Т. Эта задача может быть сформулирована сле- следующим образом: минимизировать при условиях г у u{i)\di {f) + mg = u{ | ы (/) К 6, 1). tt= t<= [0, [0, П П гдеу@) = 0. Сформулированную задачу с одним дифференциальным уравнением второго порядка можно переписать в эквивалентной форме с двумя дифференциальными уравнениями первого по- порядка с помощью следующей замены переменных. Пусть у\ = у, f/2 = у. Тогда уравнение y+mg — u эквивалентно системе уравнений Ух в Уъ g — и. Таким образом, обсуждаемая задача принимает вид г минимизировать \\u{t)\dt о при условиях ух (t) = у2 (/), / е [0, Г], МО =u{t)-mgy /e=[0, П , Г], Разделим отрезок [0, Т] на К интервалов длины А. Чтобы Упростить запись, будем считать, что А=1. Обозначим силу, Действующую на ракету, высоту полета над поверхностью и ско- Рост ракеты в конце &-го периода соответственно через uk, и у2> k- Тогда задачу оптимального управления полетом
22 ГЛ. I. ВВЕДЕНИЕ ракеты можно аппроксимировать следующей задачей нелиней- нелинейного программирования: минимизировать при условиях к iSi У и k Угл 1«* г/i.o г/ь/ l«ftl -г/i. 1-1/2. Кб, = г/г, к-1 = У2,к-Ь k.i=uk~mg о = О, AJ — 1, • . ., к == 1, . . ., я, Читателю, интересующемуся более подробным изложением этой задачи, а также другими примерами задач оптимального управления, можно рекомендовать книгу Luenberger [1969]. Пример. Строительство шоссе. Предположим, что требуется проложить дорогу по неровной местности между двумя пунк- пунктами, причем затраты на строительство пропорциональны ко- количеству завезенного и вывезенного с трассы грунта. Пусть Т — длина дороги, a c(t)—известная высота местности в точке на расстоянии ?е[0, Т] от начального пункта трассы. Требуется определить функцию */(/), описывающую высоту дороги в каж- каждой ее точке t е [0, Т] и отвечающею минимальным затратам на ее строительство. При этом предполагается, что наклон до- дороги в любой точке трассы не должен превосходить величины &ь т. е. \y(t) | <; &i для ^[0, Г]. Целесообразно также потре- потребовать, чтобы скорость изменения наклона дороги не превышала заданной величины Ь2, т. е. \y(t)\^b2 для t^[OyT]. Пусть уровень дороги в начальном и конечном пунктах определяется равенствами у@) = а и у(Т)=Ь. Задача формулируется сле- следующим образом: т минимизировать \ | у (/) — с (t) | dt о при условиях | у (/) К &i, / е [0, Г], /€=[0,Г], Заметим, что параметром управления здесь является объем грунта, вывезенный или завезенный в точку трассы на расстоя-
1.2. ПРИМЕРЫ 23 нии / от начального пункта, т. е. величина, пропорциональная \y(t)-c(t)\. Разделим теперь всю длину дороги на К интервалов длины д каждый и положим ух == у, У2 = у. Для простоты будем счи- считать, что А = 1. Обозначим с(k)y yx(k) и y2(k) через с*, #i,*.n y2>k соответственно для ft=sl, ..., К. Тогда исходная задача аппроксимируется следующей задачей нелинейного программи- программирования: к минимизировать ? I У и k — ck I при условиях уи k — yuk-i = У2, *-ь k = 1 > • • • > Ку * = 0, 1, ..., К, Более детальное рассмотрение этой задачи содержится в ра- работе Citron [1969]. В. Проектирование строительных конструкций Проектировщики строительных конструкций обычно много вни- внимания уделяют проблеме совершенствования проектов, гаранти- гарантирующих способность конструкции выдерживать требуемую на- нагрузку. Понятие оптимальной конструкции определяется, как правило, практикой и опытом проектировщиков. В последнее время проектирование таких сложных конструкций, как, напри- например, летательные аппараты, потребовало более подробного рас- рассмотрения проблемы оптимальности проектов. Основные подходы, используемые для минимизации веса конструкций, основываются на математическом программирова- программировании или других численных методах, используемых совместно с методами структурного анализа. Линейное и нелинейное програм- программирование и метод Монте-Карло являются основным аппаратом численного анализа в задачах оптимального проектирования. Проектирование сложных конструкций летательных аппара- аппаратов обычно представляет собой многоэтапную процедуру, кото- которая начинается с рассмотрения общих характеристик (эксплуа* тационных качеств, производительности) системы и заканчи- заканчивается детальным проектированием ее отдельных компонент. Хотя все этапы проектирования в той или иной мере взаимосвя- взаимосвязаны, накопленный опыт позволяет считать эти связи слабыми, Так что в первом приближении ими можно пренебречь. Этот
24 ГЛ. I. ВВЕДЕНИЕ Нагрузка. 1W Высота хх Сечение трубки у-у L Расстояние между'точками i опоры 2s Рис. 1.3. Ферма. вывод тем более справедлив, чем четче проведен предваритель- предварительный структурный анализ, дающий основание для рационального разбиения процесса проектирования на этапы. Двухстержневая ферма. Рассмотрим один из этапов проек- проектирования сложной строительной конструкции — проектирование двухстержневой фермы минимального веса — и покажем, как эта задача сводится к задаче нелинейного программирования. Рассмотрим ферму, изображенную на рис. 1.3. Она состоит из двух жестких полых трубок, скрепленных вместе на одном конце. Вторые концы трубок зафиксированы в двух точках опо- опоры, расстояние между которыми равно 2s. Задача проектиро- проектирования заключается в выборе высоты, толщины стенок и сред- среднего диаметра жестких трубок таким образом, чтобы ферма была способна выдержать нагрузку в 2W и в то же время, что- чтобы вес фермы был минимальным. Обозначим средний диаметр трубок, толщину их стенок и высоту фермы соответственно через хи х2 и Хз. Тогда вес фермы определяется по формуле 2ярххх2 (s2 + *2I/2, где р — удельный вес материала, из которого изготовлена трубка. Из содержа- содержательных соображений при проектировании необходимо учиты- учитывать следующие условия: 1. Из-за ограниченности габаритов конструкции высота фер- фермы не должна превышать 6i, т. е. л:3 ^ Ь\. 2. Отношение среднего диаметра трубки к толщине ее сте- стенок не должно превышать Ь2у т. е. Х\/х2 <с b2. 3. Напряжение сжатия в жестких трубках не должно превы- превышать возможности материала, из которого изготовлены трубки. Это условие формально записывается в виде неравенства W (s2 + лф1/2 < b^x{x2xv где Ьг — некоторая константа.
1:2. ПРИМЕРЫ 25 4. Высота, диаметр и толщина стенок трубок должны быть такими, чтобы трубки не изгибались под тяжестью груза, т. е. должны удовлетворять неравенству W(s2 + *зK#2^*^4г1*з(*? ^" *!)» где Ьа — известный параметр. Таким образом, выбор оптимального проекта фермы пред- представляет собой следующую задачу нелинейного программиро- программирования: минимизировать ххх2 (s2 + xf)m при условиях #з — Ъ\ < О, Х\ — W Х\у С. Проектирование механических конструкций В проектировании механических конструкций концепция опти- оптимизации может быть использована совместно с традиционными подходами статики, динамики и теории сопротивления материа- материалов. В работах Asimow [1962], Johnson [1971] и Fox [1971] при- приведены различные примеры .оптимального проектирования ме- механических конструкций, использующего математическое про- программирование. Как указывает Джонсон (Johnson [1971]), при проектировании механизмов для высокоскоростных машин не- невозможно исключить значительные динамические напряжения и вибрации. Это значит, что необходимо проектировать некото- некоторые механические элементы так, чтобы минимизировать эти нежелательные воздействия. Следующий пример является. ил- иллюстрацией применения нелинейного программирования для проектирования двухопорнои цапфы. Проектирование цапфы. На рис. 1.4 изображена двухопор- ная цапфа с длиной каждой опоры L. Цапфа поддерживает маховик веса IF, установленный на оси диаметра D. Требуется определить L и D таким образом, чтобы минимизировать мо- момент трения вращающейся оси при допустимом зазоре на смаз- КУ- Смазка позволяет сохранить масляное покрытие между цапфой и осью, служащее для уменьшения момента трения и, следовательно, для ограничения рассеиваемой тепловой энер- энергии. Это необходимо для увеличения срока действия опоры. Пусть h0 — наименьшая толщина масляного покрытия при
26 ГЛ. 1. ВВЕДЕНИЕ 1 т Цапфа *- —> I — Маховик 1 t Рис. 1.4. Двухопорная цапфа. установившемся режиме работы механизма. Имеет место нера- неравенство где Но — минимальная толщина масляного покрытия, предупреж- предупреждающая контакт металла с металлом, б — радиальный зазор, измеренный как разность между радиусом цапфы и радиу- радиусом оси. Другое ограничение на Ло налагается следующим неравен- неравенством: где е — эксцентриситет конструкции, определяемый как е = = A —ho/8), а ё — заданный его верхний предел. В зависимости от точки, к которой прикладывается вращаю- вращающий момент на оси, природы силы вращения и отношения мо- модуля приращения эластичности к максимальному напряжению сдвига можно так определить константу ku что угол кручения оси задается соотношением I kx6 * Момент трения яля двух опор вычисляется по формуле где k2 — константа, зависящая от вязкости применяемого масла, (о —угловая скорость вращения. Из гидродинамических сооб* ражений безопасная нагрузка на опоры определяется соотноше» нием
1.2. ПРИМЕРЫ 27 где кг — константа, зависящая от вязкости масла, а гт\ ('о\ - ______—— Гтг2 /1 _ /?2\ I 1 Лл211/2 vt/ \с? / **' * /1 2\2 L V ^ С? / | 1 >JC? I • Очевидно, что вес маховика и нагрузка на опоры должны быть связаны неравенством 2с ^ W. Таким образом, при заданных б, #о и ё получаем типичную задачу проектирования элемента механической конструкции: найти D, L и Ао, такие, чтобы минимизировать момент трения, не допуская выхода угла кручения оси за допустимый предел а. Формально модель описывается следующим образом: минимизировать —-. DaL 6 Vl— е 1 . при условиях Т7Г^а' Более подробное обсуждение этой задачи можно найти в ра- работе Asimov [1962]. Можно построить также модель, в которой минимизируется угол кручения оси при условии, что момент трения не выходит из заданных пределов. В целевую функцию можно включить также как момент трения, так и угол кручения оси. Весовые коэффициенты, отражающие важность каждого фактора, должны быть выбраны из содержательных сообра- соображений. D. Электрические цепи Хорошо известно, что равновесное состояние электрической или гидравлической цепи достигается при минимальных общих по- потерях энергии. Деннис, по-видимому, был первым, кто исследо- исследовал взаимоотношения между теорией электрических цепей, ма- математическим программированием и двойственностью. Приве- Приведенное ниже обсуждение этого вопроса основано на первой работе Dennis [1959]. Электрическая схема может быть описана, например, п вет- ветвями, связывающими m узлов. В дальнейшем будет рассматри- рассматриваться цепь постоянного тока и предполагаться, что каждая ветвь и узлы, которые она соединяет, содержат только один из Перечисленных ниже элементов.
28 ГЛ. 1. ВВЕДЕНИЕ ¦i* (о) Рис. 1.5. Элементы электрической цепи, а — источник напряжения; Ь — диод; с — сопротивление. 1) Источник напряжения, который поддерживает в ветви постоянное напряжение vs независимо от тока в ветви cs. Такой элемент поглощает мощность, равную — vscs. 2) Диод, который позволяет току в ветви течь только в од- одном направлении и потребляет нулевую мощность независимо от тока Са и напряжения va в ветви. Таким образом, для диода имеем 0, vdcd = 0. A.1) 3) Сопротивление, на котором поглощается мощность. На этой ветви ток сг и напряжение vr связаны равенством Vr=*-rcn A.2) г—величина сопротивления. Поглощаемая мощность равна Эти три элемента схематически изображены на рис. 1.5. Те- Течение тока на диаграмме показано от отрицательного полюса ветви к положительному. Первый называется входным узлом, а второй — конечным (выходным) узлом ветви. Если ток течет в противоположном направлении, то соответственное направле- направление будет отрицательным. Для диода оно недопустимо. То же самое соглашение принято о знаке напряжения в ветви. Цепь, состоящая из нескольких ветвей, может быть описана с помощью матрицы N соединений узлов, номера строк которой соответствуют узлам, а номера столбцов — ветвям. Элементы пц матрицы N задаются как !— 1, если узел / — вход /-й ветви, 1, если узел / — выход у-й ветви, О в остальных случаях. Рассмотрим цепь с несколькими источниками напряжения, диодами и сопротивлениями. Обозначим через Ns матрицу сое- соединений узлов для всех ветвей с источниками напряжения, че-
1.2. ПРИМЕРЫ 29 рез Nd —для всех ветвей с диодами и через NU —-для всех вет- ветвей с сопротивлениями. Тогда, не теряя общности, можно пред- представить матрицу N в виде Соответственно вектор-столбец с, представляющий токи в вет- ветвях, и вектор-столбец напряжений v можно записать как С каждым узлом / связан узловой потенциал pi. Вектор- столбец р узловых потенциалов можно также записать в виде Равновесное состояние цепи достигается при выполнении следующих трех основных законов. Первый закон Кирхгофа, Сумма всех входящих в узел токов равна сумме всех вытекающих из него токов. Этот закон можно формально записать в виде Nc = 0, или N5c5 + NDcD+N^ = 0. A.4) Второй закон Кирхгофа. Разность потенциалов узлов, соеди- соединяемых данной ветвью, должна быть равна напряжению в этой ветви. Это можно формально записать в виде равенства Nrp = = v, или A.5) Кроме того, имеются соотношения, представляющие собой ха- характеристики электрических устройств. Из A.1) имеем для со- совокупности диодов vD>0, Сд>0, v?cD = O, A.6) а из A.2) для сопротивлений — v* = -Rc*f A.7) где R — диагональная матрица с диагональными элементами, равными значениям сопротивлений. Соотношения A.4) — A.7) описывают равновесное состояние схемы. Задача состоит в нахождении Vz>, V/?, сир, удовлетво- удовлетворяющих этим соотношениям.
30 ГЛ. 1. ВВЕДЕНИЕ Рассмотрим теперь задачу квадратичного программирова- программирования, которая подробно разбирается в § 11.2: минимизировать у cJJRc^ ~~ yscs при условиях Nscs + NDcD + N^ = 0, - cD <0. Здесь требуется определить токи cs, Cd и cr в ветвях, которые минимизируют сумму двух слагаемых. Первое слагаемое равно половине мощности, поглощаемой сопротивлениями, а второе — потери мощности на источнике напряжения. В § 4.3 показано, что условия оптимальности для этой задачи можно записать в виде Nscs + NDcD + МдСд = 0, Cjd, U0 > 0, где u и u0 — векторы множителей Лагранжа. Легко проверить, что если положить vd = Uo, p = и и учесть A.7), то эти условия в точности совпадают с соотношениями A.4) — A.7), описываю- описывающими равновесное состояние цепи. Заметим, что вектор множи- множителей Лагранжа и есть в точности вектор потенциалов р в узлах. С рассмотренной задачей связана другая, называемая двой- двойственной задачей: максимизировать — у при условиях ? Здесь G = R-1—диагональная матрица, составленная из зна- значений проводимостей, vs — фиксированный вектор. ~ Величина v^Gv^ определяет мощность, поглощаемую сопро- сопротивлениями. В последней задаче требуется найти распределение напряжений в цепи \D и vr и вектор потенциалов р. Условия оптимальности для этой задачи также совпадают с A.4) —A.7). Кроме того, токи в ветвях являются множителями Лагранжа.
1.2. ПРИМЕРЫ 31 Интересно отметить, что в силу теоремы 6.2.4 — основной теоремы двойственности — оптимальные значения целевых функ- функций этих задач совпадают, т. е. , 1 Поскольку G = R и выполняются A.6) и A.7), это равенство можно привести к виду что представляет собой не что иное, как закон сохранения энергии. Существуют и другие применения математического програм- программирования при решении задач, связанных с выработкой и рас- распределением электрической энергии. Краткое обсуждение вме- вместе с необходимыми ссылками приведено в комментариях в конце главы. Е. Управление водными ресурсами Здесь представлена модель использования водных ресурсов для выработки электроэнергии и для применения в сельском хозяй- хозяйстве. Рассмотрим бассейн реки, схематически изображенной на рис. 1.6. Плотина, перегораживающая реку, создает благоприятные условия для накопления объема воды, которую можно исполь- использовать для выработки энергии и для нужд сельского хозяйства. Предполагается, что с плотиной связана электростанция и что вода для сельского хозяйства может передаваться от плотины непосредственно или после выработки энергии через канал. В этой задаче рассматриваются два класса переменных. 1. Параметры проекта: объем S водохранилища, пропускная способность U канала для отведения воды на сельскохозяйст- сельскохозяйственные нужды и мощность Е электростанции. 2. Параметры управления: объемы воды, направляемые на нужды сельского хозяйства, на выработку энергии и прочие цели. Из рис. 1.6 видно, что для /-го периода могут быть опреде- определены следующие параметры управления: xf — объем воды, отведенной от плотины для нужд сель- сельского хозяйства; хра _ объем воды на выработку энергии с последующим использованием в сельском хозяйстве; *fM —- - объем воды на выработку энергии с последующим Извращением в реку; xf — объем воды, отведенной от плотины снова в реку.
32 ГЛ. 1. ВВЕДЕНИЕ Плотина Канал. Сельекохозяй- ственные площади Рис. 1.6. Бассейн реки. Рассмотрим модель управления водными ресурсами с гори- горизонтом планирования, равным N периодам. Обычно горизонт планирования принимается равным времени окупаемости основ- основных капиталовложений. Цель управления состоит в минимиза- минимизации полных приведенных затрат на сооружение водохранилища, электростанции и канала минус годовой доход от производства энергии и орошаемого сельского хозяйства. Составляющие за- затрат и доходов обсуждаются ниже. Затраты на электростанцию. Затраты на электростанцию равны С(?) + ЕрД(Я), A.8) где С(Е)— 3atpaTbi, связанные с сооружением электростанции и линии передачи энергии, рассчитанных на мощность ?; Се(Е) — ежегодные затраты на эксплуатацию, ремонт и замену оборудования; Р/— коэффициент дисконтирования, который при- приводит к текущему моменту затраты в периоде /. В работе Мо- basheri [1968] описана природа функций С(Е) и Се(Е). Дисконтированный доход от продажи энергии выражается в виде S Р/ [p,F, + Pd (/, + A - б) Z - Ps (Pi - //)]} A.9)
1.2. ПРИМЕРЫ 33 где Fj — известный устойчивый спрос на энергию, которая мо- может быть продана по ценам pf за 1 кВт, // — фактическое про- производство энергии (в киловаттах). Коэффициент б равен 1, если ffZ>Fj> и этот избыток энергии f}- — F}- может быть продан по низким ценам ра за 1 кВт. С другой стороны, б = 0, если // < F/, и с системы управления водными ресурсами взимается штраф ps(Fj — f/), так как энергия должна быть приобретена из других сетей. Затраты на водохранилище и канал. Дисконтированные за- затраты на строительство водохранилища и канала равны Cr(S) + aCe(U), A.10) где Cr(S) — затраты на водохранилище объема 5, Ce(U)—за- Ce(U)—затраты на основной канал пропускной способности U. Здесь коэф- коэффициент а оценивает срок службы канала по сравнению со сро- сроком службы водохранилища. Дисконтированные затраты на управление равны ?$}[r() ()} A.11) Обсуждение структуры этих функций можно найти в работах Mobasheri [1968] и Maass et al. [1967]. Доход от орошения. Урожай, полученный при орошении, вы- выражается как функция R от количества воды, затраченной на орошение в период /. Вид функции приведен в работе Minhas, Parikh, Srinivasan [1974]. Таким образом, доход от сельского хозяйства равен Z^jR(xf + x^). A.12) Здесь для простоты мы пренебрегаем водой, полученной от дождей. После того как были рассмотрены разные составляющие це- целевой функции, перейдем к обсуждению ограничений. Ограничения, связанные с производством энергии. Очевидно, что количество вырабатываемой энергии не может превышать энергетического потенциала водных ресурсов, т. е. где \f)(s/) — гидростатический напор, создаваемый количеством воды 5/, запасенным в водохранилище в период /, у — коэффи- коэффициент превращения энергии, е —эффективность энергетической системы. Природа функции г|) описана в работе O'Laoghaire, Himmelblau [1974]. 2 М. Базара, К- Шетти
34 ГЛ 1. ВВЕДЕНИЕ Произведенная энергия не может превосходить производ- производственных мощностей электростанции, так что ft^djEeHj, A.14) где а/ — коэффициент нагрузки, определяемый как отношение среднесуточного производства энергии к максимальному суточ- суточному производству, Я/ — количество часов эксплуатации си- системы. Наконец, мощность электростанции лежит в известных пре- пределах, т. е. ?'<?<?". A.15) Ограничения, связанные с водохранилищем. Если пренебречь потерями от испарения, то объем воды уи составляющей сток через плотину, должен равняться изменению в объеме, запасае- запасаемом в водохранилище и реализованном для различных целей. Это ограничение можно записать в виде равенства в1+1~8; + х1 + ху + х™ + хГА = уг AЛ6) Вторая группа ограничений устанавливает, что размеры во- водохранилища достаточны и выбраны в требуемых пределах, т. е. S>sh m A.17) S'<S<S". A.18) Ограничение, связанное с обязательным возвратом части воды. Обычно необходимо точно установить некоторый объем воды Af/, который требуется возвратить в реку. Это требование обязательного возврата воды записывается в виде xf + x™^Mr A.19) Ограничение, связанное с пропускной способностью канала. Последнее, что требуется учесть, это то, что пропускная способ- способность канала V должна быть достаточной, чтобы обеспечить удовлетворение сельскохозяйственных нужд. Формально это ограничение имеет вид xf + xfA^U. A.20) Цель состоит в минимизации чистых затрат, равных сумме выражений A.8), A.10) и A.11) минус доходы, определяемые по формулам A.9) и A.12). Ограничения задачи задаются соот- соотношениями A.13) — A.20) и требованием неотрицательности пе- переменных.
1.2. ПРИМЕРЫ 35 F. Распределение ресурсов в условиях неполной информации Рассмотрим следующую задачу линейного программирования: максимизировать сгх при условиях Ах<Ь, х>0, где сих суть д-мерные векторы, b есть m-мерный вектор, А = [аь ..., Sin]—матрица размера тХп. Эту задачу можно интерпретировать как модель распределения ресурсов. Предпо- Предположим, что имеется т ресурсов в количествах, задаваемых век- вектором Ь. Столбец а/ матрицы А характеризует /-й способ произ- производства, переменная х\ представляет собой интенсивность этого способа производства, которая подлежит выбору. При исполь- использовании /-го способа производства с интенсивностью х\ за- затрачивается dijXj различных ресурсов. Следовательно, Ах = п = 2 а/Х/ <Ь. Если доход от /-го способа производства, исполь- зуемого с единичной интенсивностью, равен с/, то общий доход п при интенсивностях я/, / = 1, ..., м, равен ? CjXj = cTx. Сле- Следовательно, рассматриваемая задача может быть интерпретиро- интерпретирована как задача распределения вектора ресурсов b между раз- различными производственными способами таким образом, чтобы получить максимально возможный суммарный доход. Для некоторых практических задач такая детерминирован- детерминированная модель неадекватна реальности, так как коэффициенты до- дохода си ..., сп являются не фиксированными, а случайными параметрами. Предположим, что с — случайный вектор с мате- математическим ожиданием с = (си ..., сп)т и ковариационной ма- матрицей V. Тогда значение целевой функции также будет случай- случайной величиной (обозначим ее через г) с математическим ожи- ожиданием с7х и дисперсией x7Vx. Для того чтобы максимизировать ожидаемое значение z, нужно решить следующую задачу: максимизировать стх при условиях А которая является задачей линейного программирования и обсу- обсуждается в § 2.6. С другой стороны, если требуется минимизировать 2*
36 ГЛ. 1. ВВЕДЕНИЕ дисперсию 2, то нужно решить задачу минимизировать xrVx при условиях А х>0, которая является задачей квадратичного программирования и обсуждается в § 11.2. Критерии удовлетворительности При максимизации ожидаемого дохода z мы полностью пре- пренебрегали его рассеянием. С другой стороны, когда минимизи- минимизировалась дисперсия, не принималось во внимание ожидаемое значение 2. В реальных задачах может возникнуть потребность иметь большое ожидаемое значение дохода и в то же время малую дисперсию. Это многоцелевая задача. Имеются некото- некоторые работы по исследованию таких задач (см. Zeleny [1974], Zeleny, Cochrane [1973]). Существуют и другие подходы к одно- одновременному изучению ожидаемых значений и их рассеяния. Предположим, требуется, чтобы ожидаемое значение было не меньше некоторого значения 2, чаею называемого желаемым уровнем или уровнем удовлетворительности. Такая задача мо- может быть сформулирована в виде минимизировать xrVx при условиях Ах^Ь, СГХ > 2, х>0, которая снова является задачей квадратичного программи- программирования. Другой возможный подход состоит в следующем. Пусть а = = Prob (crx ^ 2), т. е. а — вероятность того, что желаемый уровень может быть достигнут. Очевидно, целесообразно макси- максимизировать а. Предположим теперь, что вектор случайных па- параметров с можно представить как функцию d + г/f, где d и f — фиксированные векторы, а у — случайная переменная. Тогда если frx > О, то Prob (drx + yfTx > 2) == Prob (у z
1.2. ПРИМЕРЫ 37 В этом случае задача максимизации а сводится к следующей: минимизировать при условиях Это задача дробно-линейного программирования, методы реше- решения которой обсуждаются в § 11.4. Модель распределения ресурсов при заданном отношении к риску Описанные выше подходы к оптимизации дисперсий и ожи- ожидаемых значений дохода не учитывают поведение индивидуумов, не желающих рисковать. Например, индивидуум, который хочет избежать риска, может предпочесть доход с ожидаемым значе- значением дохода в 100 долларов и дисперсией 10 доходу с ожидае- ожидаемым значением в 110 долларов и дисперсией 30. Индивидуум, выбирающий ожидаемое значение дохода 100 долларов, менее расположен к риску, чем тот, кто может выбрать альтернативу с ожидаемым значением дохода 110 долларов. Эта разница в отношении к риску может быть учтена введением полезности денег для индивидуума. Для большинства индивидуумов ценность дополнительного доллара убывает при увеличении его полного чистого богатства. Ценность, связанная с чистым богатством г, называется его по- полезностью и. Часто бывает удобно так нормировать полезность, чтобы и —0 при 2 = 0 и и-+\ при 2->оо. Функция и, назы- называемая функцией полезности индивидуума, обычно неубываю- неубывающая непрерывная функция. На рис. 1.7 изображены две типич- типичные функции полезности для двух индивидуумов. Для инди- индивидуума (а) увеличение дохода на Аг увеличивает полезность на Аь а потери дохода Д-г уменьшают полезность на Дг. По- Поскольку Д2 больше, чем Аь то этот индивидуум будет предпочи- предпочитать меньшее рассеяние дохода. Такой индивидуум меньше рас- расположен к риску, чем индивидуум (&), функция полезности ко- которого также изображена на рис. 1.7. Различные кривые типа кривых (а) и F), изображенных на рис. 1.7, могут быть заданы в форме u{z) = 1 — e~kz, где k > 0 называют коэффициентом неприятия риска. Заметим, что чем больше ft, тем индивидуум менее расположен к риску. Предположим теперь, что текущее богатство равно нулю, так что полное богатство равно доходу г. Предположим, что
38 ГЛ. I. ВВЕДЕНИЕ 2*= Полное богатство 1.7. Функции полезности. с — нормально распределенный случайный вектор с математиче- математическим ожиданием с и ковариационной матрицей V. Тогда z— нор- нормальная случайная величина с математическим ожиданием z = = стх и дисперсией о2 = —хт\х. Функция ср плотности и рас- распределения дохода записывается в виде Ф (z) = _ ехр ( Требуется максимизировать ожидаемое значение полезности, задаваемое выражением ехр (-Л* + y J ехр ( dz = - ехр (- kz + y Следовательно, максимизация ожидаемого значения полезности эквивалентна максимизации kz —jk2o2. Подставляя сюда
1.2. ПРИМЕРЫ 39 олучим следующую тичного программирования: вместо z н а2 их значения, получим следующую задачу квадра- квадрамаксимизировать kcTx —г- k2xTWx при условиях А^Ь G. Размещение оборудования На практике часто встречаются задачи оптимального размеще- размещения центров производственной деятельности. К таким задачам относятся задачи размещения станков или цехов на фабрике, задачи размещения фабрик или складов, с которых продукция может быть отправлена в торговые центры или потребителям, задачи размещения пожарных или полицейских постов на тер- территории города и др. Рассмотрим простую ситуацию. Пусть задано расположение п рынков и спрос на каждом из них. Спрос может быть удов- удовлетворен из т складов с заданной емкостью. Требуется разме- разместить склады так, чтобы общее расстояние, подсчитанное с ве- весовыми коэффициентами, равными объемам товаров, перевезен- перевезенных из складов на рынки, было минимальным. Более точно, пусть {*ь Уд — неизвестные координаты склада /, /=1, ..., т, сг —емкость склада /, /=1, ..., т, (a/, bj) — известные координаты рынка /, /=1, ..., п, г/ —-известный спрос на рынке /, /=1, ..., п, йц —расстояние от склада / до рынка у, /=1, ..., ш, /= 1, ..., п, Wn — объем продуктов, перевозимых со склада / на ры- рынок /, / = 1, ..., т, j = 1, ..., п. Задачу размещения складов и выбора объемов перевозок можно сформулировать следующим образом: т п « минимизировать 2 2 п При УСЛОВИЯХ 2*0 т Z^// = r/, /= 1, ..., /г,
40 ГЛ. 1. ВВЕДЕНИЕ В этой задаче неизвестными переменными являются тмц и йц, гак что это задача нелинейного программирования. Могут быть приняты различные способы измерения расстояния, например йц = \Xi-ai\ + \ yt - bj |, dif = [(xt - ajf + {yt - Ь,J]™. При этом будем получать нелинейные задачи с переменными Хи ..., хт, у\, ..., ym, w\\, •-., wmn. Если расположение скла- складов известно, т. е. известны д,ц, то искомыми останутся только объемы перевозок wtj. Мы придем к транспортной задаче — част- частной модели линейного программирования. Упражнения 1.1. Рассмотрим задачу выбора портфеля ценных бумаг*). Вкладчик должен выбрать портфель х = (хи *г, ..., хп)т, где Х\ — доля актива, вло- вложенного в ценные бумаги вида__/. Доход от портфеля имеет среднее значение стх и дисперсию xrVx. Здесь с — вектор средних значений доходов от каж- каждого вида бумаг, V — матрица вторых моментов этих доходов. Вкладчик хотел бы увеличить ожидаемый доход, уменьшая при этом рассеяние и, сле- следовательно, риск. Портфель называется эффективным, если не существует другого портфеля с большим ожидаемым доходом и меньшим рассеянием. Сформулируйте задачу нахождения эффективного портфеля и предложите процедуры выбора среди эффективных портфелей. 1.2. Прямоугольный сохраняющий тепло элемент длины L, ширины W и высоты Я может использоваться для того, чтобы запасать тепловую энергию. Коэффициенты потерь тепла из-за конвекции hc и из-за излучения hr за- задаются соотношениями Здесь kc, kr — константы, Т — температура сохраняющего тепло элемента, А — площадь поверхности, Та — температура окружающей среды. Тепловая энергия, запасаемая элементом, равна где k — константа, V — объем элемента. Элемент в состоянии запасти по крайней мере Q' единиц энергии. Условия размещения ограничивают размеры элемента, так что a) Сформулируйте задачу нахождения размеров L, W и Я, при которых потери тепла минимальны. b) Предположим, что константы kc и kr являются линейными функциями от t — толщины изоляции. Сформулируйте задачу нахождения размеров L, W и Я, при которых издержки на изоляцию минимальны. 1.3. Постройте модель ситуации, описанной в упр. 1.2, когда элемент, со- сохраняющий тепло, является цилиндром с диаметром D и высотой Я. 1.4. Служебное помещение длиной 60 футов и шириной 35 футов должно освещаться п электрическими лампами, каждая мощностью Wi Вт, i = 1, ... ..., п. Лампы должны быть расположены на высоте 7 футов от рабочей 4) Здесь слово «портфель» используется в том же смысле, что и в вы- выражении «редакционный портфель» и т. п. — Прим. перев.
УПРАЖНЕНИЯ 41 поверхности. Пусть (xi, yi)—координаты i'-й лампы. Чтобы обеспечить до- достаточное освещение, освещенность проверяется на уровне рабочей поверхно- поверхности в узлах (а, Р) сетки, где а=10/>, р = 0, 1 6; Р = 5<7, <7 = 0, 1 7. Освещенность в точке (а, Р), получаемая от лампы мощности Wi Вт, рас- расположенной в точке (xt, yi), равна где k — константа, отражающая эффективность лампы. Общая освещенность п в точке (а, C) равна ^ Ei (a, Р). В каждой проверяемой точке требуется, чтобы освещенность была в пределах от 2.6 до 3.2 единицы. Мощность ис- используемых ламп выбирается в пределах от 40 до 300 Вт. Предполагается, что Wi — непрерывные переменные. a) Постройте модель, в которой минимизируется число используемых ламп и определяется их размещение и мощность в предположении, что потери от их установки и периодической замены являются функцией от числа ис- используемых ламп. b) Постройте такую же, как и в п. «а», модель, удовлетворяющую до- дополнительному требованию одинаковой мощности всех ламп. c) Определите значение k из специальной литературы. Проверьте, явля- является ли освещение в вашей рабочей комнате в разумной степени близким к тому, что получено в п. «Ь». 1.5. Семья с бюджетом Ь покупает п продуктов. Цена единицы /-го про- продукта равна с/, а минимальное количество этого продукта, которое будет куплено, — //. После того как эти минимальные количества продуктов потреб- потреблены, оставшийся бюджет распределяется между продуктами. Часть щ от оставшегося бюджета используется на покупку продукта /*. Поведение семьи наблюдается в течение т месяцев с целью оценки величин /i, ..., In и ai, ..., ап. Постройте регрессионную модель для оценки этих параметров, если a) требуется минимизировать сумму квадратов ошибок; b) требуется минимизировать максимальное абсолютное значение ошибки; c) требуется минимизировать сумму абсолютных значений ошибок; d) Переформулируйте задачи из пп. «Ь» и «с», чтобы получить задачи линейного программирования. 1.6. Некоторая сталелитейная компания производит коленчатые валы. Предварительное исследование показывает, что средний диаметр вала может принимать значения [mi или |х2, где jj-2 > M-i. Вероятность того, что среднее значение равно juii, есть р. Чтобы проверить, является ли средним значением M-i или |Лг, проводится выборка объема п и соответствующие диаметры п *и ..., хп записываются. Если х = — У.Х1 не больше некоторого фиксиро» У-1 ванного К, то принимается гипотеза \х == |Л4. В противном случае принимается гипотеза ^ = 1^2. Пусть f(x\\ii) и f(x\\i2)— плотность распределения выбо- выборочного среднего, если математическое ожидание равно \Xi или (Лг соответ- соответственно. Предположим, кроме того, что взыскиваемые издержки при приня- принятии гипотезы м- = fJti, когда \х = м,2, равны а, а при принятии гипотезы М- = \х2, когда \i = \iu равны |3. Сформулируйте задачу выбора К так, чтобы ожидаемые общие издержки были минимальными. Покажите, как эта задача может быть переформулирована, чтобы получить нелинейную задачу.
42 ГЛ. 1. ВВЕДЕНИЕ 1.7. Рассмотрим следующую задачу районного контроля над стоком реки. Пусть п предприятий сбрасывают отходы в реку. Принятый текущий коэффи- коэффициент сбрасывания отходов /-м предприятием равен (i/, / = 1, ..., п. Каче- Качество воды проверяется на протяжении реки в т пунктах контроля. Наимень- Наименьшее требуемое улучшение качества воды в пункте i равно 6/, i= 1, ..., m. Пусть Xj — объем отходов, подлежащих очистке на предприятии /. Соответ- Соответствующие затраты /-го предприятия равны //(*/). Обозначим через ац улуч- улучшение качества воды в пункте контроля i для каждой единицы отходов, очищенных на предприятии /. a) Сформулируйте задачу улучшения качества воды с минимальными по- потерями как задачу нелинейного программирования. b) Пусть некоторые предприятия должны очищать значительные количе- количества отходов, а другие только небольшую их часть или вовсе ничего. Пере- Переформулируйте задачу так, чтобы добиться некоторой справедливости. 1.8. Лифт имеет в момент времени / вертикальное ускорение u(t). Пасса- Пассажиры хотели бы подняться от цокольного этажа, находящегося на нулевой высоте над уровнме моря, до шестнадцатого этажа, находящегося на высоте 50 м над уровнем моря, по возможности быстрее, но так, чтобы не испыты- испытывать сильного ускорения. Предположим, что пассажир оценивает единицу вре- времени в а долларов и готов заплатить в единицу времени сумму рм2(/), чтобы избежать сильного ускорения Учитывая эти условия, сформулируйте задачу определения ускорения «(/) лифта на участке от цокольного до шест- шестнадцатого этажа как задачу оптимального управления. Можно ли сформули- сформулировать эту проблему как задачу нелинейного программирования? 1.9. Рассмотрим задачу линейного программирования, состоящую в мини- минимизации сгх при Ах ^ Ь, х ^ 0. Предположим, что компоненты с\ вектора с — случайные величины, распределенные независимо друг от друга и от пере- переменных X/, и что ожидаемые значения с\ равны с/, / = 1, ..., я. a) Покажите, что минимальные ожидаемые потери получаются при реше- решении задачи минимизации сгх при Ах ^ Ь, х ^ 0, где с — (сь ..., сп)Т. b) Предположим, что некоторая фирма выпускает два продукта, затра- затрачивая на их производство общий ресурс. Формально это выражается сле- следующим образом: 3 + 4 20 где х}- — объем выпускаемого /-го продукта. Доход от выпуска единицы пер- первого продукта является нормально распределенной случайной величиной со средним значением 3 и дисперсией 2. Доход от выпуска единицы второго продукта задается ^-распределением с двумя степенями свободы. Предпо- Предположим, что случайные величины распределены независимо друг от друга и что они не зависят от xi и Хг. Найдите объемы выпуска каждого продук- продукта, при которых ожидаемый доход будет максимальным. Будет ли решение другим, если дисперсия для первого продукта будет равна 4? 1.10. Пусть в каждом из п периодов известен спрос du ..., dn на неко- некоторый продукт. Для удовлетворения спроса в /-м периоде может быть ис- использован как произведенный в этом периоде, так и хранимый на складе продукт. В /-м периоде выпускается х\ единиц продукта. При этом производ- производственные затраты задаются функцией /(#/), / == 1, ,.., п. Выпущенный в не- некотором периоде в избытке продукт можно хранить на складе. Емкость скла- склада равна К, а стоимость хранения единицы продукта в течение одного пе- периода равна с долларам. Сформулируйте задачу планирования производства как задачу нелинейного программирования, считая заданным начальный за- запас /о, хранимый на складе. 1.11. Некая промышленная фирма производит четыре различных про- продукта. При этом один из видов необходимого сырья имеет ограниченное предложение, и фирма может получить его в количестве не более R фун- фунтов. Для выпуска одного фунта t-rc продукта используется щ фунтов этого
КОММЕНТАРИИ 43 сырья. Переменные издержки, включающие и затраты сырья, при производ- производстве Xt фунтов /-го продукта равны кьх\, коэффициент ki известен. Про- Продажная цена 1-го продукта равна Sr долларам за фунт. Постройте математи- математическую модель планирования производства. 1.12. Предположим, что суточный спрос на /-й продукт равен rf/, / = 1,2. Спрос удовлетворяется из запасов на складе, которые пополняются производ- производством, как только запасы исчерпываются. Время производства и доставки про- продуктов на склад предполагается несущественным. В течение каждого периода может быть произведено Q/ единиц продукта при фиксированных организа- ционых затратах в kj долларов и переменных затратах в c,Qj долларов. Пла- Плата за хранение запасов равна h/ долларов за единицу продукта в день. Плата за хранение взимается, исходя из среднего запаса за Т дней. Таким образом, общие затраты, связанные с /-м продуктом, за Т дней равны Tdjkj/Qj + + Tcjdj + TQjhj/2 долларов. Для каждого продукта / должна быть зарезер- зарезервирована достаточная площадь склада. Для хранения единицы /-го продукта необходимо Sj квадратных футов площади склада. Общая площадь склада равна S. a) Найдите оптимальные объемы выпуска Qi и <2г этих продуктов, при которых общие затраты минимальны. Опишите модель. b) Предположим теперь, что допускается неудовлетворение спроса и производство продуктов не обязательно начинать, когда запасы достигают нуля. В течение времени, когда запасов нет и спрос не удовлетворен, сбыт отсутствует. При этом убытки на единицу неудовлетворенного спроса на /-й продукт равны // долларов. С другой стороны, если бы продажа была совер- совершена, то доход от единицы продукта был бы равен р,- долларам. Постройте формальную модель рациональной организации производства и хранения про- продуктов в указанной ситуации. Комментарии С появлением быстродействующих вычислительных машин существенно расширились возможности применения итеративных методов для решения ли- линейных и нелинейных экстремальных задач. Обнадеживают новые теоретиче- теоретические исследования в области разработки методов поиска глобального мини- минимума невыпуклых задач со значительным числом переменных. В § 1.2 приведены примеры некоторых упрощенных экстремальных моде- моделей, которые могут быть исследованы с помощью описываемых в этой книге методов нелинейного программирования. При рассмотрении этих примеров авторы стремились отметить лишь основные особенности математических мо- моделей, не вдаваясь в детальное описание моделируемых явлений. Оптимальное управление тесно связано с математическим программирова- программированием. Данциг (Dantzig [1969]) показал, как можно использовать симплекс- симплексный метод для решения некоторых задач оптимального управления. Более подробное описание применения математического программирования в зада- задачах управления можно найти в работах Bracken and McCormick [1968], Canon and Eaton [1966], Canon, Cullum and Polak [1970] и Tabak and Kuo [1971]. В настоящее время большой интерес вызывают исследования, связанные с проектированием и строительством летательных аппаратов. Вопросы опти- оптимального проектирования в этой области становятся чрезвычайно актуаль- актуальными. Не случайно с 1969 г. Консультативная группа по космическим иссле- исследованиям при НАТО организует различные симпозиумы по структурной опти- оптимизации. С появлением новых материалов выросла также роль оптимального проектирования механических конструкций. Для изучения вопросов оптимиза- оптимизации в механическом и строительном проектировании интересны работы Cohn [1969], Fox [1969, 1971], Jonson [1971], Majid [1974], Siddal [1972].
44 ГЛ. 1. ВВЕДЕНИЕ Также успешно математическое программирование используется для ре- решения различных задач, связанных с выработкой и распределением электро- электроэнергии. Здесь встречаются самые разнообразные по своему содержанию экс- экстремальные задачи. В частности, к ним относится задача о нахождении опти- оптимального потока энергии в сети, удовлетворяющего заданные потребности в энергии. Распределение энергии в сети определяется хорошо известными за- законами Кирхгофа. Равновесные потоки энергии, удовлетворяющие этим зако- законам, можно определить с помощью решения соответствующей задачи нели- нелинейного программирования. В другой постановке при известной выработке электроэнергии, получаемой от гидроэлектростанции, требуется минимизиро- минимизировать затраты топлива на тепловой станции, соблюдая необходимую подачу энергии в сеть. Эта задача обычно решается каждые несколько минут, и по результатам решения проводится регулировка режима работы теплового ге- генератора. Более подробно с вопросами оптимизации работы энергосистем можно познакомиться в книгах Abou-Taleb at al. [1974], Adams et al. [1972], Beglari and Laughton [1975], Kirchmayer [1958], Sasson [1969a, 1969b], Sas- son at al. [1971], Sasson and Merrill [1974]. В последней книге содержится обзор работ по прикладным задачам оптимизации. В последние два десятилетия получили значительное развитие исследова- исследования по анализу водных ресурсов различных регионов. Обсуждаемая в § 1.2 задача состоит в нахождении рационального соотношения между использова- использованием ограниченных водных ресурсов на производство электроэнергии и затра- затратами на сельскохозяйственные нужды. Другие исследования в этой области можно найти в работах Haimes [1973, 1977], Haimes and Nairn's [1974], Yu and Haimes [1974]. Быстрый рост городов выдвинул в число актуальных проблему эффек- эффективного использования водных ресурсов и земельных участков города с уче- учетом их взаимосвязи. Некоторые количественные исследования в этой области проведены в работах Argaman, Shamir and Spivak [1973], Dajani, Gemmel and Morlok [1972], Deb and Sarkar [1971], Jacoby [1968], Shamir [1974], Walsh and Brown [1973], Wood and Charles [19?3]. В классической постановке задачи о выборе портфеля ценных бумаг Марковиц (Markowitz [1952]) показал, что распределение доходов от порт- портфеля представляет собой оптимизационную задачу. Эта задача кратко рас- рассматривается в упр. 1.1. С 1955 по 1959 г. были проведены многочисленные исследования с целью разработки методов решения задач линейного программирования с неопреде- неопределенными параметрами. Самыми ранними в этой области являются работы Charnes and Cooper [1959], Dantzig [1955], Freund [1956], Madansky [1959]. Весьма заманчивыми представляются модели принятия решений в усло- условиях риска и неопределенности. Читателю, интересующемуся этими вопроса- вопросами, можно рекомендовать работы Charnes and Cooper [1961, 1963], Charnes, Kirby and Raike [1967], Dantzig [1963], Elmaghraby [1960], Evers [1967], Geoffrion [1967c], Madansky [1962], Mangasarian [1964], Parikh [1970], Sen- gupta [1972], Sengupta, Portillo-Campbell [1970], Sengupta, Tintner and Mill- ham [1963], Vajda [1970, 1972], Wets [1966a, 1966b, 1972], Williams [1965, 1966], Ziemba [1970, 1971, 1974, 1975].
Часть 1 Выпуклый анализ Выпуклые множества Понятие выпуклости играет важную роль б изучении задач опти- оптимизации. Выпуклые множества, многогранные множества, воз- возможность разделения непересекающихся выпуклых множеств часто используются при анализе задач математического про- программирования, определении характерных свойств оптимальных решений и построении вычислительных процедур. План главы § 2.1. Выпуклые оболочки. В этом параграфе приведены не- некоторые примеры выпуклых множеств и определено понятие выпуклой оболочки. Читатель, знакомый с выпуклыми множест- множествами, может опустить этот параграф (исключая, пожалуй, тео- теорему Каратеодори). § 2.2. Замыкание и внутренность выпуклого множества. Здесь обсуждаются некоторые топологические свойства выпук- выпуклого множества, связанные с его внутренними и граничными точками. § 2.3. Отделимость и опорные гиперплоскости. Рекомен- Рекомендуется тщательное изучение этого параграфа, так как понятия разделяющей и опорной гиперплоскостей часто используются в анализе задач оптимизации. § 2.4. Выпуклые множества и полярность. Этот короткий па- параграф в основном посвящен полярным конусам. Не нарушая непрерывности изложения, его можно опустить. § 2.5. Многогранные множества, экстремальные точки и экстремальные направления. В этом параграфе исследуются
46 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА многогранные множества, являющиеся частным, но важным ви- видом выпуклых множеств. Для многогранного множества вво- вводятся понятия экстремальной точки и экстремального направ- направления. Кроме того, доказывается, что любая точка многогран- многогранного множества может быть представлена с помощью его экстре- экстремальных точек и экстремальных направлений. § 2.6. Линейное программирование и симплекс-метод. Ши- Широко известный симплекс-метод для решения задач линейного программирования рассматривается здесь на основе материала предыдущего параграфа. Читатели, знакомые с симплекс-мето- симплекс-методом, могут опустить этот параграф. 2.1. Выпуклые оболочки В этом параграфе сначала вводятся понятия выпуклого мно- множества и выпуклой оболочки. Затем показывается, что любая точка выпуклой оболочки множества S может быть представ- представлена с помощью п + 1 точек из S. 2.1.1 ОПРЕДЕЛЕНИЯ. Непустое множество 5 из Еп назы- называется выпуклым, если отрезок прямой, соединяющий две лю- любые точки множества 5, также принадлежит этому множеству. Иными словами, если точки xi и х2 лежат в S, то точка Хх\ + + A—Я)Х2 также должна принадлежать 5 для всех he[0, 1]. Точка вида %х\ +A —h)x2, he [0, 1], называется выпуклой ком- комбинацией точек xi и х2. На рис. 2.1 иллюстрируется понятие, выпуклого множества. Заметим, что на рис. 2.1,6 не все точки отрезка прямой, соеди- соединяющей xi и Х2, принадлежат множеству. Приведем несколько примеров выпуклых множеств. 1. 5= {(jci, х2, х3): х\-\-2х2— *з = 4} cz ?3. Это множество представляет собой плоскость в Е$. В общем случае множество 5 = {х: ргх —а}, где ре?я, а — скаляр, называется гиперпло- гиперплоскостью в ЕП9 а ненулевой вектор р — нормалью к гиперпло- гиперплоскости. 2. S= {(хи х2, Хг): х\ + 2х2 — х3 < 4} cz ?3. В данном слу- случае множество S определяется совокупностью всех точекг лежа- лежащих с одной стороны от определенной выше гиперплоскости. Эти точки образуют полупространство в ?3. В общем случае множество S = {х: ртх ^ а} задает полупространство в Еп и является выпуклым. 3. S = {(*b #2, *з): *i + 2*2 — х3 < 4, 2х\ — х2 + х3 < 6} с Е3. Это множество является пересечением двух полупространств. Вообще множество S = {х: Ах < Ь}, где А есть тХ /г-матрица, b есть /п-мерный вектор, выпукло. Это множество, являющееся
2.1. ВЫПУКЛЫЕ ОБОЛОЧКИ 47 (а) (Ь) Рис. 2.1. Примеры множеств, а— выпуклое; b — невыпуклое. пересечением т полупространств, называется многогранным мнооюеством. 4. S = {(xu x2): х2^\ хх\} а Е2. Это множество является выпуклым конусом в Е2. 5. S = {(*!, х2): *f + *К 4} с ?2. Здесь множество 5 пред ставляет собой круг с центром в точке @, 0) и с радиусом 2. 6. S = {х: х — решение сформулированной ниже задачи Р]. Задача Р: минимизировать стх при условиях Ах = Ь, х^О. Здесь х и с — векторы из Еп, Ь — вектор из Ет, А есть тХ^-ма- трица. Множество S состоит из всех оптимальных решений за- задачи минимизации линейной функции сгх на многогранной об- области, задаваемой условиями Ах = b, x ^ 0. Сформулированная ниже лемма представляет собой непо- непосредственное следствие определения выпуклого множества. В ней утверждается, что пересечение и алгбраическая сумма двух выпуклых множеств также являются выпуклыми множест- множествами. Доказательство леммы оставлено читателю в качестве упражнения. 2.1.2. ЛЕММА. Пусть S\ и S2 — выпуклые множества в Еп. Тогда выпуклы и следующие множества: 2. Si + S2 =¦= {х! + х2: Xi<=Sb x2gS2}, 3. S\ — 52= {Xj — X2'. Xj ?= Si, X2 €= S2}. Выпуклые оболочки На основе произвольного заданного множества S из Еп можно построить различные выпуклые множества. В частности, мно- множество S порождает рассматриваемую ниже выпуклую обо- оболочку.
48 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА H(S) Рис. 2.2. Выпуклые оболочки. 2.1.3. ОПРЕДЕЛЕНИЕ. Пусть S — произвольное множество из Еп. Выпуклой оболочкой Н (S) множества S называется со- совокупность всех выпуклых комбинаций точек из S. Иначе го- говоря, точка х принадлежит H(S) тогда и только тогда, когда k k она может быть представлена в виде х= ? ^/х/> 2 Яу ===== 1, Я;^0, /=1, ..., &, где k ¦— положительное число, а хь ... На рис. 2.2 приведены примеры выпуклых оболочек. Заме- Заметим, что в каждом случае H(S) является наименьшим выпуклым множеством, содержащим S. Как утверждается в лемме 2.1.4, это справедливо и в общем случае. Доказательство леммы оставлено читателю. 2.1.4, ЛЕММА. Пусть S — произвольное множество из Еп. Тогда Я E)—наименьшее выпуклое множество, содержащее S. Фактически H(S) является пересечением всех выпуклых мно- множеств, содержащих S. Выше рассмотрена выпуклая оболочка произвольного мно- множества. Выпуклая оболочка конечного числа точек приводит к определению многогранника и симплекса. 2.1.5. ОПРЕДЕЛЕНИЕ. Выпуклая оболочка конечного числа точек хь ..., Xfc+i из Еп называется многогранником. Если век- векторы х2 — Хь . ..,x*+i—xi линейно независимы, то выпуклая оболочка Н(х\, ..., x/e+i) называется симплексом с вершинами в точках Хь ..., Xfc+i- На рис. 2.3 изображены многогранник и симплекс в ?2- За- Заметим, что максимальное число линейно независимых вектороэ
2.1. ВЫПУКЛЫЕ ОБОЛОЧКИ 49 Рис. 2.3. Многогранник и симплекс, а — многогранник; b — симплекс. в Еп равно п и, следовательно, в Еп не может быть симплекса, у которого более п + 1 вершин. Теорема Каратеодори По определению произвольная точка, принадлежащая выпуклой оболочке множества 5, может быть представлена в виде выпук- выпуклой комбинации конечного числа точек из 5. Сформулированная ниже теорема показывает, что минимальное число таких точек не превосходит п-\- 1. Если xeS, то утверждение теоремы три- тривиально. 2.1.6. ТЕОРЕМА. Пусть S — произвольное множество из Еп. Если xe=#(S), to хеЯ(хь ..., x*+i), где x/eS для / — = 1, ..., n-f 1. Другими словами, х можно представить в виде п+1 х = 2j 2j Доказательство. Так как хёЯ (S), то х = для /= 1, ..., для /= 1, ..., и /, где Я/ > О = !• Если П 1, то утверждение теоремы справедливо. Предположим, что k > п + 1. В этом случае векторы х2 — хь х3 — хь ..., xk — xi линейно зависимы, поэтому найдутся такие числа ц.2, М'З» • • •» М-ь не все равные нулю, что ? \х{ (ху — х^ = 0. Положим \х{ == к k k ^ ^ 1и М-/- Тогда 2 ^О и не все равны нулю. Очевидно, что [лу > 6 по крайней мере для одного / е A, ...,
50 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Для любого действительного а имеем k k k k x = ? fyxy + 0 = Z A,/Xy — a Z М-/Х/ = Z (Лу — ацу) х7. Выберем а таким образом, чтобы {Я, ) А. —*-: |ху>0} = —*- при некотором /е{1, ..., к). ...**/ J **/ Заметим, что а > 0. Если |Liy^O, то А7 — ац7 > 0. Если |ху > 0, то Я/Дху ^ Я//|Х/ = а, и, следовательно, Ау — a^iy^O. Отсюда Ау— a^iy^O при /=1, ..., & и, в частности, А,-— ащ = 0 по /г определению числа а. Таким образом, х = Z (^/ ~ aM-/) х/> /г Ау — ajiy ^ 0 при / = 1, ..., k и Z (^/ ~~ <Ч*/) = 1 • Более того, /1 А/ — а|Я; = 0, т. е. х представляется в виде выпуклой комби- комбинации k — 1 точек из S. Этот процесс можно продолжить до тех пор, пока х не окажется выпуклой комбинацией п + 1 точек из 5. ¦ 2.2. Замыкание и внутренность выпуклого множества В этом параграфе рассматриваются некоторые топологические свойства выпуклых множеств. Прежде всего вводятся понятия замыкания, внутренности и границы произвольного множества из Еп. Напомним, что е-окрестностью точки х из Еп называется множество N8(x)= {у: Ну—х||< е}. 2.2.1. ОПРЕДЕЛЕНИЯ. Пусть S — произвольное множество в Еп. Точка х принадлежит замыканию cl S множества S, если 5 П Ne (х) ф 0 для любого г > 0. Если S = cl 5, то множество S называется замкнутым. Точка х принадлежит внутренности intS множества S, если Ne(x)czS для некоторого е > 0. Если 5 = intS, то множество 5 называется открытым. Наконец, точ- точка х принадлежит границе множества S, обозначаемой OS, если для любого е > 0 окрестность Ne(x) содержит по крайней мере одну точку из 5 и по крайней мере одну точку, не принадлежа- принадлежащую S. В качестве примера рассмотрим множество S = {(хрх2): х\-\- + *2^*}> представляющее собой все точки круга с центром в начале координат и радиусом 1. Легко проверить, что 5 замкнуто, т. е. 5 = clS. Граница dS содержит все точки окруж-
2.2. ЗАМЫКАНИЕ И ВНУТРЕННОСТЬ ВЫПУКЛОГО МНОЖЕСТВА 51 ности х\ + х\=\у т.е. dS = {(x{, х2): х\ + х22 = 1}. Наконец, intS состоит из всех точек, лежащих внутри этой окружности, т. е. intS = {(*,, х2): х\ + х\<\). Отрезки, соединяющие точки замыкания и внутренности Для заданного выпуклого множества с непустой внутренностью отрезок прямой (исключая концы), соединяющей внутреннюю точку множества с точкой из его замыкания, принадлежит внутренности множества. Это утверждение доказывается ниже. 2.2.2. ТЕОРЕМА. Пусть S — выпуклое множество и i Пусть x^clS, x2eintS. Тогда Хх{ + A — Я)х2 е intS для всех Яе=@, 1). Доказательство, Так как x2eintS, то существует такое е > 0, что {z: || z — х21| < е} с= S. Пусть У = ЯХ1 + A-А)х2, B.1) где X ^@,1). Чтобы доказать, что yeintS, достаточно по- построить окрестность точки у, принадлежащую целиком множе- множеству S. Покажем, что множество (z ||z — у|| < A — Х)г} czS. Зафиксируем произвольную точку z, для которой ||z —у||<; <СA—Я)8, и обратимся к рис. 2.4. Так как xi^clS, то мно- множество { х: || х - xi ||< О — Я) е —1| z — у 1) J n s непусто# в qa. стности, существует такая точка zx e S, для которой B.2) Положим z2 = z~__ ^ , Из B.1), неравенства Шварца и B.2) получаем .,_ „ „ Д Z ~ Я2! | |1 B - %ZX) - (У - I|Z2-X2||= , , -xg = рзт — у) + Я(Х1 — Zl) H^; T_L__(||Z — у JJ-Ч- Я||Х1 — Zl |!) < е. Следовательно, z2 e S. Из определения z2 вытекает, что z = = A,zi+(l—^)z2, и так как zi, z2g=S, to и zgS. Таким обра- образом, показано, что любой вектор z, для которого ||z — у|| < <[A—X)8, принадлежит S Следовательно, y^intS Ш СЛЕДСТВИЕ 1. Пусть 5 —выпуклое множество. Тогда мно- множество int S выпукло.
52 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Рис. 2.4. Отрезок прямой, соединяющий точки замыкания и внутренности. СЛЕДСТВИЕ 2. Пусть 5 — выпуклое множество с непустой внутренностью. Тогда множество cl S выпукло. Доказательство. Пусть хь x2eclS. Возьмем zeintS(no предположению intS Ф 0). По теореме А,х2 + A — Я) z e intS при ^е@, 1). Зафиксируем некоторое jo. ^ @, 1). По теореме № + A — |х)[Ях2 + A ~ A,) z] €= int S с S при А, е= @, 1). Пере- Переходя в этом выражении к пределу при Я—> 1, получим, что \кх{ + (I — \i) x2 e cl S. ¦ СЛЕДСТВИЕ 3. Пусть S — выпуклое множество с непустой вйутренностью. Тогда cl S = cl (int 5). « Доказательство. Очевидно, что cl (int S) с: cl S. Пусть х е cl S. Выберем yeintS (intS=^=0 по предположению). Тогда Ах + •+• A — X) у е int S при ^ е (О, I). Переходя к пределу при X -> 1, получим, что х eel (int S). ¦ СЛЕДСТВИЕ 4. Пусть 5 — выпуклое множество с непустой внутренностью. Тогда int (cl S) — int S. Доказательство. Заметим, что int 5 с int (cl 5). Пусть х1 е e int (cl S). Покажем, что Xi e int S. Так как Xj <= int (cl S), то найдется такое е > 0, что из неравенства ||у — Xi И < в следует, что yeclS. Возьмем некоторый вектор х2^=хь принадлежа- принадлежащий intS. Положим у = A + А)Х| — Ах2, где А^^~——ф Так как || у — Xi //== е/2, то у eel 5. Кроме того, х1 = А,у + + A— А,)х2, где X = { , д е @, 1). Поскольку yeclS, a x2 e ^intS, то по теореме Xj^intS. ¦ Теорема 2.2.2 и ее следствия могут быть значительно уси- усилены, если воспользоваться понятием относительной внутренно* сти (см. комментарии в конце этой главы).
2.3. ОТДЕЛИМОСТЬ И ОПОРНЫЕ ГИПЕРПЛОСКОСТИ 53 2.3. Отделимость и опорные гиперплоскости Понятие опорной гиперплоскости „и отделимости для непересе- непересекающихся выпуклых множеств играет очень важную роль в тео- теории оптимизации. С использованием этих понятий связаны почти все условия оптимальности и соотношения двойственности. Ре- Результаты этого параграфа основаны на следующем геометриче- геометрическом факте: если задано замкнутое выпуклое множество 5 и точка y&S, то среди точек из S существует единственная точка х с наименьшим расстоянием до у и существует гиперплоскость, разделяющая множество S и точку у. Минимальное расстояние от точки до выпуклого множества Для доказательства сформулиррванного выше утверждения по- потребуется следующее правило параллелограмма. Пусть а и Ь — векторы из Еп. Тогда Складывая эти равенства, получим правило параллелограмма Это равенство иллюстрируется на рис. 2.5 и может быть интер- интерпретировано следующим образом: сумма квадратов длин диаго- диагоналей параллелограмма равна сумме квадратов длин его сторон. 2.3.1. ТЕОРЕМА. Пусть S — замкнутое выпуклое_множество из Еп и y^S. Тогда существует единственная точка х& S с ми- минимальным расстоянием до у. Эта точка х находится на мини- минимальном расстоянии от у тогда и только тогда, когда (х — х)гХ X(х — у)^ 0 для всех xg5. Доказательство. Пусть inf{||у — х||: xgS} = y>0. Тогда существует такая последовательность {х*} точек из S, что Ну — Xfe||-^Y« Используя признак Коши, покажем, что {х*} схо- сходится к xeS. По правилу параллелограмма имеем - у |р + 2f|xm - у |р - 4||Х^Х"- у X + X Заметим, что k 2 ^ e S; Из определения y получаем, что Рт^ — у|Г> Y2> поэтому || х, - хт ||* < 2 || х, - у |р +
54 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Ь Рис. 2.5. Правило параллелограмма. + 2||хш — у ||2 — 4у?. Выбирая k и т достаточно большими, можно сделать величины ||хл, — у||2 и || хт — у ||2 сколь угодно близкими к Y2 и, следовательно, || xk — xm ||2 — сколь угодно близкой к нулю. Тогда по признаку Коши последователь- последовательность {xk} сходится к некоторому х^ Так как S — замкнутое множество, toxgS. Единственность х докажем от противного. Пусть существует точка х' е 5, такая, что ||у —х || = || у— х' || = у. х 4- х' В силу выпуклости S точка —-~— принадлежит S. Из нера- неравенства Шварца имеем || у _ i±2l| ^ ^,| у _ х || + ±ц у _ х' || = у. По определению у строгого неравенства быть не может. По- Поэтому последнее соотношение выполняется как равенство. Отсюда, у—х = Цу — х') для некоторого X. Так как ||у — х|| = = Ну — хх|| = Y» то |Я|=1. Ясно, что X =р= —1, так как в про- х + х тивном случае у = —^—gS, что противоречит предположе- предположению у ф S. Следовательно К = 1 и х' = х. Для завершения доказательства осталось показать, что усло- условие (х — х)г(х — у)^0 для всех xeS является необходимым и достаточным для того, чтобы х была ближайшей к у точ- точкой из S. Покажем достаточность условия. Пусть xgS, Тогда П у — х |р = || у — х -Ь х — х ||2 == = || у — х||2 +1| х — х ||2 + 2 (х — кO1 (у ~ х). Так как || х — х ||2 ^ 0, то по предположению (х — х)г (у — х) > О для всех xeS выполняется неравенство ||у — х||2^||у — х||2# Следовательно, х — ближайшая к у точка множества S.
2.3. ОТДЕЛИМОСТЬ И ОПОРНЫЕ ГИПЕРПЛОСКОСТИ 55 Рис. 2.6. Расстояние от точки до замкнутого выпуклого множества. Обратно, пусть ||у — х||2^||у — х||2 для всех хеЯ.^ х ^ S, то для достаточно малого Я > О точка х + Я (х — x)gS, Поэтому __ _ _ IIУ — х — Я (х — х) ||2 ^ || у — х |р B.3) и Ну — х —Я(х —х)||2 = ~хГ(х-у). B.4) Из B.3) и B.4) для всех достаточно малых положительных Я справедливо неравенство Я21| х - х ||2 + 2Я (х - х)т (х - у) > О. Разделив на Я и устремляя Я к нулю, получаем необходимость условия. ¦ Эту теорему иллюстрирует рис. 2.6. Заметим, что угол между х — х и х — у для любой точки xeS не превосходит 90° и, сле- следовательно, (х — х)г(х — у) 5*0. Гиперплоскости и разделение двух множеств Так как речь пойдет о разделяющей и опорной гиперплоскостях, то необходимо прежде всего дать строгие определения гипер- гиперплоскости и полупространства, 2.3.2. ОПРЕДЕЛЕНИЯ. Совокупность всех точек вида {х: ргх = а}, где р — ненулевой вектор из Еп, а а — скаляр, образует гиперплоскость Н в пространстве Еп. Вектор р назы- называется нормалью к гиперплоскости. Гиперплоскость Н задает два замкнутых полупространства #+ = {х: ртх ^ а} и Н~ = *= {х: ргх^а}, а также два открытых полупространства {х :р7х > а} и {х: ргх < а}. Заметим, что любая точка из Еп принадлежит либо Я+, либо Н-9 либо и тому и другому полупространствам. Гиперплоскость
56 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Рис. 2.7. Гиперплоскость и полупространства. Я и соответствующие полупространства могут быть записаны с помощью некоторой фиксированной точки, например х е Я. Если хе Я, то ргх = а и, следовательно, любая точка хей должна_ удовлетворять равенству ргх — ргх = а_— а = 0, т. е. рг (х — х) = 0. _ Следовательно, Я+ = {х: рг (х — х) ^ 0}, Н~ =ь = {х: р7(х — х)^ 0}. На__рис. 2.8 изображена гиперплоскость Я. проходящая через точку х и имеющая своей нормалью вектор р. В качестве примера рассмотрим гиперплоскость Я = = {(*i, *2, хг, х4): Х\ + х2 — *з + 2*4 == 4}. Нормалью к ней яв- является вектор р ===== A,1,—1,2)г. Эта же гиперплоскость может быть записана с помощью любой другой точки из Я, например с помощью х = @, 6, 0, —1)г. В этом случае Я = {{х\, Х2, хг, х±)\ F) 2AH} 2.3.3. ОПРЕДЕЛЕНИЕ. Пусть Si и S2 — непустые множест- множества из Еп. Говорят, что гиперплоскость Я = {х: ргх = а} разде- разделяет S\ и 5г, если ргх ^ а для всех xgSi и ргх ^ а для всех x^S2. Если, кроме того, S\\JS2<? Я, то разделение называется собственным. Гиперплоскость Я строго разделяет множества S\ и S2, если ртх > а для всех xgSi и ргх < а для всех х е 52. Говорят, что гиперплоскость Я сильно разделяет S\ и S2, если существует такое положительное е, что ргх ^ а + е для всех xgSi и ргх ^ а для х е 52. На рис. 2.8 приведены примеры различных типов разделения двух множеств. Очевидно, что сильная отделимость влечет за собой строгую, которая в свою очередь влечет собственную от- отделимость. Несобственное разделение, как правило, не представ- представляет интереса, так как в этой ситуации, как показано на рис. 2.8,
2.3. ОТДЕЛИМОСТЬ И ОПОРНЫЕ ГИПЕРПЛОСКОСТИ 57 (а) (Ь) (О (d) Рис. 2.8. Различные типы разделения множеств, а — несобственная отдели- отделимость; Ъ — собственная отделимость; с — строгая отделимость; d — сильная отделимость. любое из двух полупространств, определяемых гиперплоскостью, содержит как точки из Si, так и из S2. Разделение выпуклого множества и точки Здесь будет сформулирована первая и наиболее важная тео- теорема об отделимости. На этой теореме основаны другие утверж- утверждения о разделяющих и опорных гиперплоскостях. 2.3.4. ТЕОРЕМА. Пусть S — непустое замкнутое выпуклое множество из Еп и у ф S. Тогда существуют такие ненулевой вектор р и скаляр а, что ргу > а и ргх ^ а для всех х е S. Доказательство. Поскольку S — непустое замкнутое выпук- выпуклое множество и у ф. S, то по теореме 2.3.1 существует единствен- единственная точка xeS, ближайшая к у, и такая, что (х—х)г(у—х)^ ^ 0 для всех xgS. Заметим, что ||у - х||2 = (у - х)т (у - х) = у7'(у - х) - хт (у - х). B.5) Так как — хт (у — х) ^ — хг (у — х) для всех xeS, to из B.5) следует, что рг (у — х) :> || у — х ||2 для всех х е S. Здесь р =
58 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА = у —х=^0. Отсюда pry ^ ргх + ||у — х||2 для всех xgS. Положив а = sup {prx: x <= S}, получим утверждение теоремы. ¦ СЛЕДСТВИЕ. Пусть задано замкнутое выпуклое множество S из Еп. Тогда пересечение всех полупространств, содержащих это множество, равно S. Доказательство. Очевидно, что множество S содержится в пересечении всех содержащих его полупространств. Доказатель- Доказательство обратного включения проведем от противного. Предполо- Предположим, что существует точка у, принадлежащая пересечению полу- полупространств, но не принадлежащая S. По теореме 2.3.4 найдется полупространство, содержащее 5, которому точка у не принад- принадлежит, но это противоречит выбору у. ¦ Сформулированные ниже утверждения эквивалентны утверж- утверждению теоремы. При желании читатель легко может это прове- проверить. Заметим, что утверждения 1 и 2 эквивалентны только в частном случае, когда у — точка. 1. Существует гиперплоскость, строго разделяющая 5 и у. 2. Существует гиперплоскость, сильно разделяющая 5 и у. 3. Существует такой вектор р, что pry > sup {prx: xgS}. 4. Существует такой вектор р, что р7у < inf {prx: xeS}. Теорема Фаркаша как следствие теоремы 2.3.4. Теорема Фаркаша широко используется при выводе условий оптимальности для задач линейного и нелинейного программи- программирования. Эта теорема может быть сформулирована следующим образом. Пусть А — матрица порядка mXn, с — вектор из Еп. Тогда имеет решение только одна из двух систем неравенств: система 1: Ах ^ О, сгх > 0, хеЕп; система 2: Агу = с, у^О, уе?т. Если обозначить столбцы матрицы Аг через аь ..., ат, то система 2 имеет решения, если вектор с принадлежит выпуклому конусу, порожденному векторами аь ..., ат. Система 1 имеет решения, если замкнутый выпуклый конус {х: Ах ^ 0} и откры- открытое полупространство {х: с7х > 0} имеют непустое пересечение. Эти два случая показаны на рис. 2.9. 2.3.5. ТЕОРЕМА (Фаркаш). Пусть А —матрица порядка тХ^, с — вектор из Еп. Тогда разрешима только одна из сле- следующих систем: система 1: Ах<0, сгх > 0, х е Еп; система 2: Агу = с,
2.3. ОТДЕЛИМОСТЬ И ОПОРНЫЕ ГИПЕРПЛОСКОСТИ 59 Открытое — .полупространство *~*7 Замкнутый выпуклый „* #онус Система 1 имеет решение Система 2 имеет решение* Рис. 2.9. Теорема Фаркаша. Доказательство. Предположим, что система 2 разрешима, т. е. существует такой у ^ 0, что А^у = с. Пусть Ах ^ 0. Тогда стх = у7" Ах ^ 0. Следовательно, система 1 не имеет решения. Предположим теперь, что система 2 неразрешима. Рассмотрим замкнутое выпуклое множество S= {х: х = Агу, у^О}. По предположению с ф. S. Тогда в силу теоремы 2.3.4 найдутся век- вектор ps?n и скаляр а, такие, что ргс > а и ргх ^ а для всех xgS. Так как OeS, то а ^ 0, и, следовательно, ргс > 0. От- Отсюда а ^ pWy = yrAp для всех у ^ 0. Так как компоненты неотрицательного у могут быть выбраны сколь угодно большими, то из последнего неравенства следует, что Ар ^ 0. Таким обра- образом, построен вектор р е /?„, для которого Ар ^ 0 и р7с > 0, т. е. система 1 разрешима. В СЛЕДСТВИЕ 1. Пусть А — матрица порядка /пХ^, с — век- вектор из Еп. Тогда разрешима только одна из двух систем: система 1: Ах^0, х^0, сгх > 0, xgEn\ система 2: А^у^с, у>0, уЕ?т. Доказательство. Это утверждение сразу же следует из теоре- теоремы, если заменить А7 на [Аг, —I]. ¦ СЛЕДСТВИЕ 2. Пусть А — матрица порядка пг'Хп, В — матрица порядка /Хя, с — вектор из Еп. Тогда разрешима только одна из следующих систем: 0, Вх = 0, crx >0,xg En\ = c,y^0,ye ?те, z e ?/. система 1: Ах система 2: Ary Доказательство. Утверждение непосредственно вытекает из теоремы при замене Ат на [Аг, Вг, —В7]. ¦
60 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Опорная гиперплоскость к выпуклым множествам Уже установлено, что существует гиперплоскость, разделяющая замкнутое выпуклое множество S из Еп и точку у, не принадле- принадлежащую этому множеству. Если S — незамкнутое множество, то либо y^clS и теорема 2.3.4 может применяться, либо ye&S. Ниже будет показано, что выпуклое множество имеет в каждой граничной точке опорную гиперплоскость. Введем следующее определение. _2.3.6. ОПРЕДЕЛЕНИЕ. Пусть S —непустое множество в Еп и xe&S. Гиперплоскость Н = {х: рг(х — х) = 0} называется опорной к S в точке х, если либо S с: Я+, т. е. рг(х — х) ^ 0 для всех xeS, либо SaH-, т. е. рг(х— х)^0 для всех xgS. Если к тому же S ф Н, то Н называется собственной опорной гиперплоскостью к S в точке х. Это определение может быть переформулировано следующим эквивалентным образом. Гиперплоскость Н = {х: рг(х — х)=0} является опорной к множеству S в точке х, если р7х = inf {prx: xeS} или prx = sup {prx: xs 5}. На рис. 2.10 приведены примеры опорных гиперплоскостей. В частности, изображены случаи, когда в граничной точке су- существует единственная опорная гиперплоскость, когда опорных гиперплоскостей бесконечное число, "когда гиперплоскость яв- является опорной в более чем одной точках, и, наконец, случай несобственной опорной гиперплоскости, когда она содержит все множество. Ниже будет доказано, что выпуклое множество имеет опор- опорные гиперплоскости в любой граничной точке (см. рис. 2.11). Как следствие будет получен результат, аналогичный теоре- теореме 2.3.4, для случая когда множество S не обязательно зам- замкнуто. 2.3.7. ТЕОРЕМА. Пусть 5 — непустое выпуклое множество в ?„ й xg 6S. Тогда существует гиперплоскость, опорная к S в точке х, т, е. существует такой ненулевой вектор р, что рт (х — х) ^ 0 для всех х е cl S. Доказательство. Так как х е dS, то найдется последователь- последовательность {уй}, такая, что yk^c\S для всех k и у*—*х. По теоре- теореме 2.3.4 для каждого у& найдется такой р*, что ||р*||= = 1, р?ул > р?х для всех xeclS. (В теореме 2.3.4 вектор нор- нормали к гиперплоскости можно нормировать, чтобы ||р^||=1). Так как последовательность {р*} ограничена, то можно вы-
2.3. ОТДЕЛИМОСТЬ И ОПОРНЫЕ ГИПЕРПЛОСКОСТИ 61 Рис. 2.10. Примеры опорных гиперплоскостей. Рис. 2.11. Опорная гиперплоскость. брать подпоследовательность {pk}Xy сходящуюся к р, ||р||= 1. ?fe > р?х при любом х е cl 5. cl S и перейдем в последнем не- не, JgJ. Тогда рт(х — х)^0. ¦ Для этой подпоследовательности Зафиксируем произвольный х равенстве к пределу при &-* СЛЕДСТВИЕ. Пусть S — непустое выпуклое множество в Еп и х ф. 5. Тогда найдется ненулевой вектор р, такой, что рт (х — х) <; 0 для всех х е cl S. Доказательство. Если_ х ф. cl 5, то утверждение следует из теоремы 2.3.4. Если же х е cl S, то утверждение вытекает из теоремы 2.3.7. Ш Разделение двух выпуклых множеств Выше доказана возможность разделения выпуклого множества и внешней по отношению к этому множеству точки. Кроме того, показано существование опорной гиперплоскости к выпуклому множеству в граничной точке. Теперь покажем, что два непере- непересекающихся выпуклых множества могут быть разделены гипер- гиперплоскостью Н так, что одно из них будет лежать в #+, а дру- другое— в Н~. На самом деле этот результат остается справедли- справедливым и в том случае, когда два множества имеют общие точки, а их внутренности не пересекаются. Более точно приведенные рассуждения формулируются в виде следующей теоремы.
62 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА 2.3.8. ТЕОРЕМА. Пусть S\ и S2-— непустые выпуклые мно- множества в Еп, такие, что Sif|S2 = 0. Тогда существует гипер- гиперплоскость //, разделяющая S\ и S2, т. е. существует такой нену- ненулевой вектор р из ЕПу что inf{prx: х е Sx) > sup {prx: xgS2}. Доказательство. Рассмотрим выпуклое множество S = = 5i —52= {xi —x2: xi е5ь x2gS2}. Так как S\ (]S2 = 0, то 0^5. Тогда по следствию из теоремы 2.3.7 найдется ненулевой вектор ре?«, такой, что ртх ^ 0 для всех xeS. Отсюда сле- следует, что prxj ^ ргх2 для всех xigSi и х2еS2. В СЛЕДСТВИЕ 1. Пусть S\ и S2— непустые выпуклые мно- множества из ЕП1 intS2 ф 0, S\ П intS2 = 0. Тогда существует та- такой ненулевой вектор р, что inf {prx: х е S{} > sup {ргх: х е 52}. Доказательство, Утверждение сразу же вытекает из теоремы, если 52 заменить на intS2 и воспользоваться равенством sup {ргх: х е S2} = sup {ргх: х е int S2}. В СЛЕДСТВИЕ 2. Пусть Si и S2 — выпуклые множества, int S\ ф 0, int 52=7^=0, int Si Л int52 = 0. Тогда существует та- такой ненулевой вектор р, что inf{prx: xg SJ ^ sup {prx: xgS2}. Теорема Жордана как следствие теоремы 2.3.8 В нелинейном программировании часто используется теорема Жордана, основанная на существовании гиперплоскости, разде- разделяющей два непересекающихся множества. Подобно теореме Фаркаша эта теорема утверждает, что из двух приведенных ниже систем линейных неравенств разрешима только одна. 2.3.9. ТЕОРЕМА (Жордан). Пусть А — матрица порядка пгУ^п. Из следующих систем линейных неравенств разрешима только одна: система 1: Ах < 0, х g ?n; система 2: Агр = 0, р ^ 0, р е Em, P Ф 0. Доказательство. Сначала покажем, что если система 1 имеет решение х, то система 2 неразрешима. Предположим, что су- существует решение р системы 2. Тогда так как Ах < 0, р ^ 0, р ф 0, то ргАх < 0, т. е. хгА7р < 0. Однако Агр = 0 по пред- предположению. Следовательно, х7Агр = 0. Противоречие показы- показывает, что система 2 неразрешима.
2.4. ВЫПУКЛЫЕ КОНУСЫ И ПОЛЯРНОСТЬ 63 Предположим теперь, что система 1 неразрешима. Рассмо- Рассмотрим два множества: 51 = {z: z = Ax, x €=?„}, 52 = {z: z < 0}. Заметим, что Si, S2 — непустые выпуклые множества и S\ (IS2 = = 0. Тогда по теореме 2.3.8 найдется гиперплоскость, фазде- ляющая эти множества, т. е. существует ненулевой вектор р, такой, что ргАх ^ prz для любого хе^ и zeclS2. Так как каждая компонента вектора z может быть сколь угодно мала, то р ^ 0. Кроме того, положив z = 0, получаем, что prAx ^ 0 для всех хе?"«. Выберем х = —Агр. Тогда —11Агр||2 ^ 0, т. е. Агр = 0. Следовательно, система 2 разрешима. ¦ Теорему отделимости 2.3.8 можно усилить, чтобы избежать тривиальной отделимости, когда Si и S2 содержатся в разде- разделяющей гиперплоскости. 2.3.10. ТЕОРЕМА (о сильной отделимости). Пусть Si и S2 — замкнутые выпуклые множества и Si — ограниченное. Если S{ П S2 = 0, то существуют такие ненулевой вектор р и скаляр 8 > 0, ЧТО inf{prx: x^S1}>e + sup{p7'x: x<=S2}. Доказательство. Пусть S = Si — S2. Тогда S — выпуклое множество и 0^S. Покажем, что S замкнуто. Пусть последова- последовательность {х*}, XfeG5, сходится к х. По определению множества S каждый элемент последовательности можно представить в виде xk = yk — Zk, где y*eSi, zfeGS2. Так как Si— компакт1), то существует подпоследовательность {у*}х, сходящаяся к у, и yeSi. Поскольку yk — Zfe-^х, у*->у при к^Ж, то Zfc->z, при- причем zeS2 в силу замкнутости S2. Отсюда следует, что х = = у — z, y&Si, zeS2, т. е. x^S, и, следовательно, S — замкнутое множество. По теореме 2.3.4 найдутся такие ненулевой вектор р и число е, что ртх ^ е для всех х е S и р70 < 8. Следовательно, е >> 0. Из определения множества S получаем, что prxi ^ 8 + + ргх2 для любых xi g 5i и х2 g S2. Ш 2.4. Выпуклые конусы и полярность В этом параграфе кратко обсуждаются понятия выпуклого ко- конуса и полярного конуса. Параграф можно опустить без ущерба Для дальнейшего изучения. *) Мы рассматриваем только конечномерные множества. В этом случае термин «компакт» — синоним термина «ограниченное замкнутое множе- множество». — Прим. перев.
64 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Рис. 2.12. Примеры конусов, а — выпуклый конус; Ъ — невьтттуклый конус. S Рис. 2.13. Полярные конусы. 2.4.1. ОПРЕДЕЛЕНИЕ. Непустое множество С из Еп назы- называется конусом с вершиной в начале координат, если из того, что zgC, следует, что кеС для всех X ^ 0. Если, кроме того, С — выпуклое множество, то оно называется выпуклым конусом. На рис. 2.12 приведены примеры выпуклого и невыпуклого конусов. Ниже определяется важный частный класс выпуклых кону- конусов— полярные конусы. На рис. 2.13 иллюстрируется это по- понятие. 2.4.2. ОПРЕДЕЛЕНИЕ. Пусть S — непустое множество в Еп. Множество S* = {р: ртх ^ 0 для любого х е 5} называется по- полярным конусом к 5. Если множество S пусто, то S* по опреде- определению совпадает с Еп. Сформулированная ниже лемма, доказательство которой оставлено читателю в качестве упражнения, сводит воедино не- некоторые факты, касающиеся полярных конусов. 2.4.3. ЛЕММА. Пусть S, 5Ь S2 — непустые множества в Еп. Тогда справедливы следующие утверждения: 1. S* — замкнутый выпуклый конус; 2. Sc S**, где S** — полярный к S* конус; 3. Если Si с S2, то S2 с: 51.
2.6. МНОГОГРАННЫЕ МНОЖЕСТВА И ЭКСТРЕМАЛЬНЫЕ НАПРАВЛЕНИЯ 65 Докажем теперь важную теорему о замкнутых выпуклых ко- конусах. Как применение этой теоремы приведем другой вывод теоремы Фаркаша. 2.4.4. ТЕОРЕМА. Пусть С — непустой замкнутый выпуклый конус, тогда С = С**. Доказательство. Очевидно, что С а С**. Возьмем произволь- произвольный хеС** и предположим, что хфС. По теореме 2.3.4 най- найдутся ненулевой вектор р и скаляр а, такие, что ргу <; а для всех убСиргх>а. Так как y = 0sC, то ос ^ О и, следова- следовательно, ргх > 0. Покажем, что ре С*. Если р^С*, то ргу > 0 для ^некоторого уЕС и при соответствующем выборе К число рг(Яу) можно сделать сколь угодно большим. Это противоречит тому, что ргу ^ а для всех ysC. Следовательно, р е С*. По- Поскольку хбС**, то prx ^ 0, что противоречит неравенству р7* >0. ¦ Теорема Фаркаша как следствие теоремы 2.4.4 Пусть А — матрица порядка тХя, С= {Агу: у^О}. Оче- Очевидно, что С — замкнутый выпуклый конус. Легко проверить, что С* = {х: Ах^О}. По теореме 2.4.4 вектор с принадлежит С** тогда и только тогда, когда сеС. Но если се С**, то сгх <; 0 для всякого хеС*. Это эквивалентно тому, что как только Ах ^ 0, то с7х ^ 0. Из определения множества С сле- следует, что сеС, когда с = Агу и у^О. Тогда утверждение С = С** можно сформулировать следующим образом: система 1 совместна тогда и только тогда, когда система 2 имеет решение У, где система 1: если Ах ^ 0, то сгх ^ 0; система 2: Агу = с, у ^ 0. Это утверждение можно записать в более привычной и эквива- эквивалентной форме — в виде теоремы Фаркаша. Разрешима только одна из следующих систем: система 1: Ах<0, сТх > 0 (т. е. с^С** = С); система 2: Агу = с, у ^ 0 (т. е. се С). 2.5. Многогранные множества, экстремальные точки и экстремальные направления В этом параграфе вводятся понятия экстремальной точки и экстремального направления для выпуклых множеств. Более подробно обсуждается их использование в важном частном слу- случае, когда множества многогранны. 3 М. Базара, К. Шетти
66 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Рис. 2.14. Многогранное множество. Многогранные множества Многогранные множества являются важным частным случаем выпуклых множеств. Как следует из теоремы 2.3.4, любое замк- замкнутое выпуклое множество является пересечением всех его со- содержащих замкнутых полупространств. Для представления мно- многогранного множества необходимо конечное число полу- полупространств. 2.5.1. ОПРЕДЕЛЕНИЕ. Непустое множество S из Еп назы- называется многогранным, если оно является пересечением конечного числа замкнутых полупространств, т. е. S = {x: p[x^a., * = = 1, ..., т}, где р^ — ненулевые векторы, а* — скаляры, / = = 1, ..., т. Заметим, что многогранное множество замкнуто и выпукло. Так как любое равенство может быть заменено парой нера- неравенств, то многогранное множество может быть представлено при помощи конечного числа равенств и/или неравенств. Типич- Типичными примерами многогранных множеств являются следующие: = {x: Ax = b, x>0}, x>0}. Здесь A — матрица порядка mX^> b —вектор из Ет. На рис. 2.14 изображено многогранное множество S={(jti, X2): — xi + x2<:2>xi^ 0, x2 ^ 4, x2 S? 0}.
2.5. МНОГОГРАННЫЕ МНОЖЕСТВА И ЭКСТРЕМАЛЬНЫЕ НАПРАВЛЕНИЯ 67 Экстремальные точки и экстремальные направления Введем теперь понятия экстремальной точки и экстремального направления и дадим полную характеристику этих понятий для многогранного множества. 2.5.2. ОПРЕДЕЛЕНИЕ. Пусть S — непустое выпуклое мно- множество в Еп. Вектор xgS называется экстремальной: точкой множества 5, если представление x = Xxi + A — Я)х2, где xi, x2eS, ^g@, 1), справедливо только при xi = х2 = х. Приведем несколько примеров экстремальных точек выпук- выпуклых множеств. Обозначим множество экстремальных точек че- через Е. На рис. 2.15 соответствующие множества изображены жирно выделенными точками и линиями. 1. S = {(xIf x2): ** + 4<1}, ? = {(*!> *2): *1 + 4 = 1}- 2. S = {(xu x2): xx + x2<:2, —xl + 2x2 ?={@, Of, @, If, (|, ~)Г, B, Of}. 3. S-—многогранник, порожденный точками @, Of, (I, If, A, 3f, @, 2f, (-2, 4f, ? = {@, Of, A, If, A, 3f, (-2, 4f}. Из рис. 2.15 видно, что любая точка выпуклого множества S может быть представлена как выпуклая комбинация экстре- экстремальных точек. Это верно для выпуклых компактов. Если же множество не ограничено, то не всякая точка этого множества может быть представлена в виде выпуклой комбинации экстре- экстремальных точек. Рассмотрим, например, множество S = {(хи х2): х2^ \xi\}. Очевидно, что S выпукло и замкнуто. Однако оно содержит только одну экстремальную точку, а именно начало координат. Естественно, что S не совпадает с совокупностью всех выпуклых комбинаций его экстремальных точек. В случае неограниченного множества помимо понятия экстремальной точки требуется понятие экстремального направления. 2.5.3. ОПРЕДЕЛЕНИЕ. Пусть S —замкнутое выпуклое мно- множество в Еп* Ненулевой вектор d из Еп называется направлением множества S, если для любого х е 5 точка х + Xd e 5 при всех ^ ^ 0. Два направления di и d2 называются различными, если di Ф ad2 для любых a > 0. Направление d множества S назы- называется экстремальным, если оно не может быть представлено в виде положительной линейной комбинации двух различных на- направлений, т. е. если d = Xidi + tad2, %u h2 > 0, то di = ad2 при некотором a > 0. Для иллюстрации этого понятия рассмотрим множество S = == {(xi, x2)\ x2^ |*i|}, изображенное на рис. 2.16. Направления
68 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Рис. 2.15. Экстремальные точки. @. 0) Рис, 2.16. Экстремальные направления. множества S совпадают с ненулевыми векторами, которые со- составляют с вектором @,1)г угол, не больший 45°. В частности, di=(l,lO и (Ь = (—1,1)г являются экстремальными направ- направлениями. Любое другое направление множества S может быть представлено как положительная линейная комбинация di и d2. Характеристика экстремальных точек и экстремальных направлений Рассмотрим, многогранное множество S= {x: Ах = b, х ^ 0}, где А — матрица порядка mX«, b — вектор из Ет. Предполо- Предположим, что ранг матрицы А равен т. Если это не так, то можно отбросить лишние уравнения. Экстремальные точки. Переставим столбцы матрицы А так, что А = [В, N], где В — матрица порядка тУ^пг полного ранга, N — матрица порядка тХ(я — т)- Пусть Хв и \N — векторы, отвечающие В и N соответственно. Тогда соотношения Ах = Ь, х ^ 0, могут быть переписаны в виде:
2.5. МНОГОГРАННЫЕ МНОЖЕСТВА И ЭКСТРЕМАЛЬНЫЕ НАПРАВЛЕНИЯ 69 В следующей теореме формулируются необходимые и доста- достаточные условия для того, чтобы точка х была экстремальной точ- точкой множества S. 2.5.4. ТЕОРЕМА (о характеристике экстремальных точек). Пусть 5 = {х: Ах = Ь, х ^ 0}, где А — матрица порядка тУ^п ранга m, b — вектор из Ет. Точка х является экстремальной теч- течкой множества 5 тогда и только тогда, когда перестановкой столбцов матрица А может быть представлена в виде [В, N] так, что Гхв"| ГВМЬ1 L xN J L 0 J где В — невырожденная матрица порядка т, удовлетворяющая неравенству B~Jb ^ 0. Доказательство. Пусть матрица А может быть представлена I, B~ib:>0. Очевидно, что x g S. о J Предположим теперь, что x = Axi + A>~Х)х29 хь x2gS, Яе@,1). Представим х[ = (х[р xf2), xT2 =(x?p xf2). Тогда Так как xi2, х22 ^ 0 и Яе@, 1), то xi2 = x22 = 0. Но тогда xn = x2i = B-Ib и, следовательно, х = xi = х2. Таким образом, показано, что х — экстремальная точка S. Обратно, предполо- предположим, что х — экстремальная точка 5. Не умаляя общности, мож- можно считать, что х = (х\9 ..., xk, 0, ..., ОO*, где х\, ..., Xk по- положительны. Покажем сначала, что столбцы аь ..., а* линейно независимы. Пусть это не так, т. е. существуют такие числа k %и ..., А*, не все равные нулю, что? Я/а/ = 0. Обозначим Х = = (ЛЬ ..., Kk, 0, ..., 0)г и построим два вектора Xj = х + аку х2 = х — ак, где число а > 0 выбрано так, что xu x2 ^ 0. Заметим, что k k k Ах! = Ц (Xf + аХ}) ау = Е ^/а/ + а ? Яуа; = Ь. Ц (f + }) у Е // + ? Аналогично показывается, что Ах2 = Ь. Поэтому xi, x2 e S, и так как а > 0, то xi и х2 различны. Более того, х = ^- (xi + x2).
70 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Это противоречит тому, что х — экстремальная точка. Таким об- образом, аь ..., а* линейно независимы. Тогда из оставшихся п — k столбцов можно выбрать т — k так, чтобы они вместе с первыми k столбцами образовали т линейно независимых век- векторов. Для простоты предположим, что это столбцы а*+ь ..., ат- Тогда,матрица А может быть записана в виде А = [В, N], где В = [аь ..., ат] — матрица полного ранга. При этом В-*Ь = — (хь ..., Xky 0, ..., 0)Т> и так как х\ > 0 при / = 1, ..., k, то В-'Ь ^ 0. ¦ СЛЕДСТВИЕ. Число экстремальных точек множества S конечно. Доказательство. Число экстремальных точек не превосходит п! Сп=—гт \7—числа сочетаний из п по /и, являющегося т! (п — т)\ максимальным числом способов выбора т столбцов из матрицы А для формирования В. ¦ Из последней теоремы следует, что многогранное множество вида {х: Ах = b, x ^ 0} имеет конечное число экстремальных точек. В следующей теореме утверждается, что каждое много- многогранное множество такого вида имеет по крайней мере одну экстремальную точку. 2.5.5. ТЕОРЕМА (существования экстремальных точек). Пусть задано непустое множество 5 = {х: Ах = Ь, х^О}, где А — матрица порядка /пХ« ранга /л, b — вектор из Ет. Тогда 5 имеет по крайней мере одну экстремальную точку. Доказательство. Пусть xgS и х = (х\, ..., xki 0, ..., 0)г, где X/ > 0 при /=1, ..., k. Если вектор-столбцы аь ..., а* линейно независимы, то k ^ m и х — экстремальная точка. В противном случае существуют числа ^ь ..., Яд, из которых хотя бы одно положительно, и такие, что Z ^/а/== 0. Пусть a— mm к / < k i л/ Рассмотрим вектор х' с компонентами ( Xj — akj при / = 1, • •., k, */==Ч 0 при j = k+l, ..., п. Очевидно, что х'^0 при /=1, ..., k и х^ = 0 при ; = ; + 1, ..., п. Кроме того, x't — 0 n п k k k /-1 /-1 J l /-1 ; /-i
2.5. МНОГОГРАННЫЕ МНОЖЕСТВА И ЭКСТРЕМАЛЬНЫЕ НАПРАВЛЕНИЯ 71 Таким образом, построена новая точка х', у которой не более k—1 положительных компонент. Этот процесс можно продол- продолжить до тех пор, пока положительные компоненты не будут со- соответствовать линейно независимым столбцам. I Экстремальные направления. Пусть 5 = (х: Ах = Ь, х^О}, где А — матрица порядка тХ« ранга /п. По определению нену- ненулевой вектор d задает направление множества S, если х + Хй е е S для всех х е S и X ^ 0. Учитывая структуру множества 5, можно заметить, что вектор d Ф 0 является направлением мно- множества S тогда и только тогда, когда Ad = 0, d>0. Особый интерес вызывают экстремальные направления мно- множества 5. 2.5.6. ТЕОРЕМА (характеристика экстремальных направле- направлений). Пусть S= (х: Ах = Ь, х^О}, где А — матрица порядка тХя ранга т, b — вектор из Ет. Вектор d задает экстремаль- экстремальное направление множества S тогда и только тогда, когда мат- матрица А перестановкой столбцов может быть представлена в ваде [В, N] так, что В~]а/ ^ 0 для некоторого столбца а/ из N, и d — положительное кратное вектора dr = [(— B^a/O*, е[]. Здесь е/ есть (п —• т)-мерный вектор, /-я компонента которого равна 1, а остальные — нулю. Доказательство. Если В-1а/ ^ 0, то d ^ 0. Более того, Ad = = 0, так что d — направление множества 5. Покажем теперь, что d —экстремальное направление. Предположим, что d = = Mdi + A,2d2, где %\, %2 > 0, a di, d2 — направления множества 5. Заметим, что п — m—1 компонент вектора d равны нулю. Тогда и соответствующие компоненты векторов di и d2 должны равняться нулю и векторы di и d2 могут быть записаны в виде где ai, сс2 > 0. Учитывая, что Adi = Ad2 = 0, легко проверить, что dn = d2i = —В^а/. Тогда направления di и d2 не являются различными, т. е. dj—экстремальное направление. Обратно, пусть d — экстремальное направление множества S. Будем считать, что d = (du ..., 3k, 0, ..., Я/, ..., 0)г, где di > 0 при / = 1, ..., k и / = /. Установим, что вектор-столбцы аь ..., а* линейно независимы. Предположим, что это не так, т. е. существуют числа Яь •.., Xk не все нулевые, такие, что 2^af 0, Примем обозначение ^ = (Яь ..., Xky 0, ..., 0)т и
72 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА выберем а > О так, чтобы векторы di = d + ak и d2 = d — ah были неотрицательными. Заметим, что Ad! = Adf+ aAk = 0 + аЦ ъ{кг = 0. Точно так же и Ad2 = 0. Так как di, d2 ^ 0, то оба вектора за- задают направления множества S. Заметим также, что они раз- различны, так как a > 0 и X ф 0. Кроме того, d = -^d{ + y*^- Это противоречит тому, что d — экстремальное направление. Следо- Следовательно, векторы аь ..., а* линейно независимы, и так как ранг матрицы А равен т, то k ^ /п. Тогда можно выбрать т—k векторов из множества {а,-: i = k-\-l, ..., п\ 1ф\}, которые совместно с аь ..., а* образуют систему линейно независимых векторов. Не умаляя общности, можно считать, что это векторы аь ..., ат. Обозначим матрицу [аь ..., ат] через В. Очевидно, что В невырождена. Таким образом, 0 = Ad = Bd + а/d/, где d — вектор из первых т компонент ^вектора 3. Отсюда d_ = = —??/В-1а/ и, следовательно, вектор d представим в виде d = "В ау1. Так как d>0 и df>0, то В'^/^О. И СЛЕДСТВИЕ. Число экстремальных направлений множест- множества 5 конечно. Доказательство. Для каждого выбора матрицы В из А су- существует п — m возможных способов выделения столбца а/ из N. Следовательно, максимальное число экстремальных направ- направлений не превосходит (п — m)C%= ml<n^m_ ^ • ¦ Представление многогранного множества через экстремальные точки и экстремальные направления По определению любое многогранное множество является пересечением конечного числа полупространств. Такое представ- представление может рассматриваться как внешнее представление. Мно- Многогранное множество может быть также полностью описано по- посредством внутреннего представления через его экстремальные точки и экстремальные направления. Этот факт является фун- фундаментальным для различных методов линейного и нелинейного программирования.
2.5. МНОГОГРАННЫЕ МНОЖЕСТВА И ЭКСТРЕМАЛЬНЫЕ НАПРАВЛЕНИЯ 73 Основной результат может быть сформулирован следующим образом. Пусть S — многогранное множество вида {х: Ах = Ь, х^О}. Тогда любая точка из 5 может быть представлена как сумма выпуклой комбинации экстремальных точек и неотрица- неотрицательной линейной комбинации экстремальных направлений. Естественно, что если S — ограниченное множество, то оно не содержит экстремальных направлений и, следовательно, любая точка из S представляется в виде выпуклой комбинаций экстре- экстремальных точек. В сформулированной ниже теореме 2.5.7 неявно предпола* гается, что у множества 5 конечное число экстремальных точек и экстремальных направлений, что утверждается следствиями из теорем 2.5.4 и 2.5.6. 2.5.7. ТЕОРЕМА (о представлении). Пусть в Еп задано не- непустое многогранное множество S = {х: Ах — b, x ^ 0}, где А — матрица порядка т\п и ранга m, b — вектор из Ет. Пусть Хь ..-, Xfc — экстремальные точки, a di, ..., d/ — экстремальные направления множества S. Для того чтобы точка х принадле- принадлежала 5, необходимо и» достаточно существование таких чисел |i/, / = 1, ... f /, и X/, / = 1, ..., ?, что к I X = Za ^/Х/ "Т 2_ /-1 /~1 B.6) /=1, ¦.., *, B.7) /=1, ...,/. B.8) Доказательство. Построим множество k iji Zj Л/= 1, Я/ ^0, /= 1, ..., k, Заметим, что множество Л замкнуто и выпукло. Кроме того, в силу теоремы 2.5.5 существует по крайней мере одна экстре- экстремальная точка множества 5 и, следовательно, Л — непустое множество. Заметим также, что Л cz S. Доказательство того, что S с: Л, будем проводить от противного. Предположим, что век- вектор zeShz^A. Тогда по теореме 2.3.4 существуют такие век- вектор р??„и скаляр а, что prz > а, р^Ь/Х/+ЕМ/)<а ' B.9)
74 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА для всех к] и [х/, удовлетворяющих B.6) —B.8). Так как |ш/ мож- можно выбрать сколь угодно большими, то неравенство B.9) спра- справедливо только тогда, когда prd/ <; 0 для /= I, ..., /. Поло- Положив \lj = 0 для всех /, А,/ = 1 и h = 0 для / Ф /, получаем из B.9), что ргх/ ^ а для / = 1, ..., k. Так как prz > а, то p7z > > ргх/ при всех /. Отсюда следует, что существует ненулевой вектор р, для которого prz>prx7 при /=1, ..., kt B.10) prd,<° при /=1, ...,/. B.11) Рассмотрим экстремальную точку х, определенную следую- следующим образом: prx = max ргх,. B.12) Так как х — экстремальная точка, то по теореме 2.5.4 х = где А = [В, N] и В^^^О. Без потери общности = | J, можно считать, что В^Ь > 0 (см. упр. 2.42). Так как z&S, то Az = b и z^O. Поэтому BzB + Nz^ = b и, следовательно, zB = Bb — B""lNz^. Здесь zT = (zTB> zTN). Из B.10) имеем prz — prx > 0. Представим pr в виде (р^, р^). Тогда 0 < ртх - ргх = ртв (ВЪ ^ B-lNzJ + faN - PaB^b = = (pD-pBB~lN)ZiV. B.13) Так как zN ^ 0, то из B.13) следует, что найдется компонента / ^ m + 1, такая, что z}- > 0 и pf — р^В"^ > 0. Покажем теперь, что у/ = В~!а/^0. Пусть у/ ^ 0. Рассмот- Рассмотрим dj = (— yTj, ej), где е/ есть (д — пг) -мерный единичный вектор с единицей в /-й позиции. По теореме 2.5.6 d/ — экстре- экстремальное направление множества 5. Из B.11) следует, что prd/<; 0, т. е. — р^В~1а;. + ру ^0, а это противоречит утверж- утверждению, что pj — р?в~!ау > 0. Следовательно, у/^0 и можно по- построить вектор где b = B"b, a == min [А: у >0} = А-
2.6. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ И СИМПЛЕКС-МЕТОД 7# Заметим, что х имеет не более т положительных компонент и г-я компонента обращается^ в нуль, а /-я равна X. Вектор х принадлежит 5, так как Ах=В(В~1Ь — XB~1slj)-\- Xslj = b. По- Поскольку t)r\ Ф 0, легко показать, что векторы аь ..., аг-ь а^+ь • • • 9 ат, а/ линейно независимы. Тогда из теоремы 2.5.4 следует, что х — экстремальная точка, т. е. x^{xi, ..., х&}. Кроме того, (Ph Pi) ( Ъ ~ * Так как Я > 0 и р^ — р^В 1а/ > О, то ртх > ргхг Таким образом, построена экстремальная точка х, для которой ргх> > ргх. Это противоречит B.12). Следовательно, zgA. I СЛЕДСТВИЕ (существование экстремальных направлений). Пусть S — непустое многогранное множество вида {х: Ах = Ь, х^О}, где А — матрица порядка raXj* ранга т. Для того чтобы 5 содержало хотя бы одно экстремальное направление, необходимо и достаточно, чтобы множество S было неограни- неограниченным. Доказательство. Если множество 5 содержит экстремальное направление, то оно, очевидно, неограниченное. Пусть 5 — не- неограниченное множество. Предположим, что оно не имеет экстре- экстремальных направлений. Используя теорему и неравенство Швар- Шварца, получим, что |Х|| = Ц_ J-1 для любого х е S. Это противоречит неограниченности множе- множества S. Следовательно, 5 имеет хотя бы одно экстремальное направление. ¦ 2,6. Линейное программирование и симплекс-метод Задача линейного программирования состоит в оптимизации ли- линейной функции на многогранном множестве. Многие практиче- практические задачи могут быть сформулированы, по крайней мере при- приближенно, в виде задачи линейного программирования. Кроме того, задачи линейного программирования часто используются в процессе решения нелинейных оптимизационных задач. В этом параграфе описан хорошо известный симплекс-метод решения линейных задач. В основе этого метода лежит возможность представления точек многогранного множества через его экстре- экстремальные точки и направления.
76 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Рассмотрим следующую задачу линейного программирова- программирования: минимизировать сгх при условии xgS, где S — многогранное множество из Еп. Множество 5 называют множеством ограничений или допустимой областью, а линейную функцию сгх— целевой функцией. Оптимальное значение целевой функции задачи линейного программирования может быть как конечным, так и неограни- неограниченным. Ниже будет приведено необходимое и достаточное усло- условие для того, чтобы оптимальное значение целевой функции было конечным. Важность понятий экстремальной точки и экстремального направления становится очевидной из следую- следующей теоремы. 2.6.1. ТЕОРЕМА (условия оптимальности для задачи линей- линейного программирования). Рассмотрим следующую задачу линей- линейного программирован^: найти минимум с7х при условиях Ах = = Ь, х ^ 0. Здесь с — вектор из Еп> А — матрица порядка m X п ранга m, b — вектор из Ет. Предположим, что допустимая об- область непуста, и обозначим через хь ..., xk экстремальные точки, а через di, ..., d/ — экстремальные направления множе- множества ограничений. Для того чтобы оптимальное значение целе- целевой функции было конечным, необходимо и достаточно, чтобы crd/ ^ 0 при /=1, ..., /. Если это условие выполняется, то среди решений задачи будет хотя бы одна экстремальная точка X/. Доказательство. По теореме 2.5.7 некоторая точка х удовле- удовлетворяет системе ограничений Ах = b, x ^ 0 тогда и только тогда, когда k i х=11я/х/+ II Мл А/>0, /=1, ..., k, В связи с этим исходная задача может быть переписана в виде / k i \ минимизировать с'г( X XjXj + ? M-/d/J k при условиях 52 Я/ = 1,
16. Линейное программирование и симплекс-метод 77 Заметим, что если crd/ < 0 для некоторого /, то целевая функция неограничена, так как \х/ может быть выбрано сколь угодно большим. Это показывает, что необходимым и достаточ- достаточным условием для конечности оптимального значения целевой функции является выполнение неравенств crd/ ^ 0 для всех / = == 1, ..., /. Если это условие выполнено, то для нахождения минимального значения целевой функции можно положить |li/ = 0 при /=1, ..., / и свести задачу к минимизации сг( ХЯ/Х/1 при условии, что ?Я/=1, Я/^0, /=1, ..., k. Очевидно, что оптимальное решение последней задачи конечно и может быть легко найдено, если положить h = 1 и X/ = О при / Ф U где индекс i таков, что cTxt = min сгх/. Таким об- разом, среди решений всегда существует экстремальная точка. ¦ Из этой теоремы следует, что по меньшей мере в том случае, когда допустимая область ограничена, можно решить задачу линейного программирования, вычислив сгх/ при /=1, ..., k и затем найдя минимальное из всех с7х/, /= 1, ..., k. Однако, хотя теоретически это возможно, с практической точки зрения этот способ может оказаться неприемлемым из-за очень боль- большого (в реальных задачах астрономически большого) числа экстремальных точек. Симплексный метод Симплексный метод — некоторая систематическая процедура ре- решения задачи линейного программирования, состоящая в дви- движении от одной экстремальной точки допустимой области к дру- другой с лучшим (или по крайней мере не худшим) значением це- целевой функции. Затем процесс продолжается до тех пор, пока не будет найдена либо оптимальная экстремальная точка, либо экстремальное направление d, для которого crd <C 0. В послед- последнем случае делается вывод, что оптимальное значение целевой функции неограничено. Рассмотрим следующую задачу линейного программирова- программирования, в которой многогранное множество определено с помощью равенств, а на переменные накладывается условие неотрица- неотрицательности: минимизировать сгх при условиях Ах = Ь, х>0. Заметим, что любое многогранное множество может быть представлено в предложенной выше так называемой канонической
ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА форме. Так, например, неравенство вида ? ацХ} ^ ^ можно заменить равенством, вводя неотрицательную дополнительную п переменную s*, так что 2 аах! + S/ = ft*. Аналогично перемен- переменные х/, на которые не наложено требование неотрицательно- неотрицательности, могут быть заменены разностью двух неотрицательных пе- переменных xf и хг, т. е. л^ =.*:+ — xj. Эти и некоторые другие преобразования используются для приведения задачи к канони- каноническому виду. Временно будем предполагать, что множество ограничений содержит хотя бы одну допустимую точку и что ранг матрицы А равен т. Из теоремы 2.6.1 следует, что по крайней мере в случае ко- конечности оптимального значения целевой функции достаточно сконцентрировать внимание на экстремальных точках. Возьмем некоторую экстремальную точку х. В силу теоремы 2.5.4 эту точку характеризует представление матрицы А в виде [В, N], где 8 = ^5^..., авт] есть m-мерная матрица полного ранга, называемая базисом, и N—_матрица порядка mX(« — tri). По этой же теореме вектор х может быть представлен в виде хг = (хд, x^) = (br, О), где Ь = В~!Ь>0. Переменные, соот- соответствующие столбцам матрицы В, называются базисными и обозначаются хв , .,., хв . Остальные переменные, соответ- соответствующие столбцам матрицы N, называются внебазисными. Рассмотрим теперь произвольную точку х, для которой Ах = Ь, х ^ 0, и представим ее в виде хг = (х?, х?). Тогда ра- равенство Ах = b можно записать в виде Вхв + Nx^ = b. Следо- Следовательно, xB = B~1b —B"!Nx^. B.14) Используя представление B.14), получаем сгх = ствхв + стмхм = dsB-'b + (cN - cTBb~lN) xN = == сгх + (сдг — cTBB~lN)xN. B.15) Если с]у — c^B^N^O, то в силу неотрицательности х^ спра- справедливо неравенство сгх 1> сгх их — оптимальная экстремаль- экстремальная точка. Пусть с^ — c^B^N ^0, в частности пусть для не- некоторого / компонента с} — СдВ"^ < 0. Рассмотрим точку (—. ft"*~^a \ '), tj есть (п — т)-мерный еди-
2.6. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ И СИМПЛЕКС-МЕТОД 79 ничный вектор с единицей в /-й позиции. Тогда из B.15) сле- следует, что __ сгх = сгх + %{Ci - сЕв^аД B.16) и так как с. — с^В""^ < 0, то сгх < с^х при Я>0. Положим Уу = В~1а/ и рассмотрим следующие два случая. 1- У/ ^ 0. Так как Ах = b и Ad/ = 0, то Ах = b для х = = x+^d/ при всех К. Следовательно, х — допустимая точка тогда и только тогда, когда х ^ 0. Очевидно, что при у/ ^ 0 это справедливо для всех I ^ 0. Но тогда из B.16) следует, что значения целевой функции неограниченны. В данном случае найдено экстремальное направление d/, для которого cTdj = = Cj — СдВ^а. < 0 (см. теоремы 2.6.1 и 2.5.6). 2. У/^0. Пусть B-]b = b и К определено соотношением Я= min {-^-: Уи>о\ = ^->О, B.17) где tjif есть /-я компонента вектора у/. В этом случае компонен- компоненты вектора х = х + Ы} определяются следующим образом: В ъ Г! B.18) Х/ = —r—% остальные компоненты равны нулю. Ут\ Положительными могут быть только хв , ..., хв , хв , ..., хв , xj7 т. е. не более га компонент. Легко проверить, что соответствующие им столбцы матрицы А линейно независимы. Поэтому в силу теоремы 2.5.4 точка х сама является экстремаль- экстремальной. В этом случае будем говорить, что базисная переменная хв выводится из базиса, а внебазисная переменная х\ вводится в базис на ее место. Итак, показано, что если задана произвольная экстремальная точка, то можно либо установить, что она оптимальна, либо найти экстремальное направление, приводящее к неограниченно- неограниченному значению целевой функции, либо найти экстремальную точку с лучшим значением целевой функции. В последнем случае про- процесс повторяется. Алгоритм симплекс-метода Ниже в общих чертах намечена схема алгоритма симплекс- метода для задачи минимизации стх при условиях Ах = b, x ^ 0. Задача, р которой требуется найти максимум сгх, может быть
80 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА сведена к соответствующей задаче минимизации либо решена с помощью алгоритма, у которого первый шаг модифицирован та- таким образом, что остановка процесса происходит при выполне- выполнении неравенства c^B^N — cTN ^ 0, а х\ вводится в базис, если c?B~1a/ — c/<0. Начальный этап. Найти начальную экстремальную точку х с базисом В. Если это сделать трудно, то использовать метод искусственных переменных, который обсуждается в этом пара- параграфе ниже. Основной этап. Шаг 1. Пусть х — экстремальная точка с ба- базисом В. Вычислить c^B^N—с^. Если этот вектор неположи- неположительный, то остановиться; х — оптимальная экстремальная точка. В противном случае выбрать наибольшую положительную компоненту cTBB~l2Lj —- cjt Если у/ = В~1а/ <!0, то остановиться; оптимальное значение целевой функции неограничено вдоль луча Я>о }, где е/ — вектор, все компоненты которого, кроме /-й, равны нулю, а /-я — единице. Если у/ ^ 0, то перейти к шагу 2. Шаг 2. Вычислить номер г в соответствии с B.17) и по- построить новую экстремальную точку по формулам B.18). Сфор- Сформировать новый базис, выводя из В столбец а#г и вводя вместо него а/. Повторить шаг 1. Сходимость за конечное число шагов Если на каждой итерации, т. е. при прохождении всего основ- основного этапа, b = B-1b > 0, то X, определяемое по формуле B.17), будет строго положительным и значение целевой функции в те- текущей экстремальной точке будет строго меньше, чем во всех экстремальных точках на предыдущих итерациях. Отсюда сле- следует, что текущая точка отличается от всех, построенных на предыдущих итерациях. Так как число экстремальных точек ко- конечно, то симплексный алгоритм должен остановиться через ко- конечное число шагов. Если Ъг = 0, то К = 0 и алгоритм перехо- переходит к новой экстремальной точке с тем же значением целевой функции. Теоретически такой переход может повторяться беско- бесконечное число раз. Однако на практике этот процесс, называемый зацикливанием, встречается крайне редко. Можно указать спо- способы, позволяющие избежать зацикливания, но здесь эти во- вопросы обсуждаться не будут, так как во многих учебниках по линейному программированию они описываются достаточно подробно.
2.6 ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ И СИМПЛЕКС-МЕТОД 81 Табличное представление симплекс-метода Пусть имеется начальный базис В, соответствующий началь- начальной экстремальной точке. Целевая функция и ограничения за- задачи линейного программирования могут быть записаны в виде строка — целевая функция f — сТвхв ~~c^xyv==^» строки-ограничения Вхв + Nx# = b. Эти равенства можно свести в следующую симплекс-таблицу, в которой ПЧ (правая часть) соответствует их правым частям: / xl xl ПЧ 1 0 -4 в N 0 b Строки-ограничения преобразуются умножением на В-1. К строке целевая функция прибавляются новые строки-ограни- строки-ограничения, умноженные на с?. При этом получается следующая пре- преобразованная таблица: хв т XN ПЧ 1 0 от I 4b-'n-c? B-'N Ь Заметим, что базисные переменные отмечены в таблице сле- слева. Значения базисных переменных и целевой функции записаны в правой части таблицы. Кроме того, вектор c^B^N —c^ и ма- матрицу B^N удобно хранить под внебазисными переменными. Последняя таблица содержит всю информацию, необходимую для завершения первого шага симплекс-метода. Если c^B^N — — с^ ^ 0, то процесс прекращается — последняя (текущая) экстремальная точка является оптимальной. В противном слу- случае при просмотре строки целевой функции можно отобрать внебазисную переменную с отрицательным значением с^В~1а/ — — су. Если В ау<;0, то процесс прекращается — оптимальное значение целевой функции неограниченно. Предположим, что у/= В-^а/^О. Так как Ъ и у/ записаны под ПЧ и %\ соответ- соответственно, то, следуя B.17), по таблице легко вычислить К. Базис- Базисная переменная хВг, соответствующая минимальному отношению в B.17), выводится из базиса, a xj вводится в бази?.
82 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Теперь желательно так преобразовать таблицу, чтобы полу- получить наглядную информацию о новом базисе. Это можно сделать с помощью так называемого ведущего преобразования. Назовем строку, отвечающую выводимой из базиса переменной xBf, веду- ведущей строкой и столбец, отвечающий вводимой в базис xj, веду- ведущим столбцом. Элемент уп; стоящий на их пересечении, назовем ведущим элементом. Тогда ведущее преобразование с ведущим столбцом, соответствующим хВг, и ведущей строкой, соответ- соответствующей Xj (или просто с ведущим элементом yrj), состоит в следующем. 1. Разделить ведущую строку (r-ю строку, соответствующую хвг) на ведущий элемент уг/. 2. Умножить новую r-ю строку на уц и результат вычесть из 1-й строки ограничений для всех i = 1, ..., m, хф г. 3. Умножить новую r-ю строку на ctbB~~X2l. — ct и результат вычесть из строки целевой функции. Легко проверить, что проделанное преобразование модифи- модифицирует таблицу в соответствии с новым базисом (см. упр. 2.48). 2.6.2. ПРИМЕР. Минимизировать хх — Зх2 при условиях —- Xi + 2х2 х\ + х2 хи х2 ^ 0. Геометрическая иллюстрация этой задачи показана на рис. 2.17. Очевидно, что оптимальной является точка (-g-, -g-J а соответствующее ей значение целевой функции равно —^-. Чтобы использовать симплексный метод, введем две неотри- неотрицательные дополнительные переменные хъ и х4. Тогда исходная задача перепишется в каноническом виде: минимизировать х} — Зх2 при условиях — х] + 2х2 + хъ =6, *1 + *2 + *4 = 5, Г—1 2 1 01 Здесь с = A, -3, 0, 0)г, Ь = F, 5f, A = [ { { Q { J. Вы- Г1 01 _ берем в качестве В матрицу [а3, а4] = I q . I • Так как В b ==
2.6. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ И СИМПЛЁКС-МЕТОД 83 1 Рис. 2.17. Задача линейного программирования. = Ь>0, то найдена начальная экстремальная точка. Ей соот- соответствует таблица ПЧ 1 0 0 -13 0 0 110 1 0 6 5 х4 Очевидно, агз выводится из базиса, а дгг вводится. Новый ба- базис В = [аг, а4). / *2 Х4 f 1 0 0 к ъ 0 1 0 *з 0 0 1 ПЧ -9 3 2 Теперь выводится х*, а вводится *ь Новый базис В = г== [а2, а,|. f Xi Х2 Хз *5 ПЧ f 1 0 0 0 0 1 0 1 0 4 "~ 3 J- 3 1 3 1 3 1 3 2 3 29 3 11 3 4 3
g4 ГЛ- 2. ВЫПУКЛЫЕ МНОЖЕСТВА Так как c^B~lN — cTN ^0, то получено оптимальное реше- решение. Три точки, соответствующие трем таблицам, изображены в пространстве (х\, х2) на рис. 2.17. Таким образом, показано, что в симплексном методе происходит движение от одной экстре- экстремальной точки к другой, пока не будет достигнута оптимальная. Начальная экстремальная точка Напомним, что для использования симплекс-метода необхо- необходимо задать некоторую начальную экстремальную точку. Из теоремы 2.5.4 следует, что нахождение начальной экстремальной точки связано с разбиением матрицы А на В и N так, чтобы В~!Ь ^ 0. В примере 2.6.2 начальная точка определялась легко. В практических случаях эта задача решается не столь просто. Начальная точка может быть получена введением искусственных переменных. Здесь коротко обсуждаются две процедуры нахождения на- начальной экстремальной точки — двухэтапный метод и Af-метод. Для обоих методов прежде всего необходимо привести задачи к каноническому виду Ах = Ь, х ^ 0, причем вектор b предпо- предполагается неотрицательным (если Ьь < 0, то i-e ограничение умно- умножается на (—1)). Двухэтапный метод. В этом методе ограничения задачи из- изменяются введением искусственных переменных так, чтобы на- нахождение экстремальной точки новой системы не составляло труда. В частности, система ограничений приводится к виду х, ха > 0, где ха — вектор искусственных переменных. Очевидно, х = 0, ха = b является экстремальной для построенной задачи. По- Поскольку допустимое решение исходной задачи получается только если ха = 0, то можно использовать симплекс-метод для реше- решения задачи минимизации суммы искусственных переменных, на- начиная из указанной экстремальной точки. Это приводит к сле- следующему этапу I решения исходной задачи: минимизировать Fxa при условиях Ах + ха = Ь, х, ха>0, где I — вектор, все компоненты которого равны единице. При окончании первого этапа может оказаться, что либо ха Ф 0, либо ха = 0. В первом случае исходная система несовместна, т. е. до- допустимая область пуста. Во втором — искусственные перемен-
УПРАЖНЕНИЯ 85 ные выводятся из базиса !) и, таким образом, получается экстре- экстремальная точка исходной системы. Начиная из этой точки, как из исходной, на втором этапе симплекс-методом решается за- задача минимизации целевой функции. М-метод. В этом случае, так же как и в двухэтапном методе, ограничения изменяются введением искусственных переменных таким образом, чтобы экстремальная точка новой задачи нахо- находилась достаточно легко. Каждой искусственной переменной на- назначается большой положительный штраф М с тем, чтобы в оптимальном решении полученной задачи значение этой пере- переменной было равно нулю. После введения искусственных пере- переменных в соответствии с ЛГ-методом задача принимает вид минимизировать сгх + М1тха при условиях Ах + ха = Ь, х, ха>0. Если в оптимальном решении ха = 0, то получено решение исходной задачи. Если ха Ф О в конце процедуры симплекс-ме- симплекс-метода и введенная в базис переменная имеет наибольший положи- положительный коэффициент в строке целевой функции, то это озна- означает, что система Ах = b, x ^ 0, не имеет решений. Упражнения 2.1. Пусть S — непустое множество в Еп. Покажите, что для выпукло- выпуклости S необходимо и достаточно, чтобы для любого k ^ 2 из того, что точки , Xk принадлежат S, следовало, что 2^ ^ixi е^> если ^^ Я/ ===== 1 и Я/ ^ 2.2. Пусть S — выпуклое множество в Еп, А — матрица порядка т X я, а — скаляр. Покажите, что следующие множества выпуклы: a) AS = {у: у = Ах, х е S}; b) ccS = {ах: х е= 5}. 2.3. Пусть Si = {х: Xi = 0, 0 ^ х2 < 1}, 52 = {х: 0 ^ Xi < 1, х2 = 2}. Опишите множества 5i + S2 и Si — S2. 2.4. Докажите лемму 2.1.2. 2.5. Пусть S — замкнутое множество. Обязательно ли замкнуто множе- множество Н E)? Если в общем случае H(S) не замкнуто, то сформулируйте доста- достаточные условия замкнутости H(S). (Указание: предположите, что S — компакт.) 2.6. Пусть Si и S2 — непустые множества в Еп. Покажите, что ff(Sif]S2)czH(Si)f]H(S2). Всегда ли справедливо равенство H(Si()S2)=* = H(Si) П H(S2)? Если нет, то приведите контрпример. 2.7. Докажите лемму 2.1.4. 2.8. Пусть S — многогранник в Еп. Покажите, что S —замкнутое огра- ограниченное выпуклое множество. 1) Вполне возможно, что некоторые искусственные переменные остаются в базисе в конце первого этапа с нулевыми значениями. Этот случай легко поддается анализу (см. Charnes and Cooper [1961], Dantzig [1963]).
?в ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА 2.9. Пусть Si и S2— замкнутые выпуклые множества. Докажите, что мно- множество Si + S2 выпукло. Покажите на примере, что множество Si + S2 не обязательно замкнуто. Докажите, что компактность одного из множеств яв- является достаточным условием для замкнутости Si + S2. 2.10. Пусть Si = {Xdt: X ^ 0}, S2 = {Xd2: X > 0}, где di, d2 — ненулевые векторы из En. Покажите, что Si + S2 — замкнутое выпуклое множество. 2.11. Множество L называется линейным подпространством в Еп, если L а Еп и из того, что xi, x2 e L, следует, что taxi + ХгХг ^ L для любых Xi, Х2 е ?i. Множество /А = {у: угх = 0, х е L) называется ортогональным дополнением к L. Покажите, что любой вектор из Еп может быть однозначно представлен в виде х = х4 + х2, где xi eL, x2 e L1-. Запишите в таком виде вектор х = A, 2, 3), приняв за L множество {(хи *2, х3): 2х{ + х2 — х3 = 0}. 2.12. Пусть S — многогранник в?яи5/ = {Xd/: X >0}, где d/ — ненулевой k вектор из Еп, /=1, ..., k. Покажите, что S+ ^Г S/— замкнутое выпуклое /-1 множество. (Заметим, что из упр. 2.8 и 2.12 следует замкнутость множества Л, по- построенного при доказательстве теоремы 2.5.7.) 2.13. Выделите замыкание, внутренность и границу для следующих вы- выпуклых множеств. a) S = {x:a:? + *2<*3}; b) S = {х : i < *i < 2, x2 = 3}; c) S = {x: x\ + x2 < 3, — Xi + x2 + x3 < 5, xu x2i xs > 0}; d) S = {x:*, + a:2 = 3, xx + x2 + xz < 6}; e) S = {x :*?-{-** + **< 4, ^1-f^3 = l}. 2.14. Пусть S = {x:^ + *2 + *!<l, *f — л:2<0} и у = A, 0, 2)т. Найдите минимальное расстояние от у до S, точку из S, ближайшую к у, и гиперплоскость, разделяющую у и S. 2.15. Докажите, что только одна из приведенных ниже систем разре- разрешима: a) Ах > 0, х > 0, с7* > 0; b) А'у > с, у < 0. (Указание: используйте теорему Фаркаша.) 2.16. Покажите, что система Ах ^ 0, сгх > 0, где имеет решение в Ез. 2.17. Пусть А —матрица порядка ту^п. Докажите, используя теорему Фаркаша, что только одна из приведенных ниже систем разрешима: система 1: Ах > 0; система 2: Агу = 0, у ^ 0, у ф 0. (Это утверждение — теорема Жордана — в книге доказано с помощью теоремы 2.3.8.) 2.18. Пусть А —матрица порядка т X л, с есть /2-мерный вектор. Пока- Покажите, что разрешима только одна из следующих систем: система 1: Ах = с; система 2: Агу = 0, сгу = 1. (Теорема Гейла об альтернативах.)
УПРАЖНЕНИЯ 87 2.19. Пусть А — матрица порядка т X п. По_ка*ж]ите, что приведенные ниже системы имеют решения х и у, для которых Ах + у > 0: система 1: Ах ^ О, система 2: Агу = 0, у ^ 0. (Теорема существования Таккера.) 2.20. Пусть А — матрица порядка р X я, В — матрица порядка qY^n. По- Покажите, что если система 1 не имеет решения, то система 2 разрешима: система 1: Ах < 0, Вх = 0, х е Еп\ система 2: Aru + Brv = 0, (u, v) Ф 0, и ^ 0. Покажите также, что если В — матрица полного ранга, то только одна си- система разрешима. Является ли требование полноты ранга матрицы В необхо- необходимым? Докажите необходимость либо постройте контрпример. 2.21. Пусть А —матрица порядка р X я, В — матрица порядка qXn. По- Покажите, что только одна из следующих систем имеет решение: система 1: Ах < 0, Вх = 0, х е Еп\ система 2: кТ\х + Ът\ = 0, и Ф 0, и ^ 0. 2.22. Пусть Si и S2 — выпуклые множества в Еп. Покажите, что гипер- гиперплоскость, строго разделяющая Si и S2, существует тогда и только тогда, когда inf {|| х, - х2||: X! €= Su x2 e S2} > 0. 2.23. Пусть Si = {х: х2 ^ е~х\}у S2 = {х: х2 < — е~х\}. Покажите, что множества S4 и S2 не пересекаются и найдется разделяющая их гиперпло скость. Существует ли гиперплоскость, строго разделяющая Si и S2? 2.24. Пусть Si и S2 — непустые непересекающиеся выпуклые множества в Еп. Докажите, что существуют такие два ненулевых вектора pi и р2, что p[xt + р?х2 > 0 для всех Xj е S{ и х2 е S2. Можно ли обобщить этот результат на три и более непересекающихся мно- множества? 2.25. Рассмотрим множество S = {х : х\ + х\ < 1J. Представьте S в виде пересечения полупространств. Выпишите эти полупространства в явном виде. 2.26. Пусть С — непустое множество в Еп. Покажите, что С тогда и только тогда является выпуклым конусом, когда из того, что xi, X2 е С, следует, что XiXi + Л2Х2 е С для всех %i, k2 ^ 0. 2.27. Пусть С! и С2 — выпуклые конусы в Еп. Покажите, что Ci + С2 также выпуклый конус и С\ + Сг == Н(С\ U С2). 2.28. Пусть S — непустое множество в Еп и xeS. Рассмотрим множе- множество С = {у: у = Х(\ —"х), ^>0,хе5}. a) Покажите, что С — конус и проинтерпретируйте это геометрически. b) Покажите, что если S — выпуклое множество, то С также выпукло. c) Пусть S — замкнутое множество. Обязательно ли замкнуто С? Если нет, то при каких условиях С замкнуто? 2.29. Пусть конус Се = {у : у = Я (х — х), Я > 0, xs=S[)Ne (x)}, где N& (к) есть е-окрестность точки х. Обозначим через Т пересечение всех таких кону" сов, т. е. Т = Л {Св ' е > 0}. Нарисуйте конус Т. _ (Множество Т называется конусом касательных к множеству S в точке х. Более подробно конус касательных обсуждается в гл. 5.) 2.30. Выпишите в явном виде полярный конус С* к следующим конусам; а) С = {(*t, хг): 0 < х2 < *i);
88 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА b) С = {(*!, х2): *a^ c) С = {х. х = Ар, р > 0}. 2.31. Пусть 5 — непустое множество в Еп. Множество Sp называется по- полярной множества S, если Sp = {у: угх < 1 для всех х е S]. a) Найдите поляры множеств {(хи х2): х\ + х\ <1} и {(хи х2): Xi + x2^ ^ 2, —xi + 2x2 < 1, хи х2 > 0}. b) Покажите, что Sp — выпуклое множество. Обязательно ли оно зам- замкнуто? c) Если 5 — многогранное множество, обязательно ли и Sp многогранно? d) Покажите, что если «S — многогранное множество, содержащее начало координат, то S = Spp. 2.32. Пусть С — непустой выпуклый конус в Еп. Покажите, что С + С* = = Еп, т. е. любая точка из Еп может быть представлена в виде суммы точек из С и из полярного конуса С*. Единственно ли это представление? Что бу- будет, если С — линейное подпространство? 2.33. Найдите экстремальные точки и экстремальные направления следую- следующих множеств: a) 5 == {х: х2 ^ #?, хЛ + х2 + хь < 1}; b) S = {х: Xi + х2 + хз < 2, Xi + х2 = 1, хи х2, Хз > 0}; c) S = {х: х2 > |jci|, x\ + xi ^ 1}. 2.34. Рассмотрим множество S = {х: —Х\ + 2х2 ^ 3, ^2^1, *i + х2 ^ ^ 2, хи Х2 ^ 0}. Найдите все экстремальные точки и экстремальные напра- направления. Представьте точку ( 1, -^-) в виДе суммы выпуклой комбинации экс* тремальных точек и неотрицательной линейной комбинации экстремальных направлений. 2.35. Пусть S — симплекс в Еп с вершинами х4, ..., x*+i. Покажите, что экстремальные точки совпадают с вершинами. 2.36. Укажите множество направлений для каждого из следующих вы- выпуклых множеств: a) ? = {(*!, х2): x2>xty b) S = {(*,, х2): ххх2 > 1, хх > 0}; c)'S = ta,4 Uil + |*2l<i). 2.37. Пусть 5 — замкнутое выпуклое__множество в Еп и хе5. Пусть d — ненулевой вектор из Еп, такой, что х + Ы е 5 для всех X ^ 0. Пока- Покажите, что d — направление множества S. 2.38. Найдите экстремальные точки и экстремальные направления сле- следующих многогранных множеств: a) S = {х: Xi + х2 + Хз < 10, — Х\ + 2a:2 = 4, хи х2у Хз > 0}; b) S = {х: Xi + 2a:2 > 2, — Xi + x2 = 4, хи х2 > 0}. 2.39. Покажите, что С = {х: Ах ^ 0}, где А —матрица порядка тХя» содержит только одну экстремальную точку, а именно начало координат. 2.40. Пусть S = {х: Xi + х2 ^ 1}. Найдите экстремальные точки и экстре- экстремальные направления множества S. Можно ли представить любую точку из 5 в виде суммы выпуклой комбинации экстремальных точек и неотрицательной линейной комбинации экстремальных направлений? Если нельзя, то обсудите это в связи с теоремой 2.5.7. 2.41. Рассмотрим непустое неограниченное многогранное множество 5 = {х: Ах = Ь, х ^t 0}, где А — матрица порядка т X п полного ранга. Докажите непосредственно, что S имеет хотя бы одну экстремальную точку. (Указание: начиная с произвольного направления, используйте характе- характеристики экстремальной точки из теоремы 2.5.6, чтобы построить такую точку.)
УПРАЖНЕНИЯ 89 2.42. Докажите теорему 2.5.7, если предположение о невырожденности В-^Ь > 0 отсутствует. 2.43. Рассмотрим задачу т минимизировать с х при условиях Ах = Ь, где А — матрица порядка /пХ« полного ранга. Пусть х — экстремальная точ- точка и В — соответствующий ей базис. Предположим, кроме того, что В^Ь > 0. Используя теорему Фаркаша, покажите, что х — оптимальная точка тогда и только тогда, когда с^ — с^В~ N ^ 0. 2.44. Рассмотрим задачу минимизировать сТх при условиях Ах = Ь, х>0, где А — матрица порядка яг X я ранга т. Пусть х — экстремальная точка с базисом В и b= B~db. Предположим, кроме того, что 6t = 0 для некото- некоторого и Возможно ли, чтобы х была оптимальной точкой, даже если Су — c^B^aj <0 для некоторой внебазисной переменной */? Обсудите это и приведите пример, если убедитесь в возможности такой ситуации. 2.45. Решите симплекс-методом следующую задачу: минимизировать Х\ + 3*2 + *з при условиях Х\ + 4*2 + 3*з ^ 12, — *з<4, 2.46. Рассмотрим множество {х: Ах ^ Ь, х ^ 0}, где А —- матрица по- порядка т X л» b — вектор из Ет. Покажите, что вектор d задает направление множества 5 тогда и только тогда, когда Ad ^ 0, d ^ 0. Покажите, как можно использовать симплексный метод, чтобы построить такое направление. 2.47. Рассмотрим следующую задачу: минимизировать Х\ — 6д:2 при условиях Х\ + х2 < 12, - xi + 2*2 Найдите решение геометрически и проверьте его оптимальность, показав, что tJ1 2.48. Покажите подробно, что ведущее преобразование с ведущим эле- элементом уг/ преобразует симплексную таблицу. 2.49. Решите следующую задачу двухэтапным методом и М-методом максимизировать — Х\ — при условиях Х\ + 3*2 + *з ^ 4, хх + 2*2 — хг > 6, хх +xz< 12,
90 ГЛ. 2. ВЫПУКЛЫЕ МНОЖЕСТВА Комментарии В этой главе обсуждались основные свойства выпуклых множеств. Си- Систематически этот предмет впервые был исследован Минковским (Minkowski [1911]), работа которого содержит, по существу, важнейшие результаты из этой области. Свойства выпуклых множеств изложены в различных книгах, таких, как Eggleston [1958], Rockafellar [1970], Stoer and Witzgall [1970], Valentine [1964], которые можно рекомендовать для более детального изуче- изучения выпуклых множеств. В § 2.1 приведены некоторые основные определения и теорема Каратео- дори, которая утверждает, что каждая точка выпуклой оболочки произволь- произвольного заданного множества может быть представлена в виде выпуклой комби- комбинации (п + 1) точек из этого множества. Этот результат можно усилить, если воспользоваться понятием размерности множества. На его основе можно по- получить различные теоремы, близкие к теореме Каратеодори. См., например, Bazaraa and Shetty [1976], Eggleston [1958], Rockafellar [1970]. В § 2.2 исследованы некоторые топологические свойства выпуклых мно- множеств, связанные с его внутренними точками и точками замыкания. В § 2.3 приведены различные теоремы об отделимости непересекающихся выпуклых множеств. Теоремы о разделяющей и опорной гиперплоскостях особо важны для анализа задач оптимизации. Кроме того, они широко используются в тео- теории игр, функциональном анализе и теории оптимального управления. Инте- Интересно применение этих результатов в теории графов и в задачах о раскраши- раскрашивании. Для дальнейшего изучения свойств опорных и разделяющих гиперпло- гиперплоскостей можно рекомендовать работы Eggleston [1958], Klee [1969], Manga- sarian [1969a], Rockafellar [1970], Stoer and Witzgall [1970], Valentine [1964]. Многие из результатов § 2.2 и 2.3 можно усилить, если воспользоваться по- понятием относительной внутренности. Так, например, любое непустое выпуклое множество имеет непустую относительную внутренность. Гиперплоскость, соб- собственно разделяющая два выпуклых множества, существует, если их относи- относительные внутренности не пересекаются. Кроме того, можно получить усилен- усиленные варианты теоремы 2.2.2 и ее следствий. Для более детального знакомства с этим понятием см. Eggleston [1958], Rockafellar [1970], Valentine [1964]. В § 2.4 введено понятие полярного конуса. Более подробное изложение см. Rockafellar [1970]. В § 2.5 изучается важный частный случай выпуклых множеств — многогранные множества. В частности, доказана теорема о пред- представлении, утверждающая, что любая точка многогранного множества может быть представлена в виде суммы выпуклой комбинации экстремальных точек и линейной комбинации экстремальных направлений. Впервые этот результат был получен Моцкином (Motzkin [1936]), использовавшим при доказатель- доказательстве другой подход. Теорема о представлении остается справедливой для замкнутых выпуклых множеств, не содержащих прямых. Доказательство этого утверждения приведено в работах Bazaraa and Shetty [1976] и Rockafellar [1970]. Исчерпывающее изложение свойств выпуклых многогранников можно найти в работе Grunbaum [1967]. В § 2.6 приведен симплексный алгоритм для решения задачи линейного программирования. Этот алгоритм был предложен в 1947 г. Данцигом. Эф- Эффективность алгоритма, успехи в построении вычислительных программ и спо- способность линейного программирования моделировать поведение больших и сложных систем привели к широкому распространению симплексного метода и линейного программирования. Изложение симплексного метода в § 2.6 осно- основано на материале § 2.5. Для дальнейшего изучения линейного программиро- программирования можно рекомендовать книги Bazaraa and Jarvis [1977], Charnes and Cooper [1961], Dantzig [1963], Hadley [1962], Simmonard [1966].
Выпуклые функции Выпуклые и вогнутые функции имеют много специальных важ- важных свойств. К примеру, локальный минимум выпуклой функции на выпуклом множестве является глобальным. В этой главе вводятся в рассмотрение выпуклые и вогнутые функции и иссле- исследуются некоторые их свойства. Как будет показано в дальней- дальнейшем, эти свойства могут быть использоцаны при выводе условий оптимальности и построении вычислительных схем для задач оптимизации, содержащих выпуклые и вогнутые функции. План главы § 3.1. Определения и основные свойства. Вводятся выпуклые и вогнутые функции и рассматриваются их важнейшие свойства. Доказывается непрерывность выпуклой функции. Вводится по- понятие производной по направлению. § 3.2. Субградиенты выпуклых функций. Выпуклая функция имеет выпуклый надграфик и, следовательно, он обладает опор- опорной гиперплоскостью. Это свойство приводит к важному поня- понятию субградиента выпуклой функции. § 3.3. Дифференцируемые выпуклые функции. В этом па- параграфе приводится ряд характеристик дифференцируемости выпуклых функций, которые являются полезным инструментом для проверки выпуклости простых дифференцируемых функций. § 3.4. Минимумы и максимумы выпуклых функций. Этот параграф весьма существен, так как связан с задачей миними- минимизации или максимизации выпуклой функции на выпуклом мно- множестве. Исследуются необходимые и достаточные условия ми- минимума. Показывается, что минимум находится в экстремальной точке. Этот факт особенно важен, если выпуклое множество многогранно. § 3.5. Обобщения выпуклых функций. Возможны различные ослабления выпуклости или вогнутости. В параграфе рассма- рассматриваются квазивыпуклые и псевдовыпуклые функции и иссле- исследуются некоторые их свойства. Обсуждаются различные типы выпуклости в точке. Как будет показано в гл. 4, такой выпукло- выпуклости иногда бывает достаточно для оптимальности.
92 ГЛ. 3. ВЫПУКЛЫЕ ФУНКЦИИ 3.1. Определения и основные свойства В этом параграфе рассматриваются некоторые важные свойства выпуклых и вогнутых функций. В частности, здесь исследуется их непрерывность и дифференцируемость. 3.1.1. ОПРЕДЕЛЕНИЕ. Пусть /: S-+Eu где S —непустое выпуклое множество в Еп. Говорят, что функция / выпукла на S, если для любых xi, X2ES и ^е@, 1). Функция f строго выпукла на 5, если f [Xxi + A — Х)х2] < X/(xi) + (l — X)f(x2) для любых различных Xi и х2 из S и Яе@, 1). Функция f: S-+Ei назы- называется вогнутой (строго вогнутой), если —f выпукла (строго вы- выпукла) на S. Рассмотрим геометрическую интерпретацию сформулирован- сформулированных понятий. Пусть Xi и Х2 — две различные точки из области эффективности функции fl). Рассмотрим точку Хх\+A—А,)х2, где Хе@, 1). Заметим, что h/(xi) + (l—X)f(x2) дает средне- средневзвешенное значение функций f(x\) и f(x2), a /[Xxi + A—Х)х2] дает значение / в средней точке Яхх + A — А,)х2. Таким образом, для выпуклой функции значение f в точках отрезка, соединяю- соединяющего xi и xs, не превосходит средневзвешенного (с тем же X) значения величин f(x\) и f (x2). Для вогнутой функции соответ- соответствующий отрезок лежит ниже графика функции. На рис. 3.1 приведены примеры выпуклой и вогнутой функций. Следующие функции являются выпуклыми: ft (х) = — х 2 у если /5(*Р *2) = 2*1+*2~ 2*1*2» fв (*i. ^2> *з) = *i + 24 + 3*з* ~ 4*1 - Взяв эти функции со знаком минус, получим примеры вогнутых функций. Заметим, что все ft(x), кроме М*)» выпуклы всюду в Еп. Функция fA(x) не определена при *<0. Нетрудно пси строить примеры, когда функция / выпукла не во всем про 4) Областью эффективности функции f (x) называется часть области опре- определения /(х), в которой \f(x)\ < оо. — Прим. перев.
3.1. ОПРЕДЕЛЕНИЯ И ОСНОВНЫЕ СВОЙСТВА 93 XX, + (J - Х)Х2 (а) (с) Рис. 3.1. Выпуклые и вогнутые функции, а—выпуклая функция; Ь — вогнутая функция; с — функция, не являющаяся ни выпуклой, ни вогнутой. странстве, а только в некоторой области. В частности, f(x) = x3 выпукла в S = {х: х ^ 0}, но в Е\ не является выпуклой. В дальнейшем будут рассматриваться только выпуклые функции. Поскольку f вогнута тогда и только тогда, когда —/ выпукла, все полученные в этом параграфе результаты легко могут быть перенесены на случай вогнутых функций. Поставим в соответствие функции / множество Sa = {xeS: /(х)^а}, обычно называемое множеством уровня. Лемма 3.1.2 показывает, что Sa выпукло при любом действительном а. 3.1.2. ЛЕММА. Пусть 5 — непустое выпуклое множество в Еп, /: S-+E\ — выпуклая функция. Тогда множество Sa = = {xeS: f(x)s^a} выпукло при любом действительном а. Доказательство. Пусть хь х2 е Sa, т. е. хь x2gSh f(x\) ^ a, ) Возьмем произвольное А,е@, 1) и рассмотрим точку +(l—Я)х2. В силу выпуклости S точка х принадлежит S. Так как функция / выпукла, то Следовательно, xsSa, т. е. Sa — выпуклое множество. Непрерывность выпуклых функций Важным свойством выпуклых и вогнутых функций является их непрерывность внутри области эффективности. 3.1.3. ТЕОРЕМА. Пусть S — непустое выпуклое множество в Еп, /: S-*E\ — выпуклая функция. Тогда / непрерывна во вну- внутренних точках множества S. Доказательство. Пусть х е int S. Чтобы доказать непрерыв- непрерывность / в точке х, необходимо показать, что для любого задан- заданного е > 0 найдется 6>0, такое, что при ||х — х||^б выиол-
94 гл. з. выпуклые функции няется неравенство |/(х)—/(х) |< е. Так как xeintS, то су- существует б', такое, что если ||х — x||^6', то xgS, Рассмотрим число 0= max {тах[/(х + бЧ)~/(х), /(х-б'е,)-/®]}. C.1) где е/ — вектор, /-я компонента которого равна 1, а остальные — нулю. Очевидно, что 0 ^ 0 < оо. Пусть 6 = min(—, -jg-). C.2) Возьмем произвольный вектор х, удовлетворяющий неравен- неравенству ||х — х|| ^ б. Положим Zi = 8'ti> если xi — xi^O, и zi = = — б7е, в противном случае. Тогда х —х=?од, где а, ^ О при i = 1, ..., я. Кроме того, . C.3) Так как ||х — х|| ^ б, то из C.2) следует, что а*^~ при i = = 1, ..., п. Тогда в силу выпуклости функции f и неравенства О ^ пщ ^ 1 получаем п /г n Отсюда f (х) - / (х) < Е о, [/ (х + zt) - f (х)]. Из C.1) следует, что /(х + Z/) — f(x) ^ 8 для любого i и, так как а« ^ 0, то
3.1. ОПРЕДЕЛЕНИЯ И ОСНОВНЫЕ СВОЙСТВА 95 Из C.3) и C.2) вытекает, чтоа^-^р. Тогда из неравенства C.4) получаем, что f(x) — f(x)^e. Остается показать, что i Пусть у = 2х — х. Тогда ||у — х|| ^ б. Поэтому . C.5) Заметим, что х = -^У + *х» ив СИЛУ выпуклости функции / получаем /(х)<1/(х)+1/(у). C.6) Используя соотношения C.5) и C.6), легко убедиться, что f(x)-f(x)<e. ¦ Необходимо заметить, что выпуклые и вогнутые функции мо- могут не быть непрерывными всюду в 5. Однако, как следует из только что доказанной теоремы, точки разрыва могут нахо- диться^голько на границе множества 5. В качестве иллюстрации этого утверждения можно рассмотреть функцию при |х|=1 на множестве 5 = {х: —1 ^ х ^ 1}. Производная выпуклой функции по направлению Понятие производной по направлению особенно полезно при обосновании и получении некоторых критериев оптимальности, а также при построении вычислительных процедур нелинейного программирования, в которых обычно ищется направление убы- убывания или возрастания целевой функции. 3.1.4. ОПРЕДЕЛЕНИЕ. Пусть S — непустое множество в Еп, f: S—*E\. Предположим, что хе5 и d — такой ненулевой век- вектор, что х + Xd e 5 для некоторого достаточно малого Я > О, Производной функции / в точке х по направлению d, обозна- обозначаемой через /'(х; d), называется предел если он существует. Как будет показано ниже, если в определении 3.1.4 допу- допускаются значения оо и —оо, то соответствующий предел для выпуклых и вогнутых функций существует.
96 гл. з. выпуклые функции 3.1.5. ЛЕММА. Пусть 5 — непустое выпуклое множество в Еп, /: S-+Ei — выпуклая функция, xeS, d — ненулевой вектор, такой, что х + Хй е S для достаточно малых X > 0. Тогда предел Нш существует. Доказательство. Возьмем два достаточно малых числа Х\ и Х2 и пусть Я2 > Х\ > 0. В силу выпуклости функции / имеем Из этого неравенства следует, что - / (х) Таким образом, разделенная разность а является неубывающей функцией X при Л > 0. Следовательно, искомый предел существует и определяется соотношением )-/(,-)д inf 3.2. Субградиенты выпуклых функций В этом параграфе вводится важное понятие субградиента вы- выпуклых и вогнутых функций. Для этого используются гиперпло- гиперплоскости, опорные к надграфику выпуклой функции и соответствен- соответственно к подграфику вогнутой. Надграфик и подграфик функции Любая функция f, определенная иа множестве 5, может быть полностью описана множеством {[xJ(x)]:xeS}cEn+U назы- называемым графиком функции. Можно построить два множества, связанные с графиком функции /: надграфик, или эпиграф /, со- состоящий из всех точек, лежащих не ниже графика /, и подгра- подграфик, или типограф, состоящий из всех точек, лежащих не выше графика f.
3.2. СУБГРАДИЕНТЫ ВЫПУКЛЫХ ФУНКЦИЙ 97 шшш ШЖШк (а) (Ь) (с) Рис. 3.2. Надграфик и подграфик функции. 3.2.1. ОПРЕДЕЛЕНИЕ. Пусть S —непустое множество в Еп, /: S-*E\. Надграфиком функции /, обозначаемым epi/, назы- называется следующее множество ъз'Еп+\' {(х, у): xeS, уеЕи y>f(x)}. Подграфиком функции /, обозначаемым hyp f, называется мно- множество из ?я+1: {(х, у): xgS, y&El9 y<f(x)}. На рис. 3.2 изображены надграфики и подграфики различ- различных функций. На рис. 3.2, а ни надграфик, ни подграфик не яв- являются выпуклыми множествами. На рис. 3.2, b и 3.2, с выпуклы соответственно надграфик и подграфик. Отсюда напрашивается вывод, что функция выпукла тогда и только тогда, когда ее надграфик является выпуклым множеством. Точно так же функ- функция вогнута тогда и только тогда, когда ее подграфик — выпук- выпуклое множество. 3.2.2. ТЕОРЕМА. Пусть 5 — непустое выпуклое множество в ?л> /: S-V?i. Для того чтобы функция / была выпуклой, не- необходимо и достаточно, чтобы epi/ был выпуклым множеством. Доказательство. Пусть / — выпуклая функция. Рассмотрим точки (хь у\) и (х2, у2), принадлежащие epif, т. е. хь x2gS, yi>fM, У2>Т(ъ). Если Хе@,1), то %yi+(l— %)y2> >A/(xi) + (l— я)/(х2)>/[Лх1+A— Я)/(х2)]. Последнее нера- неравенство следует из выпуклости /. Так как ^xi-J-(l—1)x2gS, то [Xxi +A— Я)х2, Ц\ +A — A,)#2]^epif и, следовательно, epi/ — выпуклое множество. Пусть теперь epi/ — выпуклое множество. Рассмотрим произ- произвольные точки хь x2eS. Точки [xi, /(xj)] и [х2, /(хг)] принад- принадлежат epi/, и в силу выпуклости epi/ при любом А@1) выполняется [%xi +A —Я)х2, X/() + (l ^)/() 4 М. Базара, К. Шетти
98 гл. з. выпуклые функции (а) F) Рис. 3.3. Геометрическая интерпретация субградиента, а—-выпуклая функ- функция; Ъ — вогнутая функция. Другими словами, A/(xi) + (l — A,)/(x2)^f[A,Xi+(l — Я)х2] при любом ^g@, 1),t. е. функция f выпукла. ¦ Доказанная теорема может быть использована для проверки выпуклости или вогнутости заданной функции /. В частности, применяя теорему, легко установить, что функция, изображен- изображенная на рис. 3.2, а, не является ни выпуклой, ни вогнутой, функ- функция, изображенная на рис. 3.2,6, не вогнута, а на рис. 3.2, с — не выпукла. Поскольку надграфик выпуклой функции и подграфик вог- вогнутой являются выпуклыми множествами, то в их граничных точках существуют опорные гиперплоскости, которые приводят к понятию субградиента. 3.2.3. ОПРЕДЕЛЕНИЕ. Пусть S — непустое выпуклое мно- множество в Еп, f: S -> Е\ — выпуклая функция. Вектор \ назы- называется субградиентом функции f в точке х е S, если /(x)>f(x) + ir(x —х) для всех xeS. Аналогично, если /: S-+E\— вогнутая функция, то § называется субградиентом f в точке xeS, если г(х —х) для всех xsS. Из приведенного определения сразу же вытекает, что сово- совокупность всех субградиентов функции f в точке х является вы- выпуклым множеством. На рис. 3.3 показаны примеры субградиен- субградиентов выпуклой и вогнутой функций. Из примеров видно, что функ- функция f(x) + |r(x — х) соответствует опорной гиперплоскости к надграфику или подграфику функции f. Субградиент % соответ* ствует тангенсу угла наклона опорной гиперплоскости.
3.2S СУБГРАДИЕНТЫ ВЫПУКЛЫХ ФУНКЦИЙ 99 Рис. 3.4. Пример 3.2.4. 3.2.4. ПРИМЕР. Пусть /(*)= min[fi(x), h(x)], где Так как ^ сана в виде fix)- s (л:) = 4 — (а: — 2J, хе?ь [х) при 1 <;л:<4, то f(x) может быть запи- 4-х, 1 <лг<4, 4 — (х — 2J в противном случае. На рис. 3.4 вогнутая функция f{x) изображена жирной ли- линией. В любой точке х открытого интервала A,4) субградиен- субградиентом к f(x) является g = —1. В точках х= 1 и х = 4 субгра- субградиенты определяются не единственным образом, так как в этих точках существует много опорных гиперплоскостей. В точке х = 1 семейство субградиентов определяется соотношением /(l) + (l—Л)У/2A) = Я(—1) + A—Я,J = 2 —ЗЯ для Яе= [0, 1]. Иными словами, любой ? из интервала [—1, 2] является субградиентом функции / в точке х=\. В точке х = 4 се- семейство субградиентов определяется соотношением A,V/iD) + + A— Я)У/2D) = Х(—1) + A— Х){—4) = — 4 +ЗА, для Яе= е[0, 1], т. е. любой ge[—4, —1] — субградиент функции / в точке х =5= 4. Полную характеристику субградиентов функции /(х) = min[/i(x), /г(х)] предлагается дать в упр. 3.20. Следующая теорема показывает, что каждая выпуклая или вогнутая функция имеет по крайней мере один субградиент в любой внутренней точке своей области эффективности. Доказа- Доказательство основано на том, что выпуклое множество имеет опор* ную гиперплоскость в каждой своей граничной точке. 4*
100 гл. з. выпуклые функции 3.2.5. ТЕОРЕМА. Пусть 5 — непустое выпуклое множество в_ ЕПу /: S-+E{ — выпуклая функция. Тогда для любой точки xeintS существует вектор %, такой, что гиперплоскость # = {(х, у): */-/(х) + ^(х-х)} является опорной к epi / в точке [х, /(x)J. В частности, /(х)>/(х) + |г(х — х) для любого xgS, т. е. | является субградиентом /(х) в точке х. Доказательство, По теорем_е 3.2.2 epi/ — выпуклое множест- множество. Очевидно, что точка [х, /(х)] лежит на границе epi f. Тогда в силу теоремы 2.3.7 найдется такой ненулевой вектор (?о, ц)^ еЕлХ^ь что |ог (х - х) + (i [у - / (х)] < 0, (х, у) е epi /. C.7) Заметим, что \х ^ 0, так как в противном случае неравенство C.7) противоречило бы возможности выбора достаточно боль- большого у. Покажем, что \х < 0. Предположим, что {л = 0. Тогда |о (х — х)^0 для всех xeS. Так как хе int5, то найдется такое К > 0, что х + Я?о ^ 5 и, следовательно, Я|о?о ^ 0. Отсюда |0 = 0 и, следовательно, (?о, М-) = @, 0), что противоречит тому, что (|о, М-) — ненулевой вектор. Следовательно, |ш < 0. Разделив неравенство C.7) на |jli| и обозначив WM через §, получим (х - х) - у + / (х) < 0 для всех (х, у) s epi /. C.8) Отсюда следует, что гиперплоскость Я = {х, j/): у = f(x) + — х)} является опорной к epi/ в точке [х, /(х)]. Поло- ПолоC8) /() /()/() + 1г( ) + §( )} р p/ [ /()] жив в C.8) у = /(х), получим, что /(х)^/(х) + 1г(х —х) для всех х е 5. ¦ СЛЕДСТВИЕ. Пусть S — непустое выпуклое множество в Еп, /: S-+Ei — строго выпуклая функция. Тогда для любого х е int S существует такой вектор |, что /(х) > /(х) + 1Т(х — х) для всех xeS, x Ф х. Доказательство. Из теоремы 3.2.5 следует существование та- такого вектора |, что f(x)>f(x) + |y(x-x) для всех xgS. C.9) Доказывая от противного, предположим, что существует такой вектор х#=х, что /(х) =/(х) +1г(х — х). Тогда в- силу строгой
3.2. СУБГРАДИЕНТЫ ВЫПУКЛЫХ ФУНКЦИЙ 101 выпуклости f(x) при А,е@, 1) имеем C.10) Положив в C.9) х = Хх + A —А,)х, получим, что Это противоречит C.10). ¦ Теорема, обратная к теореме 3.2.5, в общем случае неверна, т. е. если в каждой точке xeintS функция / имеет субградиент, то она не обязательно выпукла. Чтобы проиллюстрировать этот факт, рассмотрим следующий пример, в котором функция / определена на множестве 5 == {(хи. х2): 0 ^ хи х2^. 1}: 0, 0<*i<l, 0<л:2<1, f(xux2) = В каждой внутренней точке области эффективности нулевой век- вектор является субградиентом функции /. Функция f не выпукла на S, так как epi /, очевидно, не является выпуклым множеством. Однако, как будет видно из доказанной ниже теоремы, функция f выпукла на множестве int S. 3.2.6. ТЕОРЕМА. Пусть 5 — непустое выпуклое^ множество в Еп, f: S-*E\. Предположим, что в каждой точке xeintS су- существует субградиент, так что г(х —х) для каждого Тогда f выпукла на int S. Доказательство. Пусть хь X2^intS и Хе@, 1). По след- следствию 1 из теоремы 2.2.2 множество int 5 выпукло. Поэтому х = %х\ + A — Я)Х2 е int 5. По предположению существует суб- субградиент I функции f в точке х, и, следовательно, выполняются следующие два неравенства: Умножая первое неравенство на X, а второе — на A —%) и скла- складывая результаты, получим
102 гл. з. выпуклые функции 3.3. Дифференцируемые выпуклые функции Обратимся теперь к рассмотрению дифференцируемых выпук- выпуклых и вогнутых функций. Прежде всего введем определение дифференцируемой функции. 3.3.1. ОПРЕДЕЛЕНИЕ. Пусть S — непустое множество в En, f: S-+E\. Говорят, что функция / дифференцируема в точке xeintS, если существует вектор Vf(x), называемый градиен- градиентом, и функция a: En->Eh такие, что x-x||a(x; х-х) для каждого х ^ 5 и lim a (х; х — х) = 0. Функция / дифферен- цируема на открытом множестве S/czS, если она дифференци- дифференцируема в каждой точке множества S'. Заметим, что если f дифференцируема в точке х, то она мо- может иметь только один вектор-градиент ^ tiEL Ш дхг ' '••' дхп где д — частная производная функции / по xi в точке х (см. упр! 3.23). Следующая лемма показывает, что дифференцируемая вы- выпуклая функция имеет только один субградиент, совпадающий С градиентом функции. Таким образом, результаты предыдущего параграфа могут быть легко перенесены на случай дифферен- дифференцируемых функций заменой субградиента градиентом. 3.3.2. ЛЕММА. Пусть S — непустое выпуклое множество в ЕПу f: S->E\ — выпуклая функция, дифференцируемая в точке xsintS. Тогда совокупность субградиентов_ функции / в точке х совпадает с единственным вектором V/(x)—градиентом f в точке х. Доказательство. По теореме 3.2.5 множество субградиентов функции_/ в точке х непусто. Пусть | — субградиент функции / в точке х. Из теоремы 3.2.5 и дифференцируемости / в точке ~х следует, что для любого вектора d и достаточно малого Я > 0 имеем
3.3. ДИФФЕРЕНЦИРУЕМЫЕ ВЫПУКЛЫЕ ФУНКЦИИ ЮЗ Вычитая равенство из неравенства, получим О > Я [^ — V/ (х)]7- d — Я || d И а (х; d). Разделив на к>0 и устремив X к^нулю, получим [|— V/(x)]rd^ ^ 0. Если выбрать d = |— V/(x), то из последнего неравенства следует, что % = V/(x) Ш Из доказанной леммы 3.3.2, а также из теорем 3.2.5 и 3.2.6 непосредственно вытекает следующее необходимое и достаточ- достаточное условие выпуклости дифференцируемой функции. 3.3.3. ТЕОРЕМА. Пусть S — непустое открытое выпуклое множество в Еп, /*. S->?i — дифференцируемая на S функция. Для того чтобы функция ?была выпуклой, необходимо и доста- достаточно, чтобы для любого х е S выполнялось неравенство f(x)>/(x) + V/(x)r(x-x) при всех xeS. Аналогично для строгой выпуклости / необходимо и достаточно, чтобы для любого xeS / (х) > / (х) + Vf (х)г (х — х) при всех xgS, х Ф х. В следующей теореме приводится другая форма необходи- необходимого и достаточного условия выпуклости дифференцируемой функции. 3.3.4. ТЕОРЕМА. Пусть 5 — непустое открытое выпуклое множество в Еп, /: S-+E\—дифференцируемая на 5 функция. Для того чтобы функция / была выпуклой, необходимо и доста- достаточно, чтобы при любых xi, X2 e S выполнялось неравенство [V/(x2)-Vf(x1)F(x2-x1)>0. Аналогично для строгой выпуклости f необходимо и достаточно, чтобы для любых различных xi, x2eS выполнялось неравенство [V/(x2)-V/(x1)f(x2-x1)>0. Доказательство. Пусть функция / выпукла и хь х2е5. Из теоремы 3.3.3 следует, что Складывая эти неравенства, получаем, что [V/(x2)— Х(х2 — xi)>0. Покажем обратное. Пусть xi, x2eS. По теореме о среднем значении / (х2) - / (х,) = V/ (xf (х2 - Xl), C.11)
/04 ГЛ. 3. ВЫПУКЛЫЕ ФУНКЦИИ где х = Ях1+A—А,)х2 для некоторого ^g@, 1). Из предполо- предположения теоремы [V/(x)— Vf(xi)]T(x — xi) ^ 0, т. е. A—) X[V/(x)— V/(Xl)]r(x2-Xi)^0. Отсюда V/(x)'(x2 — ^ Vf(xi)r(x2 —Xi). Тогда из C.11) получим, что f(x2)^/() + V/(xi)r(x2 — xi). В силу теоремы 3.3.3 функция / выпукла. Справедливость утверждения для строго выпуклой функции доказывается аналогично. В Теоремы 3.3.3 и 3.3.4 дают необходимые и достаточные усло- условия для выпуклости дифференцируемой функции. Однако с вы- вычислительной точки зрения проверка этих условий сложна. Про- Простое и легко проверяемое, по крайней мере для квадратичных функций, условие может быть получено для дважды дифферен- дифференцируемой функции. Дважды дифференцируемые выпуклые и вогнутые функции В определении 3.3.5 формулируются условия, при которых диф- дифференцируемая в точке х функция является дважды дифферен- дифференцируемой в этой точке. 3.3.5. ОПРЕДЕЛЕНИЕ. Пусть 5 — непустое множество в Еп, f: S-*Ei. Говорят, что функция / дважды дифференцируема в точке xeintS, если существуют вектор Tf(x), симметрическая матрица Н(х) порядка яХя, называемая матрицей Гессе, и функция а: Еп-*Е\, такие, что для любого x^S (x-xf Н(х)(х-х) + [х-х||2а(х; х-х); при этом lima(х; х —х) = 0. Функция / дважды дифференци- х->х х>х руема на открытом множестве S' cz S, если она дважды диф- дифференцируема в каждой точке этого множества. _ Отметим, что элемент А//(х) матрицы Гессе Н(х) равен вто- второй частной производной dJ *? • Следующая теорема утверждает, что функция f выпукла на S тогда и только тогда, когда матрица Гессе положительно полуопределена на 5, т. е. когда хгН(х)х > 0 для любого хе?й и при всех xg5. 3.3.6. ТЕОРЕМА. Пусть 5 — непустое открытое выпуклое множество в Еп> f: S-+E\ — дважды дифференцируемая на S
3.3. ДИФФЕРЕНЦИРУЕМЫЕ ВЫПУКЛЫЕ ФУНКЦИИ 105 функция. Для того чтобы функция / была выпуклой, необходимо и достаточно, чтобы матрица Гессе была положительно полу- полуопределена в каждой точке множества 5. Доказательство. Пусть / — выпуклая функция и xeS. По- Покажем, что х7Н(х)х^0 при всех х^Еп. Так как 5 — открытое множество, то для любой заданной точки х е Еп найдется такое достаточно малое Я > 0, что x + keS. Из теоремы 3.3.3 и из того, что / дважды дифференцируема, имеем f (х + Ях) > f (х) + KVf (x)T х, C.12) ^ раСх; Ях). C.13) Вычитая C.13) из C.12), получим уЯ2хгН(х)х + Я2||х||2а(х; Ях)>0. Разделив последнее неравенство на Я2 и устремляя Я к нулю, получим хгН (х) х ^ 0. - Предположим теперь, что матрица Гессе положительно полу- полуопределена в каждой точке множества S. Рассмотрим точки х и х из 5. По теореме о среднем значении /(x) = /(x) + Vf(xLx~x) + i(x-xf Н(х)(х-х), C.14) где х = Ях + A—Я)х при некотором Яе@, 1). Так как xeS, то H(xJ^ положительно полуопределена, т. е. (х — х)гН(х)Х Х(х —х)^0. Тогда из C.14) следует, что Так как последнее неравенство выполняется при всех х, xgS, то в силу теоремы 3.3.3 функция f выпукла. ¦ Эта теорема используется при проверке выпуклости дважды дифференцируемых функций. В частности, если /—квадратич- /—квадратичная функция, то матрица Гессе не зависит от точки, в которой она вычисляется. Следовательно, проверка выпуклости сводится к проверке на неотрицательность собственных значений одной матрицы. 3.3.7 ПРИМЕР. Пусть f (xv x2) = 2хх + 6х2 - 2х\ — Ъх\ + + 4jtiJt2. Проверим, является ли функция / выпуклой. Перепишем f в более удобной форме:
106 гл. з. выпуклые функции Чтобы проверить, будет ли матрица Гессе Н положительно или отрицательно полуопределенной, вычислим ее собственные зна- значения. Для этого решим следующее уравнение: Г—4 —Я 4 O-det(H-M) = dt[ = (-4-Я)(-6-Я)- 16 = Я2 + 10Я + 8. Решениями _этого уравнения являются Я1 = — 5 + Vl7 и Я2 = = — 5 — л/\7 .Поскольку Х\ и Я2 отрицательны, матрица Гессе отрицательно полуопределена и, следовательно, f — вогнутая функция. Результаты, аналогичные теореме 3.3.6, могут быть полу- получены для строго выпуклых и строго вогнутых функций. Можно показать, что если матрица Гессе положительно определена в каждой точке множества S, то функция / строго выпукла. Дру- Другими слов_ами, если для любой заданной точки х из 5 неравен- неравенство хгН(х)х> 0 выполняется при всех х Ф 0 из ЕПу то функция f строго выпукла. Однако если f строго выпукла, то ее матрица Гессе положительно полуопределена. Совсем не обязательно, чтобы матрица Гессе была положительно определенной всюду на 5. В качестве иллюстрации рассмотрим строго выпуклую функцию /(x) = Jt4. Матрица Гессе Н(л:)=12л:2 положительно определена во всех ненулевых точках и положительно полуопре- делена в точке х = 0. 3.3.8. ТЕОРЕМА. Пусть 5 — непустое открытое выпуклое множество в Еп, f: S-+Ei — дважды дифференцируемая на 5 функция. Если матрица Гессе положительно определена в каж- каждой точке множества S, то функция / строго выпукла. Если же / строго выпукла, то матрица Гессе положительно полуопределена в каждой точке из 5. 3.4. Минимумы и максимумы выпуклых функций В этом параграфе рассматриваются задачи минимизации и мак- максимизации выпуклой функции на выпуклом множестве и иссле- исследуются условия оптимальности. Нахождение минимума выпуклой функции Задача нахождения максимума вогнутой функции полностью аналогична задаче отыскания минимума выпуклой функции, де- детально исследуемой в этом параграфе. Поэтому получение соот- соответствующих результатов для задачи максимизации вогнутой функции предоставляется читателю.
3.4. МИНИМУМЫ И МАКСИМУМЫ ВЫПУКЛЫХ ФУНКЦИИ 107 3.4.1. ОПРЕДЕЛЕНИЕ. Пусть /: Еп-+Ех. Рассмотрим зада- задачу минимизации f(x) при условии, что xeS. Произвольная точка xeS называется допустимым решением задачи. Если x&S и /(х)^/(х) для каждого xgS, то х называется опти- оптимальным решением или глобальным оптимальным решением или просто решением задачи. Если xeS и_ существует такая e-0KpejCTH0CTb Nj(x) точки х, что /(х)^/(х) для любого хе е Ne(x)f\St то х называется локальным оптимальным решением. В теореме 3.4.2 будет показано, в каких случаях каждый ло- локальный минимум исследуемой задачи является глобальным. Этот факт весьма полезен в процессах оптимизации, поскольку он дает возможность остановить процесс, считая, что найдено глобальное решение, если поиск в окрестности некоторой допу- допустимой точки не приводит к лучшему допустимому решению. 3.4.2. ТЕОРЕМА. Пусть S — непустое выпуклое множество в Еп, f: S-+E\. Рассмотрим задачу минимизации функции f(x) при условии, что X6S. Пусть точка хе5 является локальным оптимальным решением. Тогда _ 1) если / — выпуклая функция, то х — глобальное оптималь- оптимальное решение; , _ 2) если / строго выпукла, то х — единственное глобальное оптимальное решение. Доказательство. Докажем утверждение 1. Пусть / — выпук- выпуклая функция. Так как х — точка локального оптимума, то най- найдется такая е-окрестность Ne(x) точки х, что /(х)>/(х) при x<=S[)Ne(x). C.15) Предположим, что х не является точкой глобального опти- оптимума, т. е. найдется такая точка xeS, что /(х)</(х). В силу выпуклости / для всех ^е@, 1) имеем Однако при достаточно малых % > 0 точка Я,х + A—^)хе ^S(]Ne(x). Тогда последнее неравенство противоречит C.15). Следовательно, х — точка глобального оптимума. Пусть теперь / — строго выпуклая функция. Тогда в силу выпуклости / справедливо утверждение 1, т. е. х — глобальное оптимальное решение. Предположим, что х — не единственное оптимальное решение, т. е. существует такой xeS, что х Ф х
108 ГЛ. 3. ВЫПУКЛЫЕ ФУНКЦИИ и /(х) = /(х). В силу строгой выпуклости Так как множество 5 выпукло, то -x-x + yX^S, и тогда по- последнее неравенство противоречит глобальной оптимальности X ¦ Теперь сформулируем и докажем необходимое и достаточное условие существования оптимального глобального решения. Если такое решение не существует, то это означает, что либо inf {f (x): xeS} конечен, но не достигается на 5, либо нижняя грань равна —оо. 3.4.3. ТЕОРЕМА. Пусть f: En-^Ei — выпуклая функция, S — непустое выпуклое множество в Еп. Рассмотрим задачу миними- минимизации f(x) при условии, что xeS, Точка xeS является опти- оптимальным решением этой задачи тогда и только тогда, когда f(x) имеет в точке х субградиент |. для которого |г(х — х)^0 при всех xeS. Доказательство. Предположим, что %т(х — х)^0 для всех xeS, где ? —субградиент функции / в точке х. Из выпуклости / вытекает, что для xeS и, следовательно, х — оптимальное решение. Пусть теперь х — оптимальное решение. Построим следую- следующие множества в Еп+\: -5, у): хе?й, у> f (x)- = {(х-х, у): Легко проверить, что Ai и А2 — выпуклые множества. Тогда A!nA2 = 0, так как в противном случае нашлась бы точка (х, у), такая, что а это противоречит оптимальности х. Следовательно, в силу тео- теоремы 2.3.8 существует гиперплоскость, разделяющая Ai и Лг, т. е. существует ненулевой вектор (?о> и) и число а, такие, что у> /(х)- f (x), C.16) C.17)
3.4. МИНИМУМЫ И МАКСИМУМЫ ВЫПУКЛЫХ ФУНКЦИЙ 109 Если в C.17) положить х = х, у = О, то можно убедиться, что а ^ 0. Положим теперь х = х и у = е > 0 в C.16). Тогда jus ^ а. Поскольку это неравенство выполняется при любом е > 0, то \i ^ О и, кроме того, а ^ 0. Следовательно, [i<0 и а = 0. Если [х = 0, то из C.16) получаем, что §о(х— х)^0 для каждого х е ?„. Положим х = х + §о. тогда О>?ог(х-х)=||1о112 и следовательно, |о = 0. Так как (|0, М')=^=@, 0), то Ц, < 0. Раз- Разделив C.16) и C.17) на —jx и обозначив — |0/|х через §, получим у>^(х-х), хе?П) y>f(x)-f(x), (ЗЛ8) |г(х~х)-у>0, хе5, у<0. C.19) Положим # = 0 в C.19). Тогда %т(х — х)^0 для всех xgS. Из C.18), очевидно, следует, что f(x)>f(x) + !r(x-x) для всех хе?й, Поэтому | — субградиент функции f в точке х, для которого §г(х—-х)^0 при всех хе5. ¦ СЛЕДСТВИЕ 1. Если выполнены предположения теоремы и S — открытое множество, то точка х является оптимальным ре- решением тогда и только тогда, когда существует нулевой субгра- субградиент функции в точке х. В частности, если S—En, то х — точка глобального минимума в том и только том случае, если суб- субградиент функции / в точке х равен нулю. Доказательство. По теореме точка х является оптимальным решением тогда и только тогда, когда ?г(х — х)^0 для всех xeS, где | — субградиент функции / в точке х. Так как 5 — от- открытое множество, то х = х — Я^е5 для некоторого положи- положительного %. Тогда — Щ||2 > 0, т. е. % = 0. СЛЕДСТВИЕ 2. Пусть выполняются предположения тео- теоремы и, кроме того, функция f дифференцируема. Тогда для того, чтобы точка х была оптимальным решением, необходимо и достаточно, чтобы Vf(x)T(x — х)^0 для всех xeS. Если, кро- кроме того, S — открытое множество, то х является оптимальным решением тогда и только тогда, когда 7/(х)=^ 0. Отметим важность следствий последней теоремы. Во-первых, теорема дает необходимое и достаточное условие оптимальности. Это условие сводится к хорошо известному условию обращения
ГЛ. 3. ВЫПУКЛЫЕ ФУНКЦИИ Рис. 3.5. Пример 3.4.4. в нуль производных, если / — дифференцируемая функция, а 5 — открытое множество. Во-вторых, из теоремы следует, что если найдется некоторая неоптимальная точка х, в которой Т/(х)г(х—-х)< 0 при некотором xeS, то очевиден способ пе- перехода к лучшей точке. Эта точка может быть найдена при движении из х в направлении х — х. Величина шага А, может быть определена из следующей задачи одномерной минимиза- минимизации: минимизировать /[x-f-A,(x— х)] при условии, что ^0 и х+Я(х — x)eS. Такая процедура называется методом возмож- возможных направлений и более подробно обсуждается в гл. 10. 3.4.4. ПРИМЕР. Минимизировать при условиях Очевидно, что функция / (хи х2) = (хх -^ у) + (*2 — 5J вы- выпукла и задает квадрат расстояния от точки Гу, 5J до точки (х\9 -*2). Четыре ограничения-неравенства определяют выпуклое многогранное множество 5. Задача иллюстрируется на рис. 3.5. Из рисунка ясно, что оптимальной является точка A,3). Гра- Градиент функции / в этой точке равен V/(l,3) = (—1,—4)т. Из
3.4. МИНИМУМЫ И МАКСИМУМЫ ВЫПУКЛЫХ ФУНКЦИЙ 111 рисунка также видно, что угол между векторами (—1, —4) и (х\ — 1, х2 — 3), где (хи x2)^Sy не превосходит 90°. Таким об- образом проверены условия оптимальности. Пусть теперь точка @,0) предполагается оптимальной. Пользуясь теоремой 3.4.3, легко проверить, что это не так. Действительно, ?/@, 0) = (—3, —10)т и для любой ненулевой точки xeS справедливо неравенство —3x1 — 10х2 < О.1 Следо- Следовательно, начало координат не может быть оптимальной точ- точкой. Более того, значение / можно улучшить, двигаясь из начала координат в направлении х — 0 при любом xgS. В этом слу- случае наилучшим локальным направлением будет вектор —V/@, 0), т. е. направление C, 10). В гл. 10 будут обсуждаться методы выбора определенного направления среди множества возможных. Задача максимизации выпуклой функции Изучим теперь необходимые условия максимума выпуклой функции на выпуклом множестве. К сожалению, эти условия не являются достаточными. Возможно, и обычно это вовсе не ма- маловероятно, что существуют локальные максимумы, удовлетво- удовлетворяющие условиям теоремы 3.4.5. В отличие от случая миними- минимизации в этой задаче локальная информация не помогает перейти к лучшей точке. Следовательно, нахождение максимума вы- выпуклой функции значительно более трудная задача, чем оты- отыскание ее минимума. Задача минимизации вогнутой функции сводится к максимизации выпуклой. Поэтому исследование та- такого случая предоставляется читателю. 3.4.5. ТЕОРЕМА. Пусть /: ?„-^?1 — выпуклая функция, 5 — непустое выпуклое множество в Еп. Рассмотрим задачу макси- максимизации /(х) при условии, что xeS. Если хщЭ является ло- локальным оптимальным решением, то %т(х— х)^0 для всех xgS, где §— любой субградиент функции / в точке х. Доказательство. Предположим, что точка х?5 является локальным оптимальным решением. Тогда существует такая е-окрестность Nе(х), что f(x)<; f(x) _для всех x^S(]N2(x). Пусть xeS, Тогда точка х + Х(х — x)^Sf\Ne(x) при доста- достаточно малом X > 0, и поэтому . C.20) Пусть § — субградиент функции / в точке х. Тогда из выпукло- выпуклости / следует, что / [х + А (х - х)] - / (х) ^ XV (х - х).
112 ГЛ. 3. ВЫПУКЛЫЕ ФУНКЦИИ Последнее и соотношение C.20) влекут за собой 0 ¦ СЛЕДСТВИЕ. Пусть выполняются условия теоремы и функ- функция f дифференцируема. Если точка х e_S является локальным оптимальным решением, то Vf(xO(x — х)^0 для всех xgS. Заметим, что этот результат является необходимым, но не достаточным условием для того, чтобы точка была локальным оптимальным решением. В качестве иллюстрации рассмотрим функцию f(x) = x2 и множество S — {х: —1 ^х^2}. Макси- Максимум f на 5 равен 4.0 и достигается в точке х = 2. Однако в точке л:=0 градиент V/(x)=0 и, следовательно, Vf(x)T(x — х) = = 0 при всех x^S. Очевидно, что х = 0 не является даже точ- точкой локального максимума. В рассмотренном ранее приме- примере 3.4.4 имеются две точки локального максимума: @, 0) и ("о-, о)- В обеих точках необходимое условие из теоремы 3.4.5 выполняется. К сожалению, если найдена точка локального мак- максимума @,0), то нет никакой информации о том, как продви- продвигаться к глобальному максимуму. Если же найдена точка гло- глобального максимума Г-у, 0j, то нет критерия, указывающего, что эта точка — оптимальное решение. Теорема 3.4.6 утверждает, что выпуклая функция достигает максимума на компактном многогранном множестве в экстре- экстремальной точке. Этот результат используется при построении соответствующих вычислительных схем. Теорема 3.4.6 может быть обобщена на случай, когда допустимая область выпукла, но не многогранна. 3.4.6. ТЕОРЕМА. Пусть f: Еп-+Е\— выпуклая функция, S — непустое выпуклое компактное многогранное множество в Еп- Для задачи максимизации f(x) при условии, что xgS, сущест- существует оптимальное решение х, являющееся экстремальной точкой множества S. Доказательство. Поскольку функция / выпукла на Еп, то из теоремы 3.1.3 следует, что / — непрерывная функция и, следова- следовательно, непрерывна на 5. Так как S — компакт, то / достигает максимума в некоторой точке x'eS. Если х'— экстремальная точка, то утверждение теоремы справедливо. Предположим, что точка х' не является экстремальной. k k Тогда в силу теоремы 2.5.7 х' = ? Я/Х?-, Z^/=l, l/>0 и х/, /= 1, ..., k, — экстремальные точки множества S. Так как
3.5. ОБОБЩЕНИЯ ПОНЯТИЯ ВЫПУКЛОЙ ФУНКЦИИ ЦЗ f — выпуклая функция, то Поскольку /(x')^f(x/) при /=1, ..., k, из последнего нера- неравенства следует, что /(х') = /(х/) для /= 1, ..., k. Таким об- образом, экстремальные точки xi, ..., х^ являются оптимальными решениями исходной задачи. ¦ 3.5. Обобщения понятия выпуклой функции В этом параграфе представлены некоторые виды функций, сход- сходных с выпуклыми и вогнутыми функциями, но обладающих лишь некоторыми их свойствами. Как выяснится позже, многие результаты, представленные в этой книге, требуют не ограни- ограничительного предположения о выпуклости исследуемой функции, а существенно более слабых предположений о ее квазивыпукло- квазивыпуклости, псевдовыпуклости или выпуклости в точке. Квазивыпуклые функции Ниже вводится определение квазивыпуклой функции, из кото- которого, очевидно, следует, что выпуклая функция является также и квазивыпуклой. 3.5.1. ОПРЕДЕЛЕНИЕ. Пусть /: S-+Eu S — непустое вы- выпуклое множество в Еп. Говорят, что функция f квазивыпукла, если для любых xi, x2eS и i^ 'О, 1) выполняется неравенство f[Ax, + (l-A,)' 4max{/(Xl), f(x2)}. Функция f называется ; - огнутой, если —/ — квазивыпуклая функция. Из определения следует, что функция / квазивыпукла, если из неравенства /(x2)^f(xi) следует, что /(х2) не меньше зна- значения функции f в любой точке, являющейся выпуклой комби- комбинацией точек xi и х2. Функция / квазивогнута, если из неравен- неравенства f(x2)^/(xi) следует, что /(xi) не больше значения f в любой точке, являющейся выпуклой комбинацией точек xi и х2. На рис. 3.6 приведены примеры квазивыпуклых и квазивогнутых функций. Здесь будут рассматриваться только квазивыпуклые функции. Читатель легко может получить соответствующие ре- результаты для квазивогнутых функций. В § 3.2 было установлено, что выпуклая функция характери- характеризуется выпуклым надграфиком. В теореме 3.5.2 будет показано,
114 гл. з. выпуклые функции A (а) Со) (с) Рис. 3.6. Квазивыпуклые и квазивогнутые функции, а — квазивыпуклая; Ь — квазивогнутая; с — ни квазивыпуклая, ни квазивогнутая. что если функция квазивыпукла, то ее множества уровня выпуклы. 3.5.2. ТЕОРЕМА. Пусть f: S-+Eu где S — непустое выпук- выпуклое множество в Еп. Функция / квазивыпукла тогда и только тогда, когда множество Sa={xGS: /(x)^a} выпукло при любом действительном а. Доказательство. Пусть функция / квазивыпукла. Зафикси- Зафиксируем произвольные точки хь х2^5а. Тогда xi, x2eS и max{/(xi), /(х2)}^а. В силу выпуклости 5 точка х = Хх\ + + A—Х)Х2^5 при любом Xg@, 1). Из квазивыпуклости функции / следует, что /(х) ^ max (f(xi), /(х2]}^а, т. е. xGSa и, следовательно, Sa — выпуклое множество. Пусть теперь множество Sa выпукло для любого действи- действительного а. Зафиксируем произвольные точки xi, х2 е S и рас- рассмотрим точку x = A,xi + (l—А,)х2, Я,€@,1). Точки xi, x2GSa при a = max{f(xi), f(x2)}. Так как множество Sa выпукло, то XGSa, и, следовательно, /(x)^a = max {/(xi), /(x2)}, т. е. / — квазивыпуклая функция. ¦ Докажем теперь утверждение, аналогичное теореме 3.4.6. В теореме 3.5.3 показывается, что максимум квазивыпуклой функции на компактном многограннике достигается в экстре- экстремальной точке. 3.5.3. ТЕОРЕМА. Пусть S — непустое компактное многогран- многогранное множество в ?„, функция /: Еп—*ЕХ квазивыпукла и непре- непрерывна на S. Рассмотрим задачу максимизации f(x) при усло- условии, что xeS. Среди оптимальных решений этой задачи суще- существует экстремальная точка х. Доказательство. Так как функция / непрерывна, то она до- достигает максимума на S в некоторой точке х' е 5. Если сущест- существует экстремальная точка, в которой значение целевой функции равно f(x'), то утверждение справедливо. Предположим, что это не так, т. е. /(х7)>/(х/), где х/, / = = 1, ... k, — экстремальные точки множества S. В силу тео-
3.5. ОБОБЩЕНИЯ ПОНЯТИЯ ВЫПУКЛОЙ ФУНКЦИИ 115 ремы 2.5.7 точка х' может быть представлена в виде /=i,..., ft. Так как /(х')> /(х;) для всех /, то max /(x/) = a. % C.21) Рассмотрим множество Sa = {х: /(х)^а}. Заметим, что x/?Sa при /= 1, ..., k и Sa — выпуклое множество. Следова- k тельно, х'= ? AyX/<= Sa. Отсюда /(х')^а, что противоречит C.21). Это показывает, что f(x') = f(xj) для некоторой экстре- экстремальной ТОЧКИ X/. ¦ Квазивыпуклость дифференцируемых функций В следующей теореме приводятся необходимые и достаточ- достаточные условия квазивыпуклости дифференцируемой функции. 3.5.4. ТЕОРЕМА. Пусть S —непустое открытое выпуклое множество в Еп и функция /: S->E\ дифференцируема на S. Тогда для того, чтобы / была квазивыпуклой функцией, необхо- необходимо и достаточно, чтобы выполнялось любое из следующих эквивалентных утверждений: 1) если xbx2eS и f(xx)^f(x2), то \f (х2)гfo — х2)<О, 2) если хь х2 е= S и v/ (*2)г (xi ~ хг) > 0, то / (х{) > / (х2). Доказательство. Очевидно, что утверждения A) и B) экви- эквивалентны. Докажем, что если функция f квазивыпукла, то вы- выполняется утверждение A). Рассмотрим произвольные точки хь x2eS, такие, что f(x\)^ /() Из дифференцируемости функции / в точке х^ при ,1) имеем = Wf (x2)T (Xi - х2) + А || х, — х21| а [х2; X (х, - х2)], где а[х2; A,(xi — х2)]->0 при %->0. Так как функция / квази- квазивыпукла, то f[kx\ + A —Я)х2] ^ /(х2). Тогда XVf (х2)т (х2 — х2) + А || Xi — х21| а [х2; Я (х! — х2)] < 0. Разделив это неравенство на К и устремив К к нулю, получим, что \7(x2Lxi-x2)<0. Пусть справедливо утверждение A) или B). Рассмотрим произвольные точки хь х2е5, для которых /()^/()
116 гл. з. выпуклые функции Требуется доказать, что f[Xx\+(l—^)х2]^/(х2) для любых Яе@,1). Для этого достаточно показать, что множество 1 = {х: х = Ях1 + A-Я)х2, Ае=@, 1), /(х)>/(х2)} пусто. Пусть это не так, т. е. предположим, что нашелся х' е L. Тогда х' = %\\ +A — К)х2 для некоторого %<=@, 1) и f(x')> >/(х2). Так как функция f дифференцируема, то она непре- непрерывна и, следовательно, найдется такое бе@, 1), что x/ + (l->x)x2]>/(x2) для любого *ле=[6, 1], C.22) a f(x') > /[бх' + A—б)х2]. Из этого неравенства и теоремы о среднем значении получаем, что О < / (хО - f [бх' + A - 6) х2] = A - б) V/ (?)г (х' - х2), C.23) где х = Ах'л+ A — А) Х2 Для некоторого A s (б, 1). Из C.22) ясно, что f(x)>/(x2). Разделив C.23) на A— б) > 0, получим V/(x)r(x/ — х2)>0. Отсюда следует Vf(x)r(x1-X2)>0. C.24) С другой стороны, f(x)>f(x2)^f(xi), а точка х является выпуклой комбинацией точек xi и х2, например х = Хх\ + + A—Я)х2, ?е@, 1). По предположению теоремы имеем V/(x)r(xi — х)^0 и, следовательно, должно выполняться соот- соотношение V/ ®г (х, - х) = A - к) V/ (xf (хг - х2). Последнее неравенство несовместно с C.24). Следовательно, 1 = 0. ¦ Для иллюстрации доказанной теоремы рассмотрим функцию f(x) = xs. Чтобы проверить ее на квазивыпуклость, рассмотрим две точки х\ и х2, для которых f (х\) ^ /(х2), т. е. а:|^а:|. Это выполняется только в том случае, если х\ ^ х2. Рассмотрим вы- выражение v/ (*2) (^i"" Х2) ~ 3 (xi"" xs) xr Так как хх ^ xv то 3(хх — х2)х\<0. Поэтому условие ]{х\)^.](х2) влечет за со- собой неравенство ^\{х2){х\—л:г)^О, и, следовательно, по дока- доказанной теореме функция f квазивыпукла. Другой пример. Пусть f(xv x2} = x\ + x\. Рассмотрим точки xi = B, — 2)т и х2 = A, 0)т. Так как f(xi) = O, f(x2)=l, то f(xi)<f(xj). Кроме того, Vf(x2)^(xi-x2) = C, 0)^A,-2) = = 3 > 0. Следовательно, функция f не является квазивыпуклой. Этот пример показывает, что сумма двух квазивыпуклых функ- функций не обязательно квазивыпукла.
3.5. ОБОБЩЕНИЯ ПОНЯТИЯ ВЫПУКЛОЙ ФУНКЦИИ I4? Строго квазивыпуклые функции Строго квазивыпуклые и строго тсвазивогнутые функции осо- особенно важны в нелинейном программировании, так как для этих функций локальный минимум и локальный максимум на выпук- выпуклом множестве соответственно являются глобальными миниму- минимумом и максимумом. 3.5.5. ОПРЕДЕЛЕНИЕ. Пусть f: S-+Eu где S — непустое выпуклое множество в Еп. Говорят, что функция / строго квази- выпукла, если для любых xi, x2gS, таких, что /(xi)#f(x2), при всех ^g@, 1) справедливо неравенство f [Яж, + A - Я) х2] < max {/ (х,), f (х2)}. Функция f называется строго квазивогнутой, если строго квазивыпукла функция —f. Из определения следует, что любая выпуклая функция яв- является в то же время строго квазивыпуклой. На рис. 3.7 изображены строго квазивыпуклые и строго ква- квазивогнутые функции. Теорема 3.5.6 показывает, что любой локальный минимум строго квазивыпуклой функции на выпуклом множестве яв- является также ее глобальным минимумом. Как видно из рис. 3.6,а, квазивыпуклые функции этим свойством не обладают. 3.5.6. ТЕОРЕМА. Пусть f: Еп-*Е\— строго квазивыпуклая функция. Рассмотрим задачу минимизации f(x) при условии, что xeS, где S — непустое выпуклое множество в Еп. Пусть х — точка локального оптимума рассматриваемой задачи, тогда она является и точкой глобального оптимума. Доказательство. Предположим противное, т. е. пусть сущест- существует точка xgS, &ля_ которой /(x)<f(x). В силу выпуклости 5 точка Ях + A—1)xg5 при любом Яе@, 1). Так как х — точка локального минимума, то f(x)^ /[Ях^|- A —Х)х] при всех ^g@, б) для некоторого бе@, 1). В силу строгой квазивыпук- квазивыпуклости f _и неравенства f(x)<f(x) получаем, что f[X? + + A—A,)x]<f(x) при всех ^g@, 1). Получено противоре- противоречие. ¦ Как следует из определения 3.1.1, каждая строго выпуклая функция является в то же время и выпуклой. Однако строго квазивыпуклая функция не обязательно квазивыпукла. Чтобы
118 гл. з. выпуклые функции (а) (Ь) (с) Рис. 3.7. Строго квазивыпуклые и строго квазивогнутые функции, а —строго квазивыпуклая; Ь — строго квазивыпуклая; с — строго квазивогнутая. проиллюстрировать это утверждение, рассмотрим функцию, предложенную Карамардианом (Karamardian [1967J): 1 при х = 0> 0 при хфО. По определению 3.5.5 функция f(x) строго квазивыпукла. Однако она не является квазивыпуклой, так как при jci = 1 и Д2 —-1 имеем f(Xl) = f(x2) = 0f a f [±х{ + jx2] = f @) = 1 > >f(x2). Если же функция / полунепрерывна снизу, то из ее строгой квазивыпуклости следует обычная квазивыпуклость, что, как правило, весьма желательно при введении усиления «стро- «строго». Определение полунепрерывности снизу приведено в допол- дополнении А. 3.5.7. ЛЕММА. Пусть S — непустое выпуклое множество в Еп, f: S-+E\ — строго квазивыпуклая полунепрерывная снизу функция. Тогда / квазивыпукла. Доказательство. Пусть хь x2sS, Если /(xi)=t*=/(x2), то по определению строгой квазивыпуклости при каждом Яе@,1) имеем f[Kx\+(l — Я)х2]< max {/(xi), f(x2)}. Пусть теперь f(xi) = f(x2). Чтобы убедиться, что функция / квазивыпукла, нужно показать, что f [A,xi-|-A — Х)х2] </(xi) при всех А,е е @, 1). Предположим противное, т. е. пусть / [\ix\ + A — \i) x2] > >/(xi) при некотором (ле@, 1). Рассмотрим точку х = [ix\ + + A—ji)x2. Поскольку функция / полунепрерывна снизу, су- существует такое X <= @,1), что f(x)>f [Ххх + A - Я) х] > / (х,) = / (х2). C.25) Заметим, что точка х может быть представлена в виде выпук- выпуклой комбинации точек Xxi-f(l—К)х и х2. Тогда так как функ- функция/ строго квазивыпукла и /[A,*i -f (I —-k)x] > /(х2), то /(х)< </tta+0—*)*]. Это противоречит C.25). ¦
3.5. ОБОБЩЕНИЯ ПОНЯТИЯ ВЫПУКЛОЙ ФУНКЦИИ 119 Сильно квазивыпуклые функции Из теоремы 3.5.6 следует, что. точка локального минимума строго квазивыпуклой функции на выпуклом множестве явля- является глобальным оптимальным решением. Однако строгая ква- квазивыпуклость не обеспечивает единственности глобального опти- оптимального решения. Ниже вводится другой вариант квазивыпук- квазивыпуклости, так называемая сильная квазивыпуклость, которая га- гарантирует существование единственного глобального оптимума. 3.5.8. ОПРЕДЕЛЕНИЕ. Пусть 5 —непустое выпуклое мно- множество в ?"„, /: S-*E\. Говорят, что функция / сильно квазивы- квазивыпукла, если для любых хь x2?S, xi Ф хг и любого Яе@, 1) справедливо неравенство / [Лх, + A - Я) х2] < max {f fa), / (х2)}. Если функция —f сильно квазивыпукла, то / называется сильно квазивогнутой. Из определений 3.5.8, 3.1.1, 3.5.1 и 3.5.5 вытекает справед- справедливость следующих утверждений: 1) строго выпуклая функция сильно квазивыпукла, 2) сильно квазивыпуклая функция строго квазивыпукла, 3) сильно квазивыпуклая функция квазивыпукла, даже если она не является полунепрерывной снизу. На рис. 3.7, а изображена функция, являющаяся и сильно, и строго квазивыпуклой. Функция, изображенная на рис. 3.7,6, строго квазивыпукла, но не является сильно квазивыпуклой. 3.5.9. ТЕОРЕМА. Пусть /: Еп-*Е\— сильно квазивыпуклая функция. Рассмотрим задачу минимизации f(x) при условии, что xgS, где S — непустое выпуклое множество в Еп. Если х — точка локального минимума /(х) на 5, то она является един- единственным глобальным оптимальным решением этой задачи. Доказательство. Так как х — локальное оптимальное реше- решение, то существует такая е-окрестность Ne(x) точки х, что /(х) ^ ^/(х) для всех x^Sf\NB(x). Предположим, что утверждение теоремы неверно, т. е. существует такая точка х е 5, что х Ф х и /(х)^/(х). Из сильной квазивыпуклости / следует, что при всех А,е@,1). Однако если К достаточно мало, то Ях + + A—^)xGSflJVe(x). Тогда последнее неравенство противо- противоречит локальной оптимальности Я. ¦
120 ГЛ. 3. ВЫПУКЛЫЕ ФУНКЦИИ Псевдовыпуклые функции Легко проверить, что из приведенного ниже определения псевдо- псевдовыпуклой функции / следует, что если V/(x) = 0, то х — точка глобального минимума функции /. Как видно из рис. 3.8, Ь, это свойство не присуще дифференцируемым сильно и строго квази- квазивыпуклым функциям. 3.5.10. ОПРЕДЕЛЕНИЕ. Пусть S — непустое открытое мно- множество в Еп, f: S~+E\ — дифференцируемая на S функция. Го- Говорят, что функция f псе вдо выпукла, если для любых xi, х2 е 5, таких, что ?/(xi)r(x2 — xi)^0, справедливо неравенство /(х2)^/(хО, или, что эквивалентно, если /(x2)</(xi), то V/(xi)T(x2 — xi)<0. Говорят, что / псевдовогнута, если функ- функция —/ псевдовыпукла. Функция / называется строго псевдовыпуклой, если для лю- любых различных xi, x2gSh таких, что Vf(xi)r(x2— xi)^ 0, сле- следует неравенство f(x2)> f(xO, или, что эквивалентно, если для любых различных xi, X2eS из неравенства /(x2)^/(xi) сле- следует, что Vf(x\)T(x2 — xi)<0. Если функция — / строго псевдо- псевдовыпукла, то / называется строго псевдовогнутой. На рис. 3.8, а изображена псевдовыпуклая функция. Она является также и строго квазивыпуклой, что верно и в общем случае (см. теорему 3.5.11). Легко убедиться, что функция, изо- изображенная на рис. 3.8, by строго квазивыпукла, но не является псевдовыпуклой. 3.5.11. ТЕОРЕМА. Пусть 5 — непустое открытое выпуклое множество в ЕП9 f: S->2?i—дифференцируемая на S псевдовы- псевдовыпуклая функция. Тогда / строго квазивыпукла и квазивыпукла. Доказательство. Покажем сначала, что / — строго квазивы- квазивыпуклая функция. Предположим, что это не так, т. е. существуют такие хь x2<=S, что f(xi)^/(x2) и /(х')> max {/(xi), /(x2)}, где x/ = ^xi + (l — k)x2 при некотором ie@, I). He умаляя общности, можно считать, что f(xi)< f(x2), так что ' f(x')>f(x2)>f(Xl). C.26) Из псевдовыпуклости функции / следует, что Vf (x'O(xi—х') < <0. Так как yf (x'f (xj-x') < 0 и х, - х7 = - -Ц=А (х, - x,)f то Vf (xOr (x2 — хО > 0. Используя снова псевдовыпуклость /, по- получаем, что /(х2)>/(хг). Тогда из C.26) вытекает, что /(х2)== — f(x'). Так как \f(x')T(x2 — x')>0, то найдется такая точка — Ц,)Х2, М.€=@, 1), ЧТО
3.5. ОБОБЩЕНИЯ ПОНЯТИЯ ВЫПУКЛОЙ ФУНКЦИИ 121 К Точка перегиба Рис. 3.8. Псевдовыпуклые функции, а — псевдовыпуклая; 6 —не псевдовы- псевдовыпуклая. Строгая выпуклость Дмфшеренцируе- Строгая псевдовыпуклость Сильная квазивыпуклость Выпуклость Дифференцируе- Дифференцируемое™ Псевдовыпуклость Строгая квазивыпуклость Лолунепрерывность снизу Квазивыпуклость Рис. 3.9. Связь между различными типами выпуклости.
122 гл- 3- ВЫПУКЛЫЕ ФУНКЦИИ Аналогичным образом используя псевдовыпуклость f, легко убе- убедиться в том, что V/(x)r(x2 — х)<0 и V/(x)r(x/ — х)< 0. Заметим, что х2 — х = -j~~— (х — х')« Следовательно, по- последние два неравенства несовместны. Полученное противоре- противоречие показывает, что допущение было неверным, т. е. функция / строго квазивыпукла. По лемме 3.5.7 она является и квазивы- квазивыпуклой. Ш Сформулированная ниже теорема 3.5.12 показывает, что лю- любая дифференцируемая строго псевдовыпуклая функция яв- является сильно квазивыпуклой. 3.5.12. ТЕОРЕМА. Пусть S — непустое открытое выпуклое множество в Еп, /: S->f?i— дифференцируемая строго псевдо- псевдовыпуклая функция. Тогда / сильно квазивыпукла. Доказательство. Предположим, что утверждение теоремы не- неверно, т. е. существуют различные xi, x2gS и ^е@, 1), такие, 4Tof(x)^max {/(xi), f(x2)}, где x=^xi+(l — Я)х2. Так как f(x\)^Z /(x), то из строгой псевдовыпуклости функции f следует, что Vf(x)r(xi — х)<0. Отсюда (x!-X2)<0. C.27) Кроме того, так как /(х2) ^ f (x), то Пха-^ХО. C.28) Неравенства C.27) и C.28) противоречивы. Следовательно, / сильно квазивыпукла. ¦ Итак, мы обсудили различные типы выпуклости и вогнутости функций. На рис. 3.9 приведена схема взаимосвязей этих клас- классов функций. Отмеченные связи следуют либо непосредственно из определений, либо из доказанных в этой главе утверждений. Аналогичную схему можно построить и для вогнутых функций. Функции, выпуклые в точке Еще одним полезным в задачах оптимизации понятием является понятие выпуклости или вогнутости функции в точке. В некото- некоторых случаях требование выпуклости или вогнутости функции может оказаться слишком сильным и, кроме того, излишним для анализа конкретной ситуации. Вместо него бывает достаточно потребовать выпуклости или вогнутости функции в точке. 3.5.13. ОПРЕДЕЛЕНИЕ. Пусть S — непустое выпуклое мно- множество в ЕПу f: S->?i. Приведем ослабленные определения раз- различных типов выпуклости, рассмотренных в этой главе»
3.5. ОБОБЩЕНИЯ ПОНЯТИЯ ВЫПУКЛОЙ ФУНКЦИИ 123 Выпуклость в точке. Говорят, что функция / выпукла в точке = S, если для любых Яе@, 1) hxgS. Строгая выпуклость в точке. Функция / называется строго выпуклой в точке xg5, если для любых ^е@,1) hxgS,x^x. Квазивыпуклость в точке. Функция / квазивыпукла в точке xeS, если /[Ях + A-Я)х]<тах{/(х), f(x)} для любых ^g@,1) hxsS. . Строгая квазивыпуклость в точке. Функция / строго квази- квазивыпукла в точке х е 5, если (х), /(х)} для любого Яе@, 1) и любой точки xgS, для которой {(х)Ф Сильная квазивыпуклость _в точке. Функция f называется сильно квазивыпуклой в точке х е 5, если /[Ях+A~Я)х]<тах{/(х), f(x)} для любых Я е @, 1) и х е S, х Ф х. Псевдовыпуклость в го«*/се._Функция f псевдовыпукла в точ- точке xeS, если из условия V/(x)r(x — х)^ 0 для xgS следует, Строгая псевдовыпуклость в точке. Функция / называется строго псевдовыпуклой в точке xgS, если из неравенства Vf(x)T(x — х)^0 при xgS, х^=х следует, что f(x)>f(x). Различные виды вогнутости в точке могут быть определены аналогичным образом. На рис. ЗЛО представлены некоторые виды выпуклости в точке. Как видно из рисунка, эти виды выпуклости в точке пред- представляют собой значительное ослабление понятия выпуклости. Ниже будут перечислены некоторые важные результаты, связанные с понятием выпуклости функции в точке. Естествен- Естественно, что не все утверждения, полученные в этой главе, перено- переносятся на случай, когда функция выпукла лишь в точке. Здесь собраны те из них, которые остаются верными. Доказательства
124 гл. з. выпуклые функции (с) Рис. 3.10. Различные типы выпуклости в точке, а — выпуклость и строгая выпуклость: / выпукла, но не строго выпукла в точке Хи f выпукла и строго выпукла в точке х2\ b — псевдовыпуклость и строгая псевдовыпуклость: f псевдовыпукла, но не строго псевдовыпукла в точке Хи f псевдовыпукла и строго псевдовыпукла в х2; с — квазивыпуклость, строгая и сильная квази- квазивыпуклость: f квазивыпукла, но не строго и не сильно квазивыпукла в точке Хи в точке х2 квазивыпукла и строго квазивыпукла, но не сильно квазивыпукла; / квазивыпукла, строго квазивыпукла и сильно квазивыпукла в точке х3. этих утверждений аналогичны доказательствам соответствую- соответствующих теорем этой главы. В дальнейшем предполагается, что /: S-*Eu S — непустое ^выпуклое множество в Еп. 1. Пусть в точке х функция J выпукла и дифференцируема. Тогда f(x)^f(x)+\f(x)T(x — x). Если / строго выпукла, то для х Ф х выполняется строгое неравенство.
УПРАЖНЕНИЯ 125 2. Пусть в точке х функция f выпукла и дважды дифферен- дифференцируема. Тогда ее матрица Гессе Н(х) положительно полуопре- полуопределена. ? _ _ 3. Пусть функция / выпукла в точке xgS и х — локальное оптимальное решение задачи минимизации /(х) на 5. Тогда х — точка глобального минимума. 4. Пусть функция / выпукла и дифференцируема в дочке x&S. Для того чтобы точка х являлась оптимальным решением задачи минимизации /(х) на S, необходимо и достаточно, чтобы V/(x)r(x — х)^5 0 для всех xgS. Если точка xeintS, то она является оптимальным решением тогда и только тогда, когда () 5. Пусть функция / выпукла и дифференцируема в точке xgS, Предположим, что х — оптимальное ^решение задачи максимизации /(х) на S. Тогда \f{x)T(x— х)^0 для всех xeS. 6. Пусть в точке х функция / квазивыпукла и дифференци- дифференцируема, xesSji /(х)</(х). Тогда ?/(х)г(х — х)< 0. 7. Пусть х — точка локального оптимума задачи минимиза- минимизации /(х) на 5. Если функция f строго квазивыпукла в точке х, то х — глобальное_оптимальное решение. Если / сильно квази- квазивыпукла в точке х, то х — единственное оптимальное решение. 8. Рассмотрим задачу минимизации /(х) при условии, что xgS. Пусть точка х^5 и Vf(x) = O. Если функция / псевдо- псевдовыпукла в точке х, то х — глобальное оптимальное решение. Если / строго псевдовыпукла, то х — единственное оптимальное решение. Упражнения 3.1. Пусть 5 — непустое выпуклое множество в ?«, /: S-+Ei. Покажите, что функция / вогнута тогда и только тогда, когда ее подграфик является выпуклым множеством. 3.2. Пусть 5 — непустое выпуклое множество в Еп, f: S-*-Ei. Покажите, что функция f выпукла тогда и только тогда, когда для любого ^>2и лю- / k \ k бых xi, ..., Xk s S справедливо неравенство f [ У] Я/ху I ^ V Я// (ху), где Л/-1, Я/>0 при /==1, ...,Л. 3.3. Проверьте, какие из перечисленных функций являются выпуклыми, а какие вогнутыми. Приведите обоснование. Ю / (*i, х2) = х\ + 2х{х2 — \0х{ + 5*2. Ь)
126 1 л» Э* выпуклые функции c) f (хи х2) = — jcf — 5jc| + 2х{х2 + IOjcj — \0х2. d) f (хх> х2, х3) — ххх2 + 2х\ + х\ + 2х\ — 6х{хг. 3.4. Покажите, что / является аффинной функцией тогда и только тогда, когда она одновременно и выпукла и вогнута. (Функция / называется аф- аффинной, если /(х) = а + сгх, где а — скаляр, а с — вектор из ?«.) 3.5. Проверьте вогнутость функции f (х{, *2) = 10 — 2(дг2 — xff на мно- множестве S = {(х\, х2): — 1 < Xi < 1, — 1 < х2 < 1}. 3.6. Пусть F —функция распределения случайной величины, т.е. F(y) = Z = Prob{6 < у). Покажите, что функция <р (г) == \ F (у) dy выпукла. Яв- — оо ляется ли <р(г) выпуклой для произвольной неубывающей функции F? 3.7. Пусть функция g: Еп «—> Ех вогнута, f (х) = —т-у. Покажите, что на множестве S «{х: ^f (x) > 0} функция f выпукла. 3.8. Пусть f ь ..., fk: En-+E\ — выпуклые функции. Рассмотрим функцию /(х)= max{/i(x), ..., Ых)}« Покажите, что f выпукла. Сформулируйте и докажите аналогичное утверждение для вогнутых функций. 3.9. Пусть fi, ..., fk: En-*Ei — выпуклые функции. Рассмотрим функцию f(x)=Va///(x), где %/ > 0 при / » 1, ..., k. Покажите, что функция / /-1 выпукла. Сформулируйте и докажите аналогичное утверждение для вогнутых функций. ЗЛО. Пусть 5 — непустое выпуклое множество в Еп и f: En-+E\ опреде- определена следующим образом: Функция f(y) задает расстояние от точки у до множества S и называется функцией расстояния. Докажите, что f — выпуклая функция. 3.11. Пусть S = {(*!, х2)' *i + #!^l}. Выпишите в явном виде функ- функ5 { } цию расстояния от у до 5, определенную в упр. ЗЛО. 3.12. Пусть f: En-+Ei — выпуклая функция, g: ?i->?4 — неубывающая выпуклая функция. Рассмотрим сложную функцию h: En-+Eu h(x) =gr[/(x)]. Покажите, что функция h выпукла. 3.13. Пусть S — непустое ограниченное выпуклое множество в Еп, f: En-+E\ — опорная функция множества S, определяемая следующим обра- образом: xe5}. Докажите, что функция / выпукла. Покажите, что если f(y) = угх, где хе5, то х — субградиент функции / в точке у. 3.14. Пусть 5 = A U В, где А — {(*!, х2)\ х{ < 0, х\ + х\ < 1}, В = {(*ь х2): Выпишите в явном виде опорную функцию, определенную в упр. ЗЛЗ. 3.15. Функция f: En-+Ei называется калибровочной если для всех х G ?л и ^ > 0 выполняется равенство
УПРАЖНЕНИЯ 127 Говорят, что калибровочная функция субаддитивна, если для любых х, уеЯя Докажите, что для калибровочной функции субаддитивность эквивалент- эквивалентна выпуклости. 3.16. Пусть /: En-+Ei — выпуклая функция. Покажите, что % является субградиентом функции^ / в точке х тогда и только тогда, когда гиперпло- гиперплоскость {(х, у):_у ==J(x)+ %T(x — х)} является опорной к надграфику функ- функции / в точке [х, f(x)]. Сформулируйте и докажите аналогичное утверждение для вогнутой функции. 3.17. Пусть / — выпуклая на Еп функция. Покажите, что совокупность всех субградиентов функции / в данной точке образует выпуклое замкнутое множество. 3.18. Рассмотрим функцию 0, определяемую с помощью следующей опти- оптимизационной задачи: 0 (иь ti2) = min {xi A — их) + х2 A — и2)} при условии х\ + х\ ^ 1. a) Покажите, что функция 9 вогнута. b) Вычислите значение 0 в точке A, 1). c) Найдите совокупность субградиентов функции 0 в точке A, 1). 3.19. Рассмотрим функцию f: En-*Ei, f(x)=||x||. Докажите, что суб- субградиенты функции / характеризуются следующими свойствами. Если х = 0, то I — субградиент функции в точке х в том и только том случае, если ||?||^ 1. Если же х Ф О, то \ является субградиентом функ- функции f в точке х тогда и только тогда, когда || % || = 1 и %тх = || х ||. Используя этот результат, покажите, что функция / дифференцируема в каждой точке х Ф 0, и охарактеризуйте ее градиент. 3.20. Пусть /i, /2: Еп -+Ei — дифференцируемые выпуклые функции, f(x)= maxtfi(x), _Ь(х)}. предположим, что существует такая точка х, в которой /(х)= /ч(х) = /г(х). Покажите, что вектор % является субградиентом функции / в точке х тогда и только тогда, когда l = ^Vf1W + (l-^)Vf2(x), где А,€=[0, 1]. Обобщите это утверждение на конечное число функций и установите анало- аналогичный результат для вогнутых функций. 3.21. Рассмотрим функцию 0, определяемую следующей оптимизацион- оптимизационной задачей: 6 (и) = min {сгх + ит (Ах - Ь)} при условии хе#, где X — компактное многогранное множество. a) Покажите, что функция 0 вогнута. b) Охарактеризуйте субградиенты функции 0 в любой заданной точке и. 3.22. Найдите 0, определенную в упр. 3.21, и опишите множество ее суб- субградиентов в точке u ^ 0, если -Ii]- ЧП-
128 гл- 3- выпуклые функции 3.23. Пусть f: Еп ->- Ех — дифференцируемая функция. Покажите, что ее градиент задается соотношением 3.24. Пусть f: Еп-+ ?4 — дифференцируемая функция. Функция является линейной аппроксимацией функции f в заданной точке х. Если f дважды дифференцируема в точке х, то ее квадратичной аппроксимацией в этой точке является функция где Н(х)—матрица Гессе функции f в точке х. х\+х\ Пусть f (хи х2) — е + \0х2 — 5х\. Постройте линейную и квадратич- квадратичную аппроксимации функции f в точке @, 1). Являются ли эти аппроксимации выпуклыми или вогнутыми? Приведите обоснование. 3.25. Рассмотрим следующую задачу: минимизировать {хх — 4J + (#2 — ЗJ при условиях х2^ xf, Выпишите необходимое условие оптимальности и проверьте, выполняется ли оно в точке B, 4). Является ли эта точка оптимальной? Почему? 3.26. Докажите, используя теорему 3.4.3, что всякий локальный минимум выпуклой функции на выпуклом множестве является и ее глобальным мини- минимумом. 3.27. Рассмотрим задачу: г 1 т минимизировать с х + -х Нх при условиях х>0, где Н — симметрическая отрицательно определенная матрица, А — матрица порядка /пХ«, с — вектор из Еп, b — вектор из Ет. Выпишите необходимое и достаточное условие оптимальности, опираясь на теорему 3.4.3, и упростите его, используя структуру задачи. 3.28. Рассмотрим задачу минимизации f(x) при условии, что xsS, где f: En-+Ei — дифференцируемая выпукла^ функция, S — непустое выпуклое множество в Еп. Докажите, что_ точка _х является оптимальным решением тогда и только тогда, когда ?/(хO'(х —х) ^ 0 для всех х е S. Сформулируй- Сформулируйте и докажите аналогичное утверждение для задачи максимизации вогнутой функции. (Этот результат доказан в качестве следствия из теоремы 3.4.3. Здесь предлагается доказать его, не используя понятие субградиента.) 3.29. Пусть f: Е„ -v Ei — выпуклая функция и f(x + ^d)>f(x) для всех ^е @, 6), где 6 > 0. Покажите, что }(х-\-Ы) является неубывающей функ-
УПРАЖНЕНИЯ 129 цией от X. Покажите также, что /(x + ^d) строго возрастает, если функция / строго выпукла. _ 3.30. Вектор d называется направлением спуска функции f в точке х, если существует такое 6 > 0, что f(x + kd) < f(x) для всех X е @, б). Пусть / — выпуклая функция. Покажите, что d является направлением спуска тогда и только тогда, когда /'(х; d) < 0. Справедливо ли это утверждение без предположения о выпуклости /? 3.31. Рассмотрим задачу минимизации /(х) при условии, что х^5, где /: Еп-*-Е\ — выпуклая функция, S — не_пустое выпуклое множество в Еп. Конус возможных направлений в точке хе5 определяется следующим об- образом: D = {d: существует такое 6 > 0, что х + Ad е 5 при X е @, 6)}. Покажите, что точка х является оптимальным решением тогда и только тогда, когда f'(x; d) ^ 0 для всех d&D. Сравните это утверждение с необ- необходимым и достаточным условием, сформулированным в теореме 3.4.3. От- Отдельно рассмотрите случай, когда S = Еп. 3.32. Рассмотрим следующую задачу: максимизировать / (х) при условиях Ах = Ь, где А —матрица порядка тХя ранга т, f — функция, дифференцируемая и выпуклая в Еп. Возьмем экстремальную точку (х^, х^) == (ЬТ9 (г), где b = B~!b ^s 0 и А = [В, N]. Соответственно разобьем вектор V/(х) на Уд/(х) и V^v/(x). Покажите, что необходимое условие, сформулированное в теореме 3.4Д выполняется, если Если последнее условие выполняется, обязательно ли х — точка локального минимума? Докажите или приведите контрпример. Пусть yNf (х)т —• yBf (x) B^N^O Выберем произвольный индекс /, для которого /-я компонента этого вектора положительна, и будем увеличи- увеличивать соответствующую внебазисную переменную #/, пока не достигнем новой экстремальной точки. Покажите, что этот процесс приведет в новую экстре- экстремальную точку с большим значением целевой функции. Гарантирует ли метод сходимость к глобальному оптимальному решению? Докажите сходимость или приведите противоречащий пример. 3.33. Примените описанную в упр. 3.32 процедуру к задаче максимизировать ( х{ — -г- J + (х2 — 5J при условиях — ху + х2 + *з = 2, 2дг, +3х2 + лг4= И, взяв в качестве начальной точки вектор A, 3, 0, 0)г. 3.34. Пусть ci, C2 — ненулевые векторы из Еп, (Xi, a% — скаляры, S =** ¦= (х : с^х + а2 > 0j. Рассмотрим функцию /: S -> Е\, определяемую 5 М. Базара, К- Шетти
Ш гл. з. выпуклые функции соотношением clx + Покажите, что функция / является псевдовыпуклой и псевдовогнутой (функ- (функции, являющиеся одновременно псевдовыпуклыми и псевдовогнутыми, назы- называются псевдолинейными). 3.35. Рассмотрим квадратичную функцию /: En-+Ei и предположим, что она выпукла на S, где 5 — непустое выпуклое множество в Еп. Покажите, что a) функция f выпукла на M(S), где M(S) —аффинное многообразие, со- содержащее S: { к k \ /«1 j Г /-1 У ' 1 "" b) функция / выпукла на линейном подпространстве L(S)=={y— х: ysA(S), *ев5}, параллельном M(S). (Последнее утверждение доказано Коттлом [1967].) 3.36. Рассмотрим квадратичную функцию f: En-+Ei вида /(х)=хгНх. Говорят, что функция / положительно субопределена, если из того, что хгНх < 0, следует, что либо Нх ^ 0, либо Нх ^ 0 для любого х е Еп. До- Докажите, что функция / квазивыпукла на неотрицательном ортанте Е% = {х е Еп: х ^ 0} тогда и только тогда, когда она положительно суб- опред^лена (Martos [1969]). 3.37. Говорят, что функция / строго положительно субопределена, если из неравенства хгНх < 0 следует, что Нх > 0 или Нх < 0 для любого х е Еп. Докажите, что функция / псевдовыпукла на неотрицательном ортан- те, исключая х = 0, тогда и только тогда, когда / строго положительно субопределена (Martos [1969]). 3.38. Пусть g: S-*EU h: S-+Eu где S — непустое выпуклое множество 8 (х) в Еп. Рассмотрим функцию /: S -> ?4 вида / (х) = ^ . Покажите, что / квазивыпукла, если выполняются два следующих условия: a) g — выпуклая на 5 функция и g{x) ^0 для любого х е5; b) h — вогнутая на 5 функция и h(x) >» 0 для любого xeS. (Указание: используйте теорему 3.5.2.) 3.39. Покажите, что функция, определенная в упр. 3.38, квазивыпукла, если выполняются два следующих условия: а) функция g выпукла на S и g(x) ^ 0 для всех х е= S; 1?) функция h выпукла на S и h(x) > 0 для всех хе5. 3.40. Пусть g: 5->-?i, h: 5->?i, где 5 — непустое выпуклое множество в ?„. Рассмотрим функцию /: S-+El вида /(х) = g(x)h(x). Покажите, что / квазивыпукла, если выполняются два следующих условия: a) функция g выпукла, g(x) ^ 0 для всех х е S\ b) функция h вогнута, h(x) > 0 для всех xg5. 3.41. Покажите, что функции из упр. 3.38—3.40 псевдовыпуклы, если S — открытое множество, a g и h — дифференцируемые функции. 3.42. Пусть ф: Em-+-Ei — выпуклая функция, А -^ матрица порядка пгХп. Рассмотрим функцию h: Еп-+Е\ вида h(x) = ф(Ах). Покажите, что функ- функция h выпукла. 3.43. Пусть f: En-+gm, g: En-+¦ Ek — дифференцируемые и выпуклые функции, функция ф: Em+k-^-Ei обладает следующим свойством: если а2 > at и b2 ^ bi, то ф(а2,b2)^ (p(ai,bi). Рассмотрим функцию h: En-+E) вида h(x)= ф[^(х), g(x)]. Покажите, что а) если ф выпукла, то h — выпуклая функция;
УПРАЖНЕНИЯ 131 b) если ф псевдовыпукла, то и функция h псевдовыпукла; c) если ф квазивыпукла, то и h — квазивыпуклая функция. 3.44. Пусть 5 — непустое выпуклое множество в Еп, функции /: Еп -*¦ Ei и g: Еп -*¦ Ет выпуклы. Рассмотрим функцию ф: Ет -*¦ Eif определяемую со- соотношением Ф (У) = inf {/ (х): g(x)<y, xg5). a) Докажите, что функция ф(у) выпукла. b) Покажите, что если yi ^ у2, то ф(уО ^ Ф(У2). 3. 45. Пусть gu &2-Еп i—> Elt а е [0, 1]. Рассмотрим функцию Ga: Еп\—>Е\, определяемую соотношением ^ [ft W - V«? <Х> + «2 W - где V"" "" положительный квадратный корень. a) Покажите, что Ga (х) ^ 0 тогда и только тогда, когда gx (x) ^ 0 и g2 (х) > 0, т. е. min [g{ (x), g2 (x)] > 0. b) Пусть функции g\ ng2 дифференцируемы. Покажите, что Ga дифферен- дифференцируема при любом as[0, 1). Покажите также, что Ga = min{gi, g2b если <х= 1. c) Пусть функции gi и ^2 вогнуты. Покажите, что при aG[0, 1] функция Ga(x) вогнута. Справедливо ли это утверждение при а е= (— 1, 0)? d) Пусть функции gi и g2 квазивогнуты. Покажите, что при a = 1 функция Ga квазивогнута. e) Пусть g{ (х) « - х\ - х\ \ 4, g2 (х) = 2х{ + х2 - 1. Получите явное выражение для Ga и проверьте справедливость утверждений а, Ь и с. (Это упражнение описывает общий метод приведения двух ограничений вида gi(x), g2(x)^0 к одному эквивалентному ограничению G (х)^0. Эта процедура, предложенная Рвачевым [1963], может успешно применяться для сведения задачи со многими ограничениями к задаче с одним ограниче- ограничением.) 3.46. Пусть gu g2: En-+Eu ae[0, 1], а функция Ga: Еп>—>Ег опреде- определяется соотношением а) Покажите, что Ga (к) ^ 0 тогда и только тогда, когда max [g\ (x), )]>0 b) Пусть gi и gi — дифференцируемые функции. Покажите, что функ- функция Ga дифференцируема при аб[0, 1]. Покажите также, что Ga = max{gi, g2] при а= 1. c) Пусть функции gi и gz выпуклы. Покажите, что функция Ga выпукла при а е=[0, 1]. Справедлив ли этот результат при а е (—1, 0)? d) Пусть функции gi и g2 квазивыпуклы. Покажите, что Ga квазивы- квазивыпукла при а = 1. e) Пусть в некоторой оптимизационной задаче требуется, чтобы перемен- переменная х принимала значение 0 или 1. Покажите, что это ограничение эквива- эквивалентно условию max{gi(*), g2(x)} ^ 0, где gi{x) = —x2, g2(x) = — (лг— IJ. Найдите в явном виде функцию Ga и проверьте для нее справедливость утверждений a, b и с. (Это упражнение описывает предложенный Рвачевым [1963] общий ме- метод сведения пары ограничений типа «или... или», задаваемых в виде gi(x) ^ 0 или ?г(х) ^ 0„ к одному ограничению Ga (x) ^ 0.) б*
132 ГЛ. 3. ВЫПУКЛЫЕ ФУНКЦИИ 3.47. Пусть f: Еп->*Е\ — выпуклая функция, А — матрица порядка m X #• Рассмотрим функцию h: Em -+Еи определяемую соотношением Л (у) — Inf {/ (х): Ах = у|. Покажите, что функция К (у) выпукла. Комментарии В этой главе были рассмотрены выпуклые и вогнутые функции. Всеоб- Всеобщее признание эти функции получили после работ Jensen [1905, 1906]. Из более ранних работ, посвященных этой тематике, можно указать работы На- damard [1893], Holder [1889]. В § 3.1 представлены различные результаты, связанные с непрерывностью и дифференцируемостью по направлению выпуклых функций. В частности, показано, что выпуклые функции непрерывны во внутренних точках области эффективности (см., например, Rockafellar [1970]). В § 3.2 введено понятие субградиента выпуклой функции. Многие свойства дифференцируемых выпук- выпуклых функций сохраняются при замене градиента субградиентом. Поэтому субградиенты часто используются в анализе задач оптимизации недифферен- цируемых функций. См., например, Held and Karp [1970], Held, Wolfe and Crowder [1974], Wolfe [1976]. В § 33 приведены некоторые свойства дифференцируемых выпуклых функций. Для дальнейшего изучения этих и других свойств выпуклых функ- функций можно рекомендовать работы Eggleston [1958], Fenchel [1953], Roberts and Varberg [1973], Rockafellar [1970]. Параграф 3.4 посвящен исследованию минимумов и максимумов выпук- выпуклых функций на выпуклых множествах. В общем случае эта проблема чрез- чрезвычайно сложна. Однако, как показано в § 3.4, любой локальный минимум выпуклой функции на выпуклом множестве является глобальным, а максимум достигается в экстремальной точке. Для более серьезного изучения теории оп- оптимизации выпуклых функций рекомендуется монография Rockafellar [1970]. В § 3.5 рассмотрены некоторые классы функций, родственных выпук- выпуклым функциям, а именно квазивыпуклые и псевдовыпуклые функции. Класс квазивыпуклых функций впервые изучался Де Финетти (De Finetti [1949]). Дальнейшие исследования этого класса достаточно полно представлены в ра- работах Fenchel [1953], Karamardian [1967], Mangasarian [1969], Ponstein [1967]. Подробный обзор свойств квазивыпуклых и близких к ним функций дан в статье Greenberg and Pierskalla [1971]. Необходимые и достаточные условия квазивыпуклости функции на неотрицательном ортанте получены в работе Arrow and Enthoven [1961] и затем обобщены в Ferland [1972]. Локальный минимум квазивыпуклой функции на выпуклом множестве не обязательно является глобальным. Глобальным он будет в том случае, если минимизируемая функция строго квазивыпукла. Строгая квазивыпуклость не обеспечивает, однако, единственности глобального оптимума. Оптимум един- единствен, если функция сильно квазивыпукла. Понятие сильной квазивыпуклости было введено Понстейном (Ponstein [1967]). Мангасарян (Mangasarian [1965]) ввел в рассмотрение псевдовыпуклые функции. Значимость этого класса определяется тем, что каждая точка, в которой градиент псевдовыпук- псевдовыпуклой функции равен нулю, является точкой глобального минимума. Матричные характеристики (см. упр. 3.36 и 3.37) квадратичных псевдо- и квазивыпуклых функций получены в работах Cottle and Ferland [1972], Martos [1965a, 1967b, 1969, 1975].
Часть 2 Условия оптимальности и двойственность 4 Условия оптимальности Ф. Джона и Куна —Таккера В третьей главе были получены условия оптимальности для за- задачи минимизации /(х) при условии, что xgS, где f — выпук- выпуклая функция, а 5—-_выпуклое множество. В частности, было показано, что точка х является решением этой задачи тогда и только тогда, когда V/(x)r(x — х) ^ 0 для всех xgS. В настоящей главе уточняется структура множества 5. В частности, рассматриваются задачи с ограничениями в виде равенств и/или неравенств. Необходимые условия оптимально- оптимальности выводятся без каких-либо предположений о выпуклости и являются более жесткими, чем приведенные ранее, в том смыс- смысле, что они в явном виде учитывают функции ограничений. В то же время эти условия легче проверяются, так как связаны с анализом конкретной системы уравнений. При соответствую- соответствующих предположениях о выпуклости необходимые условия ста* новятся также и достаточными. План главы § 4.1. Задачи безусловной оптимизации. Кратко рассматри- рассматриваются условия оптимальности для задач безусловной оптими- оптимизации. Обсуждаются условия первого и второго порядка. § 4.2. Задачи с ограничениями-неравенствами. Выводятся условия Ф. Джона и Куна — Таккера для задач с ограниче- ограничениями-неравенствами. § 4.3. Задачи со смешанными ограничениями (равенствами и неравенствами). Обобщаются результаты предыдущего пара- параграфа на задачи со смешанными ограничениями.
134 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА—ТАККЕРА 4.1. Задачи безусловной оптимизации В задаче безусловной оптимизации требуется минимизировать f(x) без каких-либо ограничений на х. В практических прило- приложениях такие задачи встречаются редко. Однако мы рассма- рассматриваем их здесь потому, что условия оптимальности для задач с ограничениями являются логическим обобщением аналогич- аналогичных условий для задач безусловной оптимизации. Ниже будут определены локальный и глобальный минимумы в задачах без ограничений. Эти определения вытекают из опре- определения 3.4.1 при замене 5 на Еп. 4.1.1. ОПРЕДЕЛЕНИЕ. Рассмотрим задачу минимизации f(x) на Еп. Пусть хе?л. Если f(x)^/(x) для всех х из Еп, то х называется точкой глобального минимума функции /(х). Если существует е-окрестность^ Ме (х) точки х, такая, что f(x) ^/(x) для всех xeJV8(x), то х называется точкой локального мини- минимума. Очевидно, что точка глобального минимума является также и точкой локального минимума. Необходимые условия оптимальности Рассмотрим произвольную точку хе?яи попытаемся опре- определить, если это возможно, является ли она точкой локального или глобального минимума функции /(х). Для этого необходимо сформулировать признак, позволяющий отличать точки мини- минимума от всех остальных точек из Еп„ Предположение о диффе- ренцируемости /(х) дает возможность указать такой признак. В приведенном ниже следствии из теоремы 4.1.2 формулируется необходимое условие первого порядка, при котором функция f(x) имеет в точке х локальный оптимум. Теорема 4.1.3 уста- устанавливает необходимое условие второго порядка, использующее матрицу Гессе. 4.1.2. ТЕОР_ЕМА. Пусть функция f: En-^Ei дифференци- дифференцируема в точке х и V/(x)rd < 0 для некоторого вектора d. Тогда существует такое б > О, что f (x + A,d) <_/(х) для всех X е@, б), т. е. d — направление спуска f из точки х. Доказательство. Из дифференцируемости /(х) в точке х имеем __ _ f (x + kd) = f (x) + XVf (x)T d+ X\\d\\a(x; Xd)9 где a(x; Xd)->0 при Х->0. Переставляя в равенстве члены и деля на Я, получаем
4.1. ЗАДАЧИ БЕЗУСЛОВНОЙ ОПТИМИЗАЦИИ 135 Так как Vf(xOd<0 и a(x; Xd)->0 при )\,->0, то найдется та- такое 6>0, V/(x)rd+||d||a(x; *,d)< О для любого Яе@, б). Отсюда следует справедливость утверждения. В СЛЕДСТВИЕ. Пусть функция f\_En-*E\ дифференцируема в х. Если f(x) имеет в точке х локальный минимум, то V() Доказательство. Предположим, что Vf(x)^0 и d = __ v/(x). Тогда V/(x)rd = — ||V/(x)||2 < О, и по теореме 4.1.2 найдется б > 0, такое, что /(х +A,d)</(х) при Яе@,6). Это противоречит тому, что х — точка локального минимума. Сле- Следовательно, Т/(х) = 0. ¦ Приведенное выше условие использует градиент, компонен- компонентами которого являются первые производные функции f(x). Поэтому оно называется условием первого порядка. Необходи- Необходимые условия могут быть также сформулированы в терминах матрицы Гессе Н(х), элементами которой являются вторые частные производные функции ?(х). Такие условия, называемые условиями второго порядка, приводятся ниже. 4.1.3. ТЕОРЕМА. Пусть функция /: Еп-+Е\ дважды диффе- дифференцируема в х. Если /(х) имеет в точке х локальный минимум, то V/(x) = 0 и матрица Н(х) положительно полуопределена. Доказательство. Рассмотрим произвольное направление d. Из дифференцируемости /(х) в точке х вытекает, что где a(x; Xd)->0 при Х->-0. Так как х — точка локального мини- минимума, то по следствию из теоремы 4.1.2 V/(x)= 0. Переставляя члены в D.1) и деля на Я2, получим ; Щ. D.2) Поскольку х — точка локального минимума, то /(x + )^/() Для достаточно малых К. Как легко видеть, из D.2) вытекает, что у drH (x) d +1| d ||2 a (x; ^d) ^ 0 при достаточно малых К. Пе- Переходя к пределу при Я->0, получим, что drH(x)d^0. Следо- Следовательно, Н(х) положительно полуопределена. ¦
136 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА—ТАККЕРА Достаточные условия оптимальности Обсуждавшиеся до сих пор условия являются необходимыми, т. е. они должны быть справедливыми для любого оптимального решения. В то же время точка, удовлетворяющая этим усло- условиям, не обязательно будет точкой локального минимума. В теореме 4.1.4 сформулировано достаточное условие минимума. 4.1.4. ТЕОРЕМА. Пусть функция /: Еп-+Е\ дважды диффе- дифференцируема в точке х. Если Vf(x) = 0 и матрица Н(х) положи- положительно определена, то х— точка локального минимума. Доказательство. Так как /(х) дважды дифференцируема в х, то для любой точки х е Еп должно выполняться следующее равенство: (x5E) + l(x-x)HW(x + |]х-х||2а(х;х-х), D.3) где а(х; х — х)->-0 при х->-х. Предположим, что х не является точкой локального минимума. Тогда существует последователь- последовательность {х*}, сходящаяся к х, такая, что /(х*)</(х) при всех k. Положим dk = (xk — х)/||х* — х||. Учитывая, что 7/(Х) = 0, из D.3) получаем Y d?H (x) d^ + a (x; x^ — x) < О для любого k. D.4) Поскольку ||dfc|| = 1 при всех k, то найдется множество ин- индексов Ж, такое, что {d*}^ сходится к некоторому d и ||d|| = 1. Так как а(х; х* — х)-^0 при JgJ и А-)-оо, то из D.4) сле- следует, что drH(x)d^0. Это противоречит положительной опре- определённости Я(х), так как ||d|| = 1. Следовательно, /(х) дости- достигает минимума в точке х. ¦ Следующая теорема 4.1.5 утверждает, что если / псевдо- выпукла в точке х, то необходимое условие V/(x) = 0 опти- оптимальности точки х является также и достаточным. 4.1.5. ТЕОРЕМА. Пусть функция /: Еп->Е\ псевдовыпукла в точке х. Для того чтобы /(х) имела в точке х глобальный минимум, необходимо и достаточно, чтобы V/(x) = 0. Доказательство. Если х — точка глобального минимума, to V/(x) = 0 в силу следствия из теоремы 4.1.2. Пусть теперь V/(x) = 0. Тогда V/(x)r(x —х) = 0 для всех х«=?л. Из
4.2. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ-НЕРАВЕНСТВАМИ 137 псевдовыпуклости f(x) в точке х следует, что /(х)^/(х) при любом хб?л. ¦ 4.1.6. ПРИМЕР. Для иллюстрации достаточных условий, по* лученных в этом параграфе, рассмотрим задачу безусловной минимизации функции f(x) = (x2—IK. Сначала найдем критические точки, т. е. точки, в которых выполняется необходимое условие первого порядка. Так как Vf(x) = 6x(x2 — IJ, то V/(—1) = V/@) = V/(l) = 0. Затем про* верим выполнение в этих точках условия второго порядка — положительную полуопределенность матрицы Н(л:). Так как Н(х)=24х2(х2 — 1) + 6(х2— IJ, то НA) = Н(—1)=0 и Н@) — = 6. Таким образом, во всех трех точках матрица Гессе поло- положительно полуопределена, и, следовательно, выполняются сфор* мулированные в теореме 4.1.3 необходимые условия минимума. Отсюда, однако, не следует, .что все эти точки являются точ- ками локального минимума. Построив график функции, легко убедиться, что х = 0 является единственной точкой локального, а следовательно, и глобального* минимума. Заметим, что точки х = 1 и д: = —1 не удовлетворяют достаточным условиям из теоремы 4.1.4, требующим положительной определенности Н(х). Последнее требование выполняется в точке глобального мини- минимума х = 0. 4.2. Задачи с ограничениями-неравенствами В этом параграфе сначала будет получено необходимое усло- условие оптимальности для задачи минимизации f(x) при условии, что xgS. Затем в качестве 5 будет рассмотрена допустимая область следующей задачи нелинейного программирования: минимизировать / (х) при условиях g (х) ^ 0, хе! Геометрические условия оптимальности В теореме 4.2.2 будет установлено необходимое условие опти- оптимальности для задачи минимизации f(x) на 5, использующее вводимое ниже понятие конуса возможных направлений. 4.2.1. ОПРЕДЕЛЕНИЕ. Пусть 5 —непустое множество в ЕПу точка х е cl 5. Конусом возможных направлений в точке х называется множество D = {&. А Ф 0, х + Ы е 5 при всех А,е@, 6) для некоторого б > 0}. Любой вектор из D называется возможным направлением,
138 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА—ТАККЕРА Линии уровн* целевой функции Рис. 4.1. Необходимое условие Fq[) D = 0. Из этого определения ясно, что малое перемещение из х вдоль deD приводит в допустимую точку. Более того, из тео- теоремы 4.1.2 следует, что если V/(x)^d<0, то d — направление спуска, т. е. малое перемещение из х вдоль d уменьшает значе- значение /(х). В теореме 4.2.2 будет показано, что если х — точка локального минимума и V/(x)rd<0, то d^D, т. е. необходи- необходимым условием оптимальности является то, что ни одно направ- направление спуска из х не является возможным. Этот факт иллюстри- иллюстрируется на рис. 4.1, где вершины конусов Fo и D переведены для удобства из начала координат в точку х. 4.2.2. ТЕОРЕМА. Рассмотрим задачу минимизации /(х) при условии, что х^5, где /: Еп-+Е\, 5 —непустое множество в Еп. Пусть /(х) дифференцируема в некоторой точке xgS. Если х — точка _локального минимума, то F0[]D = 0, где Fo = = {d:_V/(xOd < 0}, a D — конус возможных направлений в точке х. Доказательство. Предположим противное, т. е. пусть сущест- существует d^FoftD. Тогда по теореме 4.1.2 найдется 6i > 0, такое, что / (х + Щ< f (х) для всех Л €= @, 6j). D.5)
4.2. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ-НЕРАВЕНСТВАМИ 139 Из определения 4.2.1 следует существование такого б2 > 0, что x + ldES для всех К <= @, б2). D.6) Соотношения D.5) и D.6) противоречат предположению о том, что х — точка локального минимума /(х). Следовательно, ¦ Конкретизируем допустимую область S следующий обра- образом. Пусть где gr. Еп-+Е\ для 1= 1, ..., т, а X — непустое открытое мно- множество в Еп. Приходим к следующей задаче нелинейного про- программирования с ограничениями в форме неравенств: Задача Р: минимизировать f (х) при условиях g*(x)^0» i = l, ?..,m, XGl Напомним, что для того, чтобы вектор х был точкой локаль- локального оптимума задачи Р, необходимо, чтобы Fo(]D = 0. Заме- Заметим, что Fo — открытое полупространство, определенное с по- помощью градиента V/(x), a D — конус возможных направлений, который не обязательно определяется через градиенты описы- описывающих задачу функций. Это обстоятельство затрудняет сведе- сведение геометрического условия оптимальности Fof]D = 0 к более удобной алгебраической форме. Однако в силу доказанной ниже теоремы 4.2.3 оказывается возможным определить с помощью градиентов функций-ограничений в точке х открытый конус Go, такой, что GoczD. Поскольку в точке х локального минимума Fo f| D =* 0, то условие Fo П Go = 0 также является необходи- необходимым для оптимальности х. Так как Fo и Go определены в терми- терминах градиентов, то позднее в этом параграфе для получения условия оптимальности Ф. Джона будет использоваться соотно- соотношение Fo П Go = 0- При слабых дополнительных предположе- предположениях эти условия сводятся к хорошо известным условиям Куна — Таккера. 4.2.3. ТЕОРЕМА. Пусть gr. Еп-+Ех при /= 1, ..., т, X — непустое открытое множество в Еп. Рассмотрим задачу Р: минимизировать /(х) при условиях gt(x) ^ 0, / = 1, ..., /п,хе X.
140 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА-ТАККЕРА Зафиксируем некоторую допустимую точку х и обозначим че- через /= {/: ^(х) = 0}. Предположим, что функции / и gi при i е/ дифференцируемы в х, а функции gi при / ф I непрерывны в х. Если х — точка локального оптимума, то Fof\Go = 0. Здесь Fo = {d: V/(x)rd < 0}, Go = {d: Vgi(x)Td < 0 для всех Доказательство. Пусть d<=G0. Поскольку xg! и X — от- открытое множество, то найдется 6i > 0, такое, что x + Wel при Я€= @, вО- D.7) Так как gi(x)<0 и функции g/ непрерывны в х при 1ф19 то существует б2 > 0, такое, что gt (х + Ad) < 0 при Яе @, б2) и 1ф1. D.8) Наконец, поскольку deGo и Vg/(x)rd<0 для всех /е/, то в силу теоремы 4.1.2 найдется 63>О, такое, что gt (х + Ad) < ^ (х) = 0 при Я s @, б3) и / s /. D.9) Из D.7), D.8) и D.9) следует, что точки вида x + Ad являются допустимыми для задачи Р при любых ^е@,6), 6 = = min {бь бг, б3}. Следовательно, вектор d принадлежит конусу D возможных направлений из точки х. Таким образом, пока- показано, что если d g Go, то d е Д т. е. Go <= D. Так как х — точка локального минимума задачи Р, то по теореме 4.2.2 имеем Fof]D = 0. Поскольку Go cz D, то Fo f] Go = 0. ¦ 4.2.4. ПРИМЕР. Рассмотрим задачу минимизировать (л:, — ЗJ + (х2 — 2J при условиях лг2 + т хих2>0. В этом случае gx(х) = х\-\-х\ — Ъ, g2(х) = хх + х2 — 3, g3(x)= ¦я — д:ь ?4(х) = — х2, Х = Е2. Рассмотрим точку x=f-g-, -g- и заметим, что единственным активным ограничением в этой точке является g2{x)=:xl + х2 — 31). Заметим также, что !) Ограничение Я<(^) ^0 активно в точке х, если gi{x) = 0. — Прим. перев.
4.2. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ-НЕРАВЕНСТВАМИ 141 На рис. 4.2 изображены множества Fo и Go. При этом начало (9 6 \т т, т) . Так как Fof)Go ф 0, то x = f-g-, -=-J не является точкой локального минимума. Рассмотрим теперь точку х = B, 1)г. Первые два ограниче- ограничения в этой точке обращаются в равенства. Соответствующие градиенты в х равны V/ (х) = (-2, -2)г, Vgl (х) = D, 2f, Vg2 (х) = A, If. Множества Fo и Go изображены на рис. 4.3 и, как легко видеть, fof]Go = 0. Теорема 4.2.3 дает только, необходимые условия для точки минимума, поэтому равенство Fo П Go пустому мно- множеству не гарантирует, что х = B, 1)г является оптимальной точкой. Можно только сделать вывод о том, что х — критическая точка, т. е. одна из точек, которые могут быть решениями рас- рассматриваемой задачи. Интересно отметить, что полезность теоремы 4.2.3 зависит также от того, в каком виде представлено множество ограниче- ограничений. Это иллюстрируется предлагаемым ниже примером 4.2.5. 4.2.5. ПРИМЕР. Рассмотрим задачу минимизировать {хх — IJ + (*2 — IJ при условиях (х{ + #2 — IK ^ О, хь х2 > 0. В этом случае необходимое условие оптимума, сформулиро- сформулированное в теореме 4.2.3, выполняется в каждой допустимой точ- точке, для которой х\ + х2 = 1. Однако допустимое множество этой задачи можно записать в следующей эквивалентной форме: хи Легко проверить, что Fo П Go = 0 только для одной точки A IV Можно привести примеры, когда необходимые условия тео- теоремы 4.2.3 тривиально выполняются для возможно неоптималь- неоптимальных точек. Предположим, что х — допустимая точка, яля которой V/(x) = 0. Очевидно, что для нее FO = {d: V/(xOd < 0} = 0, и, следовательно, Fq(]Go = 0. Таким образом, для любой точки
142 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА—ТАККЕРА Рис. 4.2. Fo П Go Ф 0 в неоптимальной точке. Рис. 4.3. FQfl Go = 0 в оптимальной точке.
4.2. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ-НЕРАВЕНСТВАМИ 143 х, в которой V/(x) = 0, выполняется необходимое условие опти- оптимальности. Точно так же условия оптимальности выполняются и для точек х, в которых Vg7(x) = 0 при /е/. Рассмотрим те- теперь следующий пример задачи с ограничением-равенством: минимизировать / (х) при условии ?(х) = 0. Ограничение-равенство g(x) = 0 можно заменить двумя ограни- ограничениями в форме неравенств gi(x)= g(x) <; О, g2(x)== = — f(x)<0. Пусть х —допустимая точка. • Тогда ^(х) = = g2(x) = 0. Так как Vg\(х) = — V^2(x), то не может существо- существовать вектора d, для которого Vg\(x)Td < 0 и Yg2(x)Td < 0. Та- Таким образом, Go = 0, и, следовательно, Fo(]Go = 0. Иными словами, необходимые условия теоремы 4.2.3 выполняются для всех допустимых точек рассматриваемой задачи и, следова- следовательно, бесполезны. Условия оптимальности Ф. Джона Переформулируем теперь необходимое условие оптимальности в геометрической форме Fo П Go = 0 в терминах градиентов це- целевой функции и функций ограничений. Эта форма условий оптимальности предложена Ф. Джоном (John [1948]). 4.2.6. ТЕОРЕМА (Условия Ф. Джона). Пусть X — непустое открытое множество из Еп, f: En-*EU gr. Еп-*Еи /= 1, ..., т. Рассмотрим задачу Р: минимизировать f(x) при условии, что к^Х и gi(x) ^ 0,__ i = 1, ..., т. Зафиксируем произвольную допустимую точку х и обозначим /= {/: g;(x) = 0}. Предполо- Предположим, что функции / и gt для i^I дифференцируемы в точке х, а функции gi для 1ф1 непрерывны в х. Если х — точка локаль- локального оптимума задачи Р, то существуют такие числа ао, Ш, ie /, для которых , 0), где компонентами вектора iu являются числа щ для /е/. Если, кроме того, функции gi дифференцируемы в точке х и при 1фЛ, то условия Ф. Джона могут быть записаны в
144 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА—ТАККЕРА следующей эквивалентной форме: Utgt(*) = O, 1=1, ..., т, Щ, «*>0, /== 1, ..., щ, («Ю, и)=^ @, 0), где и — вектор с компонентами ии ..., «m. Доказательство. Поскольку х — локальный оптимум задачи Р, то по теореме 4.2.3 не существует такого вектора d, для кото- которого ?f(xO'd<0 и Vgi(x)Td < 0 при всех /е/. Обозначим через А матрицу, строками которой являются векторы V/(x) и Vgi(x) при i^I. Условие оптимальности из теоремы 4.2.3 экви- эквивалентно утверждению, что система неравенств Ad < 0 не- несовместна. Тогда по теореме 2.3.9 существует ненулевой вектор р ^ 0, для которого А7р = 0. Положив и0 и щ для / е / рав- равными соответствующим компонентам вектора р, получим утверждение первой части теоремы. Вторая эквивалентная фор- форма необходимых условий оптимальности легко получается, если положить щ = 0 для гф1. ¦ Фигурирующие в условиях Ф. Джона числа «0, Ш, i— 1, ... ..., m, обычно называют множителями Лагранжа. Равенства Uigi(x) = 0, t=l, ..., m, называют условиями дополняющей нежесткости. Они требуют, чтобы щ = 0, если соответствующее ограничение в точке х не активно, т. е. ^(х)<0. Точно так же щ > 0 только для активных в точке х ограничений. Условия Ф. Джона можно также записать в векторной форме: g(), fa,, u)>@, 0), (uOi и)Ф@, 0). Здесь Vg(x) — матрица порядка п X тп со столбцами Vg/(x), и — вектор множителей Лагранжа из Ет. 4.2.7. ПРИМЕР. Минимизировать (х{ — ЗJ + (х2 — 2J при условиях #2+
4.2. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ-НЕРАВЕНСТВАМИ 145 Безусловны^ минимум ЛиНИРГ уровня f Рис. 4.4. Пример 4.2.7, Допустимая область этой задачи изображена на рис. 4.4. Про- Проверим выполнение условий Ф. Джона в оптимальной точке B, 1)т. Прежде всего заметим, что множество индексов актив- активных в точке х = B, 1)г ограничений равно /= {1,2}. Следова- Следовательно, множители Лагранжа м3 и и4, соответствующие ограни- ограничениям-неравенствам —х\ ^0 и —х% ^ 0, равны нулю. Заметим также, что V/ (х) = (-2, -2)т, (х) = D, 2)т, (х) = A, 2)т. Таким образом, числа и0 = 3, щ = 1 и и2 = 2 будут удовлетво- удовлетворять условиям Ф. Джона, так как получен ненулевой вектор («о, ии и>2) ^ 0, для которого выполняется равенство В качестве еще одной иллюстрации проверим, выполняются ли условия Ф. Джона в точке х = @, 0)г. Здесь множество ин- индексов активных ограничений / = {3, 4} и, следовательно, и\ = = ц2 = 0. Заметим, что V/ (х) = (-6, -4f, Vg3 (x) = (-1, Of, Кроме того, равенство , -If. справедливо тогда и только тогда, когда иъ = —6м0, «4 = —4 Если по > 0? то uz, и\ < 0, что противоречит условию неотрица-
146 гл- 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА-ТАККЕРА 11,0) Vf(X) Vg2(x) Рис. 4.5. Пример 4.2.8. ?,(*) = 0 тельности множителей Лагранжа. Если же Ио==О, то uz — ua = = 0, в то время как вектор (по, и$, и*) должен быть ненулевым. Таким образом, в точке х = @, 0)г условия Ф. Джона не выпол- выполняются, откуда следует, что начало координат не является опти- оптимальной точкой. 4.2.8. ПРИМЕР. Рассмотрим следующую задачу, предло- предложенную Куном и Таккером (Kuhn and Tucker [1951]): минимизировать при условиях — хх х2 — A — — х2 <: 0. Допустимая область этой задачи изображена на рис. 4.5. Проверим, что условия Ф. Джона действительно выполняются в оптимальной точке х = A,0)г. Множество индексов активных ограничений в этой точке равно /= {1,2}. Кроме того, V/(x) = (-l, Of, Vgl(x) = @> If, Vft(x) = @, -if. Равенство выполняется только в том случае, если ио=О. Таким образом, если положить по = 0, U\ = и2 = а, где а — положительное чис- число, то условия Ф. Джона в точке х выполняются. 4.2.9. ПРИМЕР. Минимизировать — хх при условиях хх + х2 —
4.2. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ-НЕРАВЕНСТВАМИ 147 Рис. 4.6. Пример 4.2.9. Допустимая область этой задачи изображена на рис. 4.6. Оптимальным решением является точка х = A,0)г. Так как V/ (х) = (-1, Of, Vgl (x) = A, If, Vg2(x) = @, -If, то условия Ф. Джона выполняются при по = и\ = и2 = а, где а — любое положительное число. В этой ситуации также легко указать точки, в которых три- тривиально выполняются условия Ф. Джона. Если, например, в некоторой точке х оказывается, что Vf(x)=0 или Vg/(x) = 0 при некотором i e /, то достаточно положить соответствующий множитель Лагранжа равным произвольному положительному числу, а остальные — нулю, и условия теоремы 4.2.6 будут вы- выполнены. Легко показывается также, что условия теоремы 4.2.6 выполняются для задачи с ограничениями-равенствами. Дейст- Действительно, если ограничение g(x) = 0 заменить парой ограни- ограничений g(x) ^ 0 и —g(x) ^ 0, то условия Ф. Джона выполняются при п\ = и2 = а, где а — любое положительное число, и осталь- остальных множителях, равных нулю. Условия Куна — Таккера В примерах 4.2.7 и 4.2.9 множитель Лагранжа ио оказался по- положительным в точке х, в то время как в примере 4.2.8 он равен нулю. Кроме того, в примере 4.2.8 градиенты функций активных ограничений линейно зависимы, а в задаче из примера 4.2.9 нет. Если по = 0, то условия Ф. Джона не используют информа- информацию, которую представляет градиент целевой функции. В этом случае они просто констатируют, что существует неотрицательная,
148 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА-ТАККЕРА нетривиальная и равная нулю линейная комбинация гра- градиентов тех функций, которые определяют активные ограниче- ограничения в исследуемой точке. Таким образом, если и0 = 0, то усло- условия Ф. Джона не имеют практического значения для нахождения оптимальной точки. В связи с этим более интересны случаи, когда и0 > 0. Кун и Таккер (Kuhn and Tucker [1951]) независимо от Ф. Джона получили необходимые условия оптимальности точно того же типа, но с дополнительным свойством по >> 0. Чтобы гарантировать положительность множителя н0, можно предъ- предъявлять различные требования к функциям ограничений. Обычно эти требования называют условиями регулярности, которые бо- более подробно будут обсуждаться в гл. 5. В приведенной ниже теореме 4.2.10 сформулированы необхо- необходимые условия оптимальности Куна — Таккера. При этом тре- требуется, чтобы градиенты функций, определяющих активные ограничения, были линейно независимы. 4.2.10. ТЕОРЕМА (необходимые условия Куна — Таккера). Пусть X — непустое открытое множество в Еп, f: Еп -> Еь gt: Еп-> Еь i= 1, ..., пг. Рассмотрим задачу Р: минимизировать f (х) при условиях g/(x)^0, /=1, ...,/п, XGl Пусть х — произвольная допустимая точка этой задачи, а /= {i: g;(x) = 0}. Предположим, что функции / и gt для /е/ дифференцируемы в точке х, а функции ?,_для 1ф1 непрерыв- непрерывны в этой точке. Пусть также векторы Vg/(x) при /е/ линейно независимы. Если х — точка локального оптимума задачи Р, то существуют такие числа щ для I e /, что V/(x)+ S UtVetW^O, щ > 0, / е /. Есл_и, кроме того, функции gi для 1ф1 дифференцируемы в точке х, то условия Куна — Таккера можно переписать в сле- следующей эквивалентной форме: Z =1, ..., т.
4.2. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ-НЕРАВЕНСТВАМИ 149 Доказательство. По теореме 4.2.6 существуют числа и0> й\ для / е /, не все равные нулю и такие, что D.10) Заметим, что и0 > 0, так как в противном случае D.1Q) про- противоречило бы линейной независимости векторов Vgi(x) при / е /. Первая часть утверждения теоремы получается сразу же, и. если положить иь = -^-. Эквивалентная форма необходимых условий оптимальности получается, если взять, кроме того, щ = 0 при i ф I. ¦ Так же как и в условиях Ф. Джона, числа щ называются множителями Лагранжа, а равенства Uigi(x) = 0, i=l, ... ...,га, — условиями дополняющей нежесткости. В векторной форме необходимые условия Куна — Таккера принимают вид u>0. Здесь Vg(x) — матрица порядка пУ^ш, у которой /-й столбец равен Vg*/(x), a u есть m-мерный вектор множителей Лагранжа. Вернемся теперь к примерам 4.2.7, 4.2.8 и 4.2.9, которые рассматривались ранее. В задаче из примера 4.2.7 легко прове- проверить, что точке х = B, 1)т соответствуют множители Лагранжа 1 2 «! = у, и2 = -д- и щ = и4 = 0, которые удовлетворяют усло- условиям Куна — Таккера. Для задачи из примера 4.2.8 в точке х = A,0)г условия Куна—Таккера не выполняются, так как векторы Vg\(x) и Vg2(x) линейно зависимы. В этом случае, как мы видели, «о = 0. В примере 4.2.9 множители и\ = U2=l удов- удовлетворяют условиям Куна — Таккера. Геометрическая интерпретация условий Куна — Таккера Любой вектор, представимый в виде X tf/Vg/(x), где щ ^ 0 при jg/, принадлежит конусу, натянутому на векторы гра- градиентов тех функций, которые определяют активные ограниче- ограничения в точке х. Из условий Куна — Таккера следует, что
150 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА—ТАККЕРА Рис. 4.7. Геометрическая иллюстрация условий Куна — Таккера. — V/(x)= при т. е. вектор —V/(x) принадлежит этому конусу. Рассмотрим две точки xi и х2, изображенные на рис. 4.7. Так как вектор — V/(xi) принадлежит конусу, натянутому на гра- градиенты функций активных в xi ограничений, то xi удовлетворяет условиям Куна — Таккера, т. е. является точкой Куна — Так- Таккера. Вектор —Vf(x2) не принадлежит соответствующему ко- конусу, следовательно, условия Куна — Таккера в х2 не выпол- выполняются. _ _ Точно так же на рис. 4.4 и 4.6 в точках х = B, 1)т и х = = A,0)г соответственно векторы —V/(x) лежат внутри конусов, образованных векторами градиентов функций активных в х ограничений, а в точке х = A, 0)г на рис. 4.5 V/(x) лежит вне соответствующего конуса. В приведенной ниже теореме 4.2.11 показывается, что при некоторых дополнительных требованиях выпуклости необходи- необходимые условия Куна — Таккера являются также и достаточными условиями оптимальности. 4.2.11. ТЕОРЕМА (достаточные условия Куна — Таккера). Пусть X — непустое открытое множество в Еп, f: En-*Eu gr- Еп-+Е\, /=1, ..., т. Рассмотрим задачу Р: минимизировать fjx) при условии, что xgI, ^(х)^0, /=1, ..., т. Пусть х — произвольная допустимая точка этой задачи и /={/: g/(x) = ¦=0}. Предположим, что функция / псевдовыпукла в точке х, а
4.3. ЗАДАЧИ СО СМЕШАННЫМИ ОГРАНИЧЕНИЯМИ 151 функции gt при i e / квазивыпуклы и дифференцируемы в х. Если в точке х выполняются условия Куна — Таккера, т. е^ су- существуют такие неотрицательные числа щ, i е /, что \f (x) + + 2 ut\gi (х) — й> то х ~~" точка глобального минимума зада- ЧИ Р. Доказательство. Пусть х — произвольная допустимая точка задачи Р. Тогда g/(x)^g/(x) при /е/, так как_ gi(x)^. О и gi(\) = 0. Из квазивыпуклости функций gt в точке х следует, что при всех ^g@, 1). Отсюда следует, что функции gi не возра- возрастают при движении из х в направлении х — х. Тогда по теореме 4.1.2 должны выполняться неравенства Vg,(x)r(x — х) ^ 0. Ум- Умножая эти неравенства на щ и суммируя по i e /, получаем, что Е^ЫхУГ (х-х)<0. Так как vfW+ Z^Vg/(x) = 0, то (x)r (x — x) ^ 0, и из псевдовыпуклости функции / в точке х получаем, что /(х)^/(х). Щ Очевидно, что если функции f и gi выпуклы в х и, следова- следовательно, псевдовыпуклы и квазивыпуклы в этой точке, то теорема Куна — Таккера справедлива. Точно так же теорема оказы- оказывается справедливой и для случая глобальной выпуклости функ- функций— выпуклости во всех точках допустимой области. 4.3. Задачи со смешанными ограничениями (равенствами и неравенствами) В этом параграфе условия оптимальности, полученные в пре- предыдущем параграфе, обобщаются на случай задачи со смешан- смешанными ограничениями. Рассмотрим следующую задачу Р нели- нелинейного программирования: минимизировать / (х) при условиях ёг/(х)^0, /=1, ...,т, Естественным обобщением теоремы 4.2.3 на класс задач та- такого вида является сформулированная ниже теорема 4.3.1, в которой показывается, что если х — точка локального минимума задачи Р, то FqOGq(}Hq = 0, где Яо = (d:
152 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА-ТАККЕРА i= 1, ..., /}. Читатель, не интересующийся специально выводом условий оптимальности, может пропустить доказательство тео- теоремы 4.3.1, тем более что оно опирается на более глубокое по- понимание методов решения систем дифференциальных уравнений. 4.3.1. ТЕОРЕМА. Пусть X — непустое открытое множество в ?„, /: Еп-+Еи gi\ Еп-+Еи *=1, ..., т, ht\ En-*EU i = = 1, ..., /. Рассмотрим задачу Р: минимизировать f (x) при условиях gHx)^0, * = 1, ...,m, XGl Пусть х — точка локального минимума задачи Р и / = = {*'• ?*(х) = 0}- Предположим, что функции gi при 1ф1 не- непрерывны в точке х, функции / и gi при / е / дифференцируемы, a hi при /= 1, ..., I непрерывно дифференцируемы в х. Если векторы VA*(x), /= 1, ..., /, линейно независимы, то FoflGofl П Но = 0, где 0 = {d: Vgi(x)Td<0, /e/}, Доказательство. Предположим, что утверждение теоремы не- неверно, т. е^ существует вектор у е Fo П Gojl ^o- Тогда V/(xOy< <0, V^(x)ry<0 для всех /е/ и Vh(x)ry = 0, где Vh(x)^- матрица порядка пХЪ У которой /-й столбец равен VA/(x). Для Я ^ 0 определим отображение a: Ei-*~En при помощи сле- следующего дифференциального уравнения с граничным условием: ^- = Р(Я)у, <*@) = х, D.11) где Р(Х) — матрица преобразования, переводящего любой век- вектор в ядро оператора Vh[a(A,)]. Для достаточно малых X урав- уравнение D.11) полностью определено и разрешимо, так как Vh(x) — невырожденная матрица полного ранга, а вектор-функ- вектор-функция h непрерывно дифференцируема в точке х. Следовательно, преобразование Р непрерывно по Я. Очевидно, что аШ-^х при Л0+
4.3. ЗАДАЧИ СО СМЕШАННЫМИ ОГРАНИЧЕНИЯМИ 153 Покажем, что для достаточно малых Я>0 точкаа(Я) яв- является допустимой точкой задачи Р и /[а(Я)] < /(x). Таким образом, получим противоречие с тем, что х— точка локального оптимума задачи Р. По правилу дифференцирования сложной функции из D.11) имеем ^gtla(k)]^Vgi[a(kWP(X)Y D.12) для каждого /g/. В частности, вектор у принадлежит ядру оператора Vh(x), и, следовательно^для Я = 0 имеем Р@)у = у. Тогда из D.12) и из того, что Vgi(x)Ty < 0, получаем ^^[«@)] = V^(x)ry<0 D,13) при /е/. Следовательно, gt[a(X)]<iO для достаточно малых положительных Я. При 1ф1 справедливы неравенства g"/(x)< О, и так как функции gi непрерывны в точке х, то ?/[а(Я)]<0 для достаточно малых Я>0 и 1ф1. Кроме того, так как X — открытое множество, то а(К)^Х при достаточно малых Я* Чтобы убедиться в допустимости а (Я), остается показать, что hi[a(k)] — 0 при достаточно малых Я. Из теоремы о среднем имеем Л/[«(Я)] = /гЛ«(О)] + Я^/гЛаЫ] = Я^/гЛа(|х)] D.14) для. некоторого jxe@, Я). По правилу дифференцирования сложной функции, как и в D.12), получаем По построению Р((л)у принадлежит ядру оператора Vhi[a(\i)] и, следовательно, ¦^Л|[«(ц)] = 0. Тогда из D.14) получаем, что hi[a(X)] = 0. Так как это неравенство выполняется для всех / = 1, ..., /, то а(Я) — допустимое решение задачи Р при до- достаточно малом % > 0. Так же, как было получено выражение D.13), можно получить, что Следовательно, /[а(Я)]</(х) при достаточно м_алом Я > 0. Это противоречит локальной оптимальности точки х. Таким об- образом, Fo(]Go(]Ho = 0. Ш
154 гл. 4. условия оптимальности ф. джона и куна-Таккера Условия Ф. Джона В доказанной ниже теореме 4.3.2, являющейся обобщением тео- теоремы 4.2.6, геометрическое условие оптимальности Fof\ Go()Ho= = 0 представлено в более удобной для анализа алгебраиче- алгебраической форме. 4.3.2. ТЕОРЕМА (условия Ф. Джона). Пусть X — непустое открытое множество в Еп, f: Еп-+Еи gr. En-+Eh /= 1, ..., m, he En-+E\, i= 1, ..., l. Рассмотрим задачу Р: минимизировать / (x) при условиях g"*( Пусть x — произвольная допустимая точка задачи Р, / = = {г. g*(x) = 0}. Предположим, что в точке х функции gi при i ф I непрерывны, функции / и gi при i e / дифференцируемы, а функции Ы при i'=l, ..., / непрерывно дифференцируемы. Если х — точка локального оптимума задачи Р, то существуют такие числа ио> щ> i&I, и vi9 i== I, ..., /, что UoVf (х) + S щ Vgt (х) + ? ViVht (x) = О, is/ *=1 Щ, Щ > О, /G /, («о, u7, v) Ф @, 0, 0), где m — вектор с компонентами и*, ie/, a v = (vu ...^_Vi)T. Если, кроме того, функции gi дифференцируемы в точке х при гф /, то условия Ф. Джона могут быть записаны в следующей эквивалентной форме: т - 1 - + Z utVei (x) + Е VtVht (x) = 0, i\ ii w0, W/^0, /= 1, ..., m, , u, v)^=@, 0, 0), где u = (wi, ..., «m)r» v = (yb ..., vi)T. Доказательство. Если векторы V/i/(x), /= 1, ..., /, линейно зависимы, то существуют числа v\t ..., vi, не все равные нулю
4.3. ЗАДАЧИ СО СМЕШАННЫМИ ОГРАНИЧЕНИЯМИ 155 и такие, что ? vtfhiix) — 0. Тогда, положив и0 и н^/е/, рав- ными нулю, получаем первую часть утверждения. Пусть теперь векторы Vft;(x), /=1, ..., /, линейно неза- независимы. Построим матрицу Аь строками которой являются век- векторы Vf(x)r и Vgi(x)T при ie/, и матрицу А2, составленную из вектор-строк V/i/(x)r, при /= 1, ..., /. Тогда в силу теоремы 4.3.1 из того, что х — локальное оптимальное решение, следует несовместность системы: А^<0, A2d = 0. Рассмотрим следующие два множества: 51 = {(zuz2): zi = Axd, z2 = A2d}, 52 = {(zb z2): zL<0, z2 = 0}. Очевидно, что Si, S2 — непустые выпуклые множества и 5! f| 52 == 0. Тогда по теореме 2.3.8 о разделяющей гиперпло- гиперплоскости существует ненулевой вектор Рг = (р[, Р2), такой, что t + pT2z2 для всех Aе?л и (zi, z2)eclS2. Поскольку z2 = 0 и все ком- компоненты вектора 0i могут быть выбраны сколь угодно большими по абсолютной величине отрицательными числами, из нера- неравенства следует, что pi^O. Положим (zi, z2) = @, 0). Тогда оче- очевидно, что (p[Aj + pi*A2) d ^ 0 при всех d e Еп. Если взять d = - (A[Pl + А2гр2), то -| A[Pl + A^p| >0, т. e. A[Pl + A2rp2 = 0. Итак, показано, что существует ненулевой вектор Рг=(ррР2), такой, что pj ^ 0 и А^р! + А2р2 = 0. Обозначая компоненты вектора pi через по и щ, /s/, и компоненты вектора р2 через Vi, получим первое утверждение теоремы и для независимых векторов VA/(x), /= 1, ..., /. Второе утверждение получается, если положить щ = 0 при 1ф\. ¦ Заметим, что множители Лагранжа vt, соответствующие ог- ограничениям-равенствам, могут иметь произвольный знак. Усло- Условия Ф. Джона в векторной форме имеют вид (щ9 u)>@, 0), («о, и, у)Ф @,0,0).
156 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА-ТАККЕРА Здесь Vg(x)—матрица порядка пУ^т, у которой /-й столбец равен Vg,(x), Vh(x)—матрица порядка яХ'> составленная из вектор-столбцов VAf(x), u. есть m-мерный, a v есть /-мерный векторы множителей Лагранжа, соответствующих ограничениям в форме неравенств и равенств. 4.3.3. ПРИМЕР. Минимизировать х\ + х\ при условиях х\ +•* В этой задаче только одно ограничение-равенство. Проверим, выполняются ли условия Ф. Джона в оптимальной точке х = Г-g-, -g-) . Прежде всего заметим, что в точке х нет ни одного активного ограничения, т. е. / = 0. Следовательно, мно- множители Лагранжа, связанные с ограничениями-неравенствами, равны нулю. Так как то равенство выполняется, например, при по = 5 и Pi == —8. 4.3.4. ПРИМЕР. Минимизировать (хг — ЗJ + (х2 — 2J при условиях х]+ Это та же задача, что и в примере 4.2.7, только неравенство х\ + 2*2 ^ 4 заменено на равенство х\ + 2х2 = 4. В оптималь- оптимальной точке х = B, 1)г только одно ограничение-неравенство + ^5 активно. Условие Ф. Джона выполняется, например, при ио = 3, щ = \, v\ = 2.
4.3. ЗАДАЧИ СО СМЕШАННЫМИ ОГРАНИЧЕНИЯМИ 157 Рис. 4.8. Пример 4.3.5. 4.3.5. ПРИМЕР. Минимизировать — х{ при условиях х2 — A — x{f = 0, — л:2 —A — х1K = 0. Как видно из рис. 4.8, эта задача имеет только одну допусти- допустимую точку х = A, 0)г. В этой точке V/ (х) = (-1, Of f Vhx (х) = @, If, Vh2 (x) = @, -If. Условие выполняется только в том случае, если ио = 0 и v\ = V2 = a, где а — произвольное число. Таким образом, в точке х условие Ф. Джона выполняется. Условия Куна — Таккера В условиях Ф. Джона множитель Лагранжа, соответствующий целевой функции, не обязательно положителен. При дополни- дополнительных предположениях о множестве ограничений можно утверждать, что по будет положительным. Доказанная ниже теорема 4.3.6 является развитием необходимых условий опти- оптимальности Куна — Таккера, сформулированных в теореме 4.2.10. Теорема будет получена при дополнительных предположениях от- относительно градиентов функций, определяющих ограничения-ра- ограничения-равенства и активные ограничения. Это гарантирует выполнение
158 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА-ТАККЕРА неравенства «о>О в условиях Ф. Джона. Другие формы требований, предъявляемых к функциям ограничений, обеспечи- обеспечивающие положительность «о, будут обсуждаться в гл. 5. 4.3.6. ТЕОРЕМА (необходимые условия Куна — Таккера). Пусть X — непустое открытое множество в Еп, /: Еп->Е\, gr. Еп->-Еи /=1, ..., т, кг. Еп-+Еи /=1, ..., /. Рассмотрим задачу Р: минимизировать f (x) при условиях gi(x)^Q, /=1, ..., m, ht(x) = 0, /=1, ..., /, Пусть х — некоторая допустимая точка и /= {/: gi(x) = 0}. Предположим, что в точке х функции f и gt при fe/ дифферен- дифференцируемы, gt при 1ф1 непрерывны и ft/, i=l, ..., /, непре- непрерывно дифференцируемы. Кроме того, пусть векторы Vg*(x), /g/, и V/ir(x), i= 1, ..., /, линейно независимы. Если точка х является локальным решением задачи Р, то найдутся такие числа щ при ts/и vu i = U • • •, U что Vf(x)+ ZuiVgi(x)+tviVhi(x) = O> ut>0, /g/. is/ t=l Если в дополнение к сделанным предположениям функции gi при 1ф1 дифференцируемы в точке х, то условия Куна — Таккера могут быть переписаны в следующей эквивалентной форме: + S t\Si () + Yi м*Ых) = 0, /= 1, ..., т, Ui^zO, t= I, ..., т. Доказательство. По теореме 4.3.2 существуют числа но, й/, {'g/, й/, /= 1, ..., /, не все равные нулю и такие, что — _ 1 _ «oVf W + S d,vsr* (x) + S й/VA/ W = О, 'е/ /el D.15) Заметим, что «о > 0, так как в противном случае равенство D.15) противоречит предположению о линейной независимости векторов Vg<-(x), ie/, и Vft/(x), *'== 1, ..., /. Первое утвержде-
4.3. ЗАДАЧИ СО СМЕШАННЫМИ ОГРАНИЧЕНИЯМИ 159 ние получается, если положить щ = —, t>/ = —. Для полу- чения эквивалентной формы достаточно выбрать щ = 0 для Условия Куна — Таккера, сформулированные в теореме 4.3.6, можно переписать в векторной форме u>0. Здесь Vg(x) — матрица порядка nY^m, Vh(x) — матрица по- порядка /гХ/. Столбцами этих матриц являются векторы Vg/(x) и Vhi(x) соответственно. Векторы и и v — множители Лагранжа. Теперь рассмотрим примеры 4.3.3, 4.3.4 и 4.3.5. Легко прове- проверить, что в примере 4.3.3 множители щ = ti2 = Uz = 0 и v\ = = — -g- удовлетворяют условиям Куна — Таккера в точке х== Иг, it) .В примере 4.3.4 множителями, удовлетворяющи- удовлетворяющими условиям Куна — Таккера в точке х = B, 1)г, являются 1 п 2 ttl=-3"'  = «3 = 0, Vl=-$' Наконец, задача из примера 4.3.5 не удовлетворяет условиям теоремы 4.3.6 в точке х = A,0)г, так как векторы VAi(x) и V/i2(x) линейно зависимы. В приведенной ниже теореме 4.3.7 утверждается, что при довольно слабых предположениях о выпуклости функций /, gt и hi условия Куна — Таккера являются также и достаточными для оптимальности. 4.3.7. ТЕОРЕМА (достаточные условия Куна — Таккера). Пусть X — непустое открытое множество в Еп, f: En-+Eu gr. Еп-+Е\, i'=l, ..., m, hr. En-+Eu /=1, ...,/. Рассмотрим задачу Р: минимизировать f (x) при условиях g"/(x)<0, /=1, ..., m, XGl Пусть х — некоторая допустимая точка и / = {/: g;(x)=0}. Предположим, что в точке х выполняются условия Куна — Так-
160 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА-ТАККЕРА кера, т. е. существуют такие числа «/^ 0, ie/, и vif i=l, ... ..., /, что V/ (х) + Е fliVft (x) + ? 0, VA, (х) = 0. D.16) Введем обозначения /_={/: 0/>О}, /(={/: 5/< 0} и пред- предположим, что в точке х функция / псевдовыпукла, функции gt квазивыпуклы при /е/, a hi квазивыпуклы при /е/ и квази- вогнуты при te/C. Тогда точка х является глобальным опти- оптимальным решением задачи Р. Доказательство. Пусть х — произвольное допустимое реше- решение задачи Р. Тогда g/(x)^gt(x) при /е/, так как g/(x)^0 и gi(x) = 0. Из квазивыпуклости gi в точке х следует, что g, [х + А (х — х)] = gi[Xx + A - Я) х] < max {gt (x), gt (x)} = ^Дх) для всех ^е@,1). Отсюда следует, что функции gi не возра- возрастают при движении из х вдоль направления х — х. Тогда по теореме 4.1.2 ^ V?*(x)r(x-x)<0, /<=/. D.17) Аналогично из квазивыпуклости функций hi при / е / и квази- квазивогнутости hi при / е К получаем, что (x)r (х - х) < 0, / s /, D.18) VA, (х)г(х - х)>0, /е К. D.19) Умножая D.17), D.18) и D.19) соответственно на ш > 0, и* > 0 и vi < 0 и складывая результаты, получаем [ Z uis/gi (х) + |eZuiFiVAi (х)]г (х - ?) < 0. D.20) Умножим D.16) на (х — х). Так как vt = 0 при /0/U^C, то из D.20) следует, что V/(x)r(x-x)>0. Тогда f(x) ^/(x) в силу псевдовыпуклости функции / в точ- точке х. ¦ Альтернативные формы условий Куна — Таккера для разных задач Рассмотрим задачу минимизации /(х) при условиях хеХ» g/(x)<0, /=1, ...» m, Л/(х) = О, /=1, ..., /, где X — откры- открытое множество в ?л. В этом параграфе были получены следую-
4.3. ЗАДАЧИ СО СМЕШАННЫМИ ОГРАНИЧЕНИЯМИ 161 щие необходимые условия оптимальности допустимой точки х: _ т _ I _ V/ (х) + S UtVgt (х) + 2 VtVht (x) = О, Uigi(x) = Oy /= 1, ..., m, Ui ^0, /== 1, ..., т. Некоторые авторы предпочитают множители %i = —щ ^ 0, щ =—а*. В этом случае условия Куна — Таккера принимают вид _ т _ 1 V/ (х) — Е ufVfiT* (х) - Z !^V^ (х) = 0, l 1 Я; <0, /= 1, ..., т. Рассмотрим теперь задачу минимизации f(x) при условиях х<=Ху Ых#)<0, /=l,...,mb g? !, , , /гг (х) = 0, i = 1, ... э Z, где Z — открытое множество в Еп. Очевидно, что условия gi(x)^0 при / = mi + l, ..., т мож- можно переписать в виде -^(х)<0, / = mi + l, ..., m, и исполь- использовать теорему 4.3.6. Легко проверить, что необходимыми усло- условиями в этом случае будут х) + Е uffgt (x) + X ?WA* (x) = 0, 1 il Рассмотрим следующую задачу: минимизировать f(x) при условиях g/(x) < 0, f=l, ..., m, А/(х) = 0, 1=1, ..., /, х ^ 0. Такие задачи с требованием неотрицательности переменных ча- часто возникают на практике. Очевидно, что условия Куна — Так- Таккера, обсуждавшиеся ранее, здесь пригодны. Однако иногда бывает удобнее использовать множители Лагранжа, связанные с ограничением х ^ 0. Условия Куна — Таккера приводятся в этом случае к виду V/ (х) + Z utfgtix) + ? vtfht (x) > t=i t-i V/ W + ? "/Vg/ (x) + Z vffhi (x) х = 0, t=i ^=i J ^O, i = 1, ..., m. 6 М. Базара, К- Шетти
162 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА—ТАККЕРА Наконец, рассмотрим задачу максимизации /(х) при усло- условиях gi(x)<0, i=l, ..., ть ^(x)^0, i = m\ + 1, ..., m, A/ (x) = 0, t = 1, ..., /ихе!,где1- открытое множество в Еп. Необходимыми условиями оптимальности для этой задачи будут _ т _ I __ (х) + S uffgi (x) + ? у,уй, (x) = 0, /1 1 = 0, /==1, ..., т, ===== mj + 1, ..., m. 0, Упражнения 4.1. Рассмотрим следующую задачу безусловной минимизации: минимизировать jcf — х{х2 + 2*| — 2х{ + eXl*x\ a) Запишите необходимые условия оптимальности первого порядка. Яв- Являются ли они достаточными? Почему? b) Является ли вектор х = @, 0)г оптимальным решением? Если нет, то найдите направление d, вдоль которого функция убывает. c) Найдите минимум функции, двигаясь из точки @, 0) в направлении d, Вдоль которого функция убывает. 4.2. Рассмотрим задачу минимизации || Ах — b Ц2, где А — матрица поряд- порядка т X п, Ь есть /n-мерный вектор. a) Приведите геометрическую интерпретацию задачи. b) Запишите необходимые условия оптимальности. Являются ли они и достаточными? c) Является ли оптимальное решение единственным? Почему? d) Можете ли вы сформулировать необходимые и достаточные условия оптимальности? Сделайте необходимые, по вашему мнению, предположения. e) Решите задачу при А== 4.3. Рассмотрим задачу минимизации f(x) при условиях gi(\) ^0, / = = 1, ..., m. Пусть х — точка локального минимума и / = р: ^(х)=0). Предположим, что в точке х функция / дифференцируема, функции gi при /s/ дифференцируемы и вогнуты, а функции gt при /Ф I непрерывны. До- Докажите, что Fo П G' = 0, где Fo = {d: V/ (х)Г d < О}, G' = {d: Vgi (х)Г d < 0, / €= /}. 4.4. Рассмотрим следующую задачу: минимизировать Зх\ — х2+ х\ ПрИ УСЛОВИЯХ Х\ + ^2 + #3 < 0» f 4 = 0. 1 0 0 1 -1 2 1 0 0" 1 0 1 , b —  1 1 л
УПРАЖНЕНИЯ 163 a) Запишите условия оптимальности Куна — Таккера. b) Используя эти условия, найдите оптимальное решение. 4.5. Рассмотрим следующую задачу: максимизировать х\ + 4х{х2 + х\ при условии х\ -\- х\= \. a) Используя условие оптимальности Куна — Таккера, найдите опти- оптимальное решение. b) Единственно ли оптимальное решение? 4.6. Рассмотрим следующую задачу линейного программирования: максимизировать 2х\ + 3*2 при условиях Хх + лг2 < 8, хи х2 > 0. a) Запишите условия оптимальности Куна — Таккера. b) Для каждой экстремальной точки проверьте геометрически и аналити- аналитически, выполняются ли условия Куна — Таккера. Используя полученные ре- результаты, найдите оптимальное решение. 4.7. Рассмотрим следующую задачу: (9 \2 Хх~~ Т) при условиях х2 — х\ >0, хи х2 а) Запишите условия оптимальности Куна — Таккера и убедитесь, что - /3 9 у они выполняются в точке х = I — , -j- 1 . __b) Дайте геометрическую интерпретацию условий Куна —Таккера в точ- точке х. __ с) Покажите, что х — единственная точка глобального минимума. 4.8. Рассмотрим следующую задачу: минимизировать х\ + 2х\ при условии х\ + Хч — 1 = 0. Найдите точку, удовлетворяющую условиям Куна — Таккера, и проверьте, что она действительно является оптимальной. Решите задачу минимизации функции х\ + х\ с тем же ограничением *i + Хг — 1 =0. 4.9. Запишите условия оптимальности Куна — Таккера для задач, сфор- сформулированных в упр. 1.10 и 1.11. Используя эти условия, найдите оптималь- оптимальные решения. 4.10. Рассмотрим следующую задачу одномерной минимизации: минимизировать / (х + Ad) при условии Х^О, где х — заданный вектор, d — заданное ненулевое направление. а) Запишите необходимое условие минимума, если функция f дифферен- дифференцируема. Является ли оно достаточным? Если нет, то какие предположения 6*
164 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА-ТАККЕРА о функции f надо сделать, чтобы необходимое условие стало и доста- достаточным? Ь) Предположим, что функция / выпукла, но не дифференцируема. Мож- Можно ли получить необходимые условия оптимальности, используя понятие суб- субградиента функции /, введенное в § 3.2? 4.11. Рассмотрим следующую задачу: минимизировать Х *2 ~*~ 2хх + х2 + 6 при условиях 2#i + х2 < 12, - х 1 + 2*2 < 4, хи х2>0. a) Покажите, что условия оптимальности Куна — Таккера являются до- достаточными для этой задачи. b) Покажите, что любая точка отрезка прямой между точками @, 0) и F, 0) является оптимальной. 4.12. Используйте условия Куна — Таккера для доказательства теоремы Фаркаша, сформулированной в § 2.3. (Указание-, рассмотрите задачу максимизации сгх при условии Ах ^ 0.) 4.13. Рассмотрим задачу минимизации f (х) при условиях gi(x) < 0, i — 1, ..., tn _ a) Покажите, что проверка, является ли х точкой Куна — Таккера, экви- эквивалентна нахождению вектора и, удовлетворяющего системе Aru = с, u ^ 0. Это может быть сделано с помощью первого этапа симплекс-метода для ре- решения задач линейного программирования. b) Укажите необходимые изменения в п. „а", если задача имеет ограни- ограничения-равенства. _ c) Проиллюстрируйте результаты п. „а" на следующей задаче, где х == - A. 2, Б)': минимизировать 2х\ + х\ + %х\ + х±хъ — х±х2 + при условиях лг| + д:| — л:3 *1 + *2+ 2*з < 16, Х\ + х2 4.14. Рассмотрим ^задачу минимизации f(x) при условиях gi(x i = 1, ..., т. Пусть х — некоторая допустимая точка и I = {i: gt-(x) = 0}. Предположим, что в точке х функция f дифференцируема, функции gt при i е / дифференцируемы и выпуклы, а при i ф I непрерывны. Рассмотрим также следующую задачу линейного программирования: минимизировать Vf (x) d при условиях ygi (x) d ^ 0, / е /, — 1 <d/< 1, /= 1, ..., п. Пусть d — оптимальное решение этой задачи и z — оптимальное значение це- целевой функции. a) Покажите, что z ^ 0. b) Покажите^что _если z < 0, то найдется такое б >_0, что при_любом Я е @, б) точка х + Ы будет допустимым решением и f (х + Ы) < {(к).
УПРАЖНЕНИЯ 165 с) Покажите, что если г — 0, то точка х удовлетворяет условиям Куна — Таккера 4.15. Пусть f: Еп-*-Е\ и gr* Еп-*-Ех при i = 1, ..., т — выпуклые функ- функции. Рассмотрим задачу минимизации f(x) при условиях gt(x)^0, i = 1, ... ..., т. Пусть М — собственное подмножество множества {1, ..., т) и х — оп- оптимальное решение задачи минимизации f(x) при условиях gi(x)^ О, igM. Введем обозначение V = {/: g/(x)>0}. Покажите, что если х — оптимальное решение исходной задачи, то gi(x) = 0 для некоторого isK 4.16. Рассмотрим задачу минимизации /(х) при условии, что х ^ 0, где f —^дифференцируемая выпуклая функция. Зафиксируем точку х и обозначим V/(x) через (Vi, ..., Vn)T. Покажите, что х — оптимальное решение тогда и только тогда, когда d = 0, где d определяется по формуле — V*, если Xi > 0 или у* < О, О, если xt = 0 и V/ ^ 0. 4.17. Рассмотрим следующую задачу: п минимизировать V // (#/) • Pi /г при условиях V jc/ == 1, дт/^0, / = 1 .... я. Предположим, что х = (х\, ¦.. * ^«)г ^ 0 — оптимальное решение этой за- дачи. Обозначим через О/ частную производную —т . Покажите, что су* ществует такое число k, что б/^А и (б/ — &)?/ = 0 при / = 1, 2, ...,«. 4.18. Рассмотрим следующую задачу: максимизировать сТ6 при условии drd ^ 1, где с — ненулевой вектор из Еп. — с a) Покажите, что d = -р—jt является точкой Куна — Таккера. Кроме того, покажите, что d — единственное глобальное оптимальное решение. b) Используя результат п. „а", покажите, что направлением наискорей- наискорейшего подъема функции f в точке х, в которой V/(x)=t^ 0, является вектор У/(х) /()ir 4.19. Рассмотрим следующую задачу: п при условиях J] ajxj = b, где а/, Ь и с/ — положительные числа.
166 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА-ТАККЕРА Запишите систему Куна — Таккера и найдите вектор х, удовлетворяющий этой системе. 4.20. В геометрическом программировании иепользуется следующее утвер- утверждение. Если Xi, ..., хп ^ 0, то 1 Докажите это неравенство, используя условия Куна — Таккера. Указание: рассмотрите одну из следующих задач: п минимизировать ^Г п При УСЛОВИЯХ JJ X] = 1, /1 максимизировать \\х! п При УСЛОВИЯХ ][] Xf == 1, /1 4.21. Пусть с есть я-мерный вектор, b есть m-мерный вектор, А —матри- —матрица порядка тХп, Н — симметрическая положительно определенная матрица порядка пХ«. Рассмотрим следующие задачи: A) B) где минимизировать при условии минимизировать при условии GeAH^A7 1 сгх4 Ах<Ь; hrv4 v>0, i = АН"* -1хГНх : + b. Установите связь между условиями Куна — Таккера для задач A) и B). 4.22. Рассмотрим следующую задачу: минимизировать f (x) при условиях Лх = Ь, х>0. Пусть ? = (х^, х]у) — экстремальная точка, где А = [В, N], хв = B-fb > 0, xN = 0, В — невырожденная матрица. Рассмотрим теперь задачу выбора на- направления минимизировать [V^f (x) — VBf (x) B""!N]r d^ при условии 0 ^ dj ^ 1 для всех внебазисных /\
УПРАЖНЕНИЯ 167 Здесь Vaf(x) и Vn{(x) означают градиенты функции^ относительно базисных и внебазисных переменных соответственно. Пусть d — оптимальное решение этой задачи, и пусть ds = —B-^Ndw. Покажите, что если d = (dB> div) ^ Ф (О,0) то d — возможное направление спуска, т. е. при достаточно малых А, > 0 точка х + Ы допустима и /(х~+ Ы)< f(х). Что будет, если*"Н = 0? 4.23. Рассмотрим задачу минимизации f (х) при условии Ах ^ Ь. Пред- Предположим, что х — допустимое решение, для которого Aix = Ьь А2х < Ь2, где дг = (а[, Ag), Ът = (bj, bj). Если считать, что Ai — матрица полного ранга, то матрица Р — проектор любого вектора на линейное многообразие, порожден- порожденное решением системы А4х = 0, — имеет вид Р = I — Af (AjA[) A . a) Пусть d = —PV/(х). Покажите, что если d ф 0, то d — возможное направление спуска. b) Пусть d = 0, ц = —(AjAf)"" A^f (x)>0. Покажите, что тогда точ- точка х является точкой Куна — Таккера. __ c) Покажите^что построенный ранее вектор d совпадает с A,d при неко- некотором Я > 0, где d — решение задачи минимизировать V/ (х)^ d при условиях Aid = 0, Hd||2<l. d) Проделайте все возможные упрощения для случая, когда А = —I и b = 0, т. е. когда в задаче присутствуют только ограничения вида х ^ 0. 4.24. Рассмотрим следующую задачу: минимизировать х\ — ххх2 + %х\ — Ахх — 5х2 при условиях Х\ + 2x2 ^ 6, a) Решите эту задачу геометрически и с помощью условий Куна — Так- Таккера убедитесь, что полученное решение оптимально. _ b) Постройте из оптимальной точки направление d, определенное в упр. 4.23. Проверьте, что d = 0 и и > 0. c) Найдите направление d из точки х = f I, -g-J . Проверьте, что d — воз- возможное направление спуска. Проверьте также, что оптимальное решение d, определенное в п. „с" упр. 4.23, находится в направлении d. 4.25. Установите связи между оптимальными решениями и условиями Куна — Таккера двух следующих задач: задача Р: минимизировать f (к) при условиях g (х) ^ 0, xgI; задача Р': минимизировать / (х) при условиях XTg (х) где k ^ 0 — заданный вектор.
168 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА - ТАККЕРА 4.26. Рассмотрим следующую задачу: минимизировать / (х) при условиях gt (х) < 0, / = 1, ..., т, хе! Пусть ЗГ—локальное оптимальное решение _этой задачи и / = {i: gi(x) = 0}. Предположим, кроме того, что векторы Vg*(x) при is/ и V/i/(x), i = 1, ... ..., /, линейно независимы. Необходимые условия второго порядка для локального оптимума могут быть записаны следующим образом. Существуют векторы и ^ 0 и v, такие, что т I _ Vf (X) + ? Е и при этом матрица L (х) = F (х) + ? и.О. (х) + X ^Н. (х) положительно полуопределена на линейном подпространстве М = {у: VSf/(x)y==O, /g/, vMx)y = 0, /— 1 /}. Здесь F(x), G/(x), H/(x) —матрицы Гессе функций /, gi и Ы в точке х соот- соответственно. a) Проверьте, выполняются ли необходимые условия второго порядка, сформулированные в упр. 4.4. b) ?)ти условия не должны быть достаточными для локального минимума. Однако если L(x) положительно определена на М' == {у: Wi (х) у = 0, если иь > 0, yhi(x) у = 0 при / = 1, ..., /}, то х — точка локального минимума. Выполняются ли эти достаточные усло- условия в оптимальной точке, полученной в п. „а"? 4.27. Рассмотрим следующую задачу: минимизировать с^х + -^^Нх при условии Ах < Ь, где с — вектор из ?„, b — вектор из Emt A — матрица порядка mX/i, H — симметрическая матрица порядка п\ п. a) Выпишите необходимые условия второго порядка из упр. 4.26. Сде- Сделайте все возможные упрощения. b) Обязательно ли каждый локальный минимум рассматриваемой задачи является глобальным? Докажите или приведите контрпример. c) Приведите необходимые условия первого и второго порядков, когда с = 0 и Н = I. В этом случае задача сводится к нахождению точки из многогранного множества, ближайшей к началу координат. 4.28. Рассмотрим' следующую задачу: минимизировать — Х\ + х2 при условиях х\ + х\ — 2х{ = О,
УПРАЖНЕНИЯ 169 где X — совокупность выпуклых комбинаций точек (—1, 0), @, 1), A, 0) и (-0,1). a) Найдите графически оптимальное решение. b) Выполняются ли условия Ф. Джона или Куна — Таккера в получен- полученной в п. „а" оптимальной точке? Если нет, то объясните этот факт в терми- терминах теорем 4.3.2 и 4.3.6. c) Опишите множество X с помощью подходящей системы неравенств и ответьте на вопрос, поставленный в п. „Ь". Какие можно сделать выводы? 4.29. Рассмотрим задачу минимизации }(х) при условиях gt(x) ^ 0, i= 1, ..., ту /i,(x) = 0, i = 1, LL., /. Пусть х — локальное оптимальное ре- решение этой задачи и / = {i: ?/(х)=0}. Предположим, _что функции gt при i е / дифференцируемы, а при i ф I непрерывны в точке х. Пусть hi, ..., hi — аффинные функции, т. е. ht (x) = aix — bt. а) Покажите, что Fo Г) С? П Яо = 0, где /70 = {d: jfhi (x)rd = 0 при /=1, ..., /}, G = {d: V?* (х)Г d < 0 при i e / и ygt (x)T d< 0 при / s / — /}, /={/ s /: gi — псевдовогнутая функция в точке х}. b) Можно ли это условие проверить с помощью линейного программиро- программирования? Если можно, то проделайте это. 4.30. Пусть X — непустое открытое множество в Еп, f: Еп-ь-Ei, gi: En-^Ei при i=l, ..., m, hr. Еп-ь-Ei rtpn i= 1, ..., /. Рассмотрим задачу Р; минимизировать / (x) при условиях gt (x) ^0, /= 1, ..., m, Mx)-0, '-1. -.-.t Пусть x —некоторое допустимое решение и / = {*: ^(х)== 0}. Предположим, что в точке х выполняются условия Куна — Таккера, т. е. существуют такие числа щ ^ 0 при is/ и vi при / = 1, ..., /, что V/ (х) + ^ iiiVgi (х) + У] ViVht (x) == 0. а) Предположим, что функция / псевдовыпукла в точке х, а функция «свазивыпукла в этой_ точке. Покажите, что х — точка глобального оптимума задачи Р. Ь) Покажите; что если функция f + J] uiei + ^ ^i^f псевдовыпукла, го х — точка глобального оптимума задачи Р. с) Покажите на примерах, что предположения, связанные с выпуклостью, сделанные в п. „а", „Ь" и в теореме 4.3.7, не эквивалентны друг другу. 4.31. Рассмотрим задачу билинейного программирования, состоящую в минимизации сгх + dry + хгНу при условиях xeZ, уеУ, где X и Y — огра-
170 ГЛ. 4. УСЛОВИЯ ОПТИМАЛЬНОСТИ Ф. ДЖОНА И КУНА - ТАККЕРА ничейные многогранные множества в Еп и Ет соответственно. Пусть х и у — экстремальные точки соответствующих множеств. a) Проверьте, что целевая функция не является ни квазивыпуклой, ни квазивогнутой. b) Докажите, что существует экстремальная точка (х, у), являющаяся оптимальным решением дадачи билинейного программирования. c) Докажите, что (х, у) является точкой локального минимума в задаче билийейного программирования тогда и только тогда, когда выполняются следующие соотношения: ^ (i) сг(х-х)>0и dr(y — у) > О для каждых х е= X и у^е У; (И) сг(х —х)+аг(у-^у)>0 всякий раз, когда (х —х)гН(у — у)< 0. d) Покажите, что (х, у)^является точкой Куна — Таккера тогда и только тогда, когда (ст + угН) (х — х) ^0 для каждого xsXh (<F + xrH) (у — у) ^ ^ 0 д,ля каждого ysK e) Рассмотрим задачу минимизации Хг + #i + *2#i — *i*/2 + ХгУг при условиях (JCi, ^)el и (yu У?) е У, где X — многогранное множество, зада- задаваемое экстремальными точками @, 0), @, 1), A, 4), B, 4) и C, 0), а У — многогранное множество, задаваемое экстремальными точками @, 0), @, 1), A, 5), C, 5), D, 4) и C, 0). Проверьте, что точка (хи *2, у и Уг) = = @, 0, 0, 0) является точкой Куна — Таккера, но не является точкой ло- локального минимума. Покажите, что (*i, х2, у и У г) = C, 0, 1,5) является точкой Куна — Таккера и точкой локального минимума. Какая точка является глобальным оптимальным решением задачи? Комментарии В настоящей главе рассмотрены условия оптимальности первого и вто- второго порядков для задач безусловной оптимизации. Эти классические резуль- результаты содержатся в большинстве учебников по анализу функций действитель- действительного переменного. Детальное изложение этих вопросов, а также применения классической функции Лагранжа в оптимизационных задачах с ограниче- ограничениями-равенствами имеются, например, в работах Bartle [1976], Rudin [1964]. В § 4.2 исследована задача минимизации функции на множестве, зада- задаваемом ограничениями-неравенствами, и для нее получены необходимые усло- условия оптимальности Ф. Джона (F. John [1948]). Более слабая форма этих условий, в которой не утверждается неотрицательность множителей Лагран- Лагранжа, была получена в работе Karush [1939]. При подходящих свойствах функций, задающих ограничения задачи, множитель Лагранжа, соответствую- соответствующий целевой функции, положителен и условия Ф. Джона переходят в полу- полученные независимо (Kuhn and Tucker [1951]) условия Куна — Таккера. Не- Несмотря на то что условия Куна — Таккера были первоначально выведены Карушем (Karush [1939]) с использованием вариационного исчисления, они не привлекли внимания, так как работа Каруша не была опубликована. Все- Всеобъемлющий исторический обзор условий оптимальности для задач нелиней- нелинейного программирования сделан в работе Kuhn [1976]. Для дальнейшего изу- изучения условий Ф. Джона и Куна — Таккера можно порекомендовать следую- следующие работы: Abadie [1967b], Avriel [1967], Canon, Cullum and Polak [1966], Gould and Tolle [1972], Luenberger [1973], Mangasarian [1969a], Zangwill Мангасарян и Фромовиц (Mangasarian and Fromovitz [1967]) обобщили условия Ф. Джона на случай, когда имеются ограничения как в виде ра- равенств, так и в виде неравенств. Их подход использует теорему о неявной функции. В § 4.3 условия Ф. Джона получены для задач с ограничениями в виде равенств и неравенств при помощи построения некоторой допустимой способом, предложенным в работе Fiacco and McCormick [1968].
КОММЕНТАРИИ 171 В § 4.4 показано, что условия Куна — Таккера являются достаточными условиями оптимальности при соответствующих предположениях о выпукло- выпуклости определяющих задачу функций. Этот результат был доказан Куном и Таккером [1951] для случая, когда функции /, g{ при *е/ выпуклы, функ- функции Ы при всех i аффинные, а множество X выпуклое. Позднее эти предпо- предположения были ослаблены, как показано в § 4.4 (см. Mangasarian [1969a]). Следует также упомянуть работу Bhatt and Misra [1975], в которой ослаб- ослаблено предположение об аффинности Ы при условии, что соответствующие им множители Лагранжа имеют нужный знак. Другие обобщения условий Ф. Джона и Куна — Таккера были установ- установлены многими авторами. Одним из таких результатов явился отказ от тре- требования, что множество X открыто. В этом случае получены условия опти- оптимальности типа принципа максимума. Этот вид условий подробно описан в книгах Bazaraa and Goode [1972], Canon, Cullum and Polak [1970] и Man- Mangasarian [1969a]. Другим направлением исследования является исследование задач в бесконечномерной постановке. Интересующимся этой проблемой мож- можно рекомендовать работы Canon, Cullum and Polak [1970], Дубовицкого и Милютина [1965], Guignard [1969], Halkin and Neustadt [1966], Hestenes [1966], Neustadt [1968], Varaiya [1967]. Следует также упомянуть некоторых авторов, получивших условия оптимальности второго порядка для задач с ограничениями. Для глубокого изучения этой темы см., например, Avriel [1976], Fiacco [1968], Luenberger [1973], McCormick [1967], Messerli and Polak [1969].
Условия регулярности В гл. 4 рассматривалась задача Р минимизации f(x) при усло- условиях хе! и ?/(х)<0, /= 1, ..., т. При определенных пред- предположениях относительно определяющих задачу функций из условий Ф. Джона были получены необходимые условия опти- оптимальности Куна — Таккера. В настоящей главе условия Куна — Таккера будут получены безотносительно к условиям Ф. Джона. При этом будут сформулированы различные формы условия регулярности для задач с ограничениями-неравенствами и со смешанными ограничениями. План главы § 5.1. Конус касательных. Вводится конус касательных Т и показывается, что в точке локального оптимума F0(]T = 0. При выполнении условия регулярности непосредственно для задачи с ограничениями-неравенствами выводятся условия оп- оптимальности Куна — Таккера. § 5.2. Другие условия регулярности. Вводятся другие ко- конусы, содержащиеся в конусе касательных. С помощью этих конусов получены различные формулировки условий регулярно- регулярности, которые обеспечивают выполнение условий оптимальности Куна — Таккера. § 5.3. Задачи с ограничениями в виде равенств и неравенств. Результаты из § 5.2 переносятся на задачи со смешанными огра- ограничениями. 5Л. Конус касательных В § 4.2 изучались необходимые условия оптимальности Куна — Таккера для задач с ограничениями-неравенствами. В частно- частности, было показано, что в точке локального оптимума Fo(]Gq = = 0, что в свою очередь ведет к выполнению условий опти- оптимальности Ф. Джона. При дополнительном предположении о линейной независимости градиентов функций, определяющих активные ограничения, были получены условия оптимальности Куна — Таккера. Этот процесс изображен на первой из приве-
6.1. КОНУС КАСАТЕЛЬНЫХ 173 денных здесь схем. В настоящем параграфе условия Куна — Таккера выводятся непосредственно без предварительного уста- установления справедливости условий Ф. Джона. Как будет пока- показано в теореме 5.1.2, необходимым условием локального опти- оптимума служит соотношение Fo f] Г = 0, где Т — определенный ниже конус касательных. Условие регулярности Т = G', где множество G' определено в теореме 5.1.3, гарантирует, что /7of|G/ = 0. Из этого утверждения, используя теорему Фарка- ша, получаем условия оптимальности Куна — Таккера. Этот процесс изображен на второй схеме. Локальная оптимальность Теорема 4.2.2 Теорема Условия Куна-Таккера Условие регулярности Условия Ф.Джона Локальная оптимальность Теорема 5.1.2 П Т=0 Условие регулярности Условия Куна-Таккера Теорема Фаркаша Fo (У д' = 5.1.1. ОПРЕДЕЛЕНИЕ. Пусть S —непустое множество в Еп, х е cl S. Конусом касательных к 5 в точке х, обозначаемым через Г, называется множество всех направлений d, для кото- которых d = lim Kk {*k -~ x)> гДе ^>0,xftES при любом k, и Из этого определения ясно, что d принадлежит конусу каса- касательных, если существует такая допустимая последовательность {х^}, стремящаяся к х, что направления (х* — х) сходятся к d. В упр. 5.4 предлагается показать, что конус касательных дей- действительно является замкнутым конусом. На рис. 5.1 изобра- изображены конусы касательных (для удобства начало координат пе- перенесено в точку х). Сформулированная ниже теорема 5.1.2 утверждает, что для задачи минимизации /(х) при xeS условие Fo[)T = 0 яв- является необходимым условием оптимальности. В дальнейшем будет рассматриваться множество 5 вида {xel: ?<(x)^0, '==1 го}.
174 1*Л. 5. УСЛОВИЯ РЕГУЛЯРНОСТИ Рис. 5.1. Конусы касательных. _ 5.1.2. ТЕОРЕМА. Пусть S — непустое множество в Еп и xgS. Предположим, что функция f: En-*E\ дифференцируема в точке х. Если х — локальное решение задачи минимизации f(x) при xeS, to Fo()T = 0, где FO= {d: V/(x)rd<0}, 71 — конус касательных к множеству S в точке х. Доказательство. Пусть dsT, т. е. d = lim %k (xk — x), Kk > 0, xftsS при любом ky x*->x. Из дифференцируемости функ- функции f в точке х получаем /(хЛ) - f (х) = Vflxpfa - х) +1| хЛ - х ||а (х; х, - х), E.1) где а (х; xk — х) -> 0 при_ хй -> х. Так как х — точка локального оптимума, то f {xk)^f(х)^_при достаточно больших k. Тогда из E.1) получаем, что yf(x)T{xk — х) + ||хЛ — х||а(х; xk — x)>0. Умножая последнее неравенство на Xk > 0 и переходя к пре- пределу при &->оо, приходим к неравенству v/(x)rd^0. Таким образом, показано, что если dE Г, то V/(xOd ^ 0. Следователь- Следовательно, FQ[\T = 0. Ш Условия регулярности Абади Ниже определено множество G' и получены условия оптималь- оптимальности Куна — Таккера в предположении, что T=G'y называе- называемом условием регулярности Абади. 5.1.3. ТЕОРЕМА (необходимые условия Куна — Таккера). Пусть X — непустое множество в ЕПу f: En-+Eu gr. En-+Eu /=1, ..., т. Рассмотрим задачу минимизации /(х) при уело-
5.1. КОНУС КАСАТЕЛЬНЫХ 175 виях xgX, g/(x)<0, i= 1, ^_.., m. Пусть х-некоторое допу- допустимое решение и /= {/: g7(x) = 0}. Предположим, что функ- функции / и gt при / е / дифференцируемы в точке х. Предположим также, что выполняется условие регулярности Т= 6', где Т—• конус касательных к допустимой области в точке х, a G' = = {d: Vg/(x)rds^0 при iel]. Если х — локальное оптималь- оптимальное решение, то существуют такие неотрицательные ^исла щ при i e /, что V/(x)+Z^v^(x) = 0. je=/ Доказательство, По теореме 5.1.2 имеем /7ОП71 = 0» где Fo = {d: V/(x)rd < 0}. Так как по предположению Т= G', то Fof\Gf = 0. Другими словами, система V/(i)rd<0, неразрешима. Тогда из теоремы 2.3.5 (теорема Фаркаша) сле- следует существование чисел щ9 i e /, для которых Z Можно проверить, что в примере 4.2.8 условие регулярности Т = G' не выполняется в точке х = A,0)г. Условие регулярно- регулярности Абади Т = G' можно переформулировать в эквивалентном виде: Tid G' (включение Т czG' всегда имеет место (см. упр. 5.13)). Заметим, что в теореме 5.1.3 в неявной форме пред- предполагалось, что множество X открыто, а функции gt при гф1 непрерывны в точке х. Без этих предположений условие регу- регулярности TidG' может не выполняться (см. упр. 5.11), Задачи с линейными ограничениями В лемме 5.1.4 будет показано, что если ограничения линейны, то условия регулярности Абади выполняются автоматически. Отсюда также следует, что условия Куна — Таккера являются необходимыми для оптимальности в задаче с линейными огра« ничениями независимо от того, является целевая функция ли- линейной или нет. 5.1.4. ЛЕММА. Пусть А — матрица порядка mX^ b есть m-мерный вектор и 5= {х: Ах^Ь}. Предположим, что точка х е S такова, что Aix = bi, A2x < b2, где Аг = (А[, АО» Ьг = ~()*Ti>bl). Тогда Т= G', где Т — конус касательных к S в точке х и G/={d: Aid<0}.
176 ГЛ. 5. УСЛОВИЯ РЕГУЛЯРНОСТИ Доказательство. Если А\ не содержит ни одного столбца, то G' = Еп. Более того, в этом случае х е int S и, следовательно, Т = Ея, т. е. Т = G'. Пусть теперь А{ содержит хотя бы один столбец, и пусть dGr,T.e,d= lim Xk {xk — x), где x^gSh^>0 для каждого k. Тогда Ai (xk - x)< bi - b{ = 0. E.2) Умножая E.2) на ^ > 0 и переходя к пределу при &->оо, по- получим, что Aid ^ 0. Следовательно, deG', т. е. TczG'. Об- Обратно, пусть d e G', т. е. Aid ^ 0. Требуется показать, что d еГ. Так как А2х < Ьг, то существует б > 0, такое, что Аг(х + A,d) < < b2 при всех ^g@,6). Кроме того, поскольку Aix = bi и Aid ^ 0, то Ai(x + ^d)^bi при всех Я > 0. Поэтому х + Ме gS для любого Jie@, б). Отсюда автоматически следует, что der, Таким образом, Т = G'. Ш 5.2, Другие условия регулярности Условия оптимальности Куна — Таккера были получены мно- многими авторами при различных предположениях о регулярности. В этом параграфе представлены наиболее важные из них. В § 5.1 установлено, что в точке локального оптимума Fo(]T — = 0 и что при условии регулярности Т = G' выполняются усло- условия оптимальности Куна — Таккера. Если определить некото- некоторый конус С cz Г, то из Fq f] T = 0 следует, что F0(]C = 0. Поэтому любое предположение типа С= G' ведет к выполнению условий Куна — Таккера. Этот процесс изображен на следую- следующей схеме: Локальная оптимальность Теорема 5.1.2 \f Fo П Г=0 ^регулярности С = G
5.2. ДРУГИЕ УСЛОВИЯ РЕГУЛЯРНОСТИ 177 Ниже будут представлены различные виды таких конусов, замыкание которых содержится в Т. Здесь допустимая область S задается в виде Вектор х — допустимая точка, / = {г. gi(x) = 0}. Конус возможных направлений в точке х Этот конус был введен ранее в определении 4.2.1. Конус возможных направлений, обозначаемый через D, — это множе- множество всех таких ненулевых векторов d, что х + Ы е S при К е е @, б) для некоторого б > 0. Конус достижимых направлений в точке х Ненулевой вектор d принадлежит конусу достижимых на- направлений, обозначаемому через Л, если существуют 8>0 и а: Ei-^Еп, такие, что a(A,)<=S при Яе@, б), a@) = x, и lim [а (Я) — a@)]/X = d. Другими словами, d принадлежит ко- нусу достижимых направлений, если существует дуга, исходя- исходящая из х, к которой вектор d является касательным в точке х. Конус внутренних направлений в точке х Этот конус, обозначаемый через Go={d: Vg/(x)rd<0, /е/}, введен в § 4.2. Заметим, что если X — открытое мно- множество и функции gi непрерывны в точке х при гф.1, то из того, что d e Go, следует, что х + %d принадлежит внутренности допу- допустимой области при достаточно малых X > 0. В лемме 5.2.1 будет показано, что все упомянутые выше ко- конусы и их замыкания содержатся в множестве Т. 5.2.1. ЛЕММА. Пусть X — непустое множество в Еп> f: En-* -+Еи gi'- Еп-+Е\ при /=1, ..., т. Рассмотрим задачу мини- минимизации f(x) при условиях g/(x)<;0, i=l, ..., m, xg! Пусть х —допустимая точка и /= {i: g/(x) = 0}. Предположим, что функции gi при i е / дифференцируемы в х. Введем обозна- обозначение G' = {d: Vgt (х) Ч < 0, / е /}. Тогда cl D с cl А с Т с G\ где D, Л, Т — соответственно конусы возможных направлений, достижимых направлений и касательных к допустимой области в точке х.
178 ГЛ. 5. УСЛОВИЯ РЕГУЛЯРНОСТИ Если, кроме того, X — открытое множество и функции gi при i ф I непрерывны в х, то Go cz D и, следовательно, cl Go с: cz cl D с: cl A cz T cz G', где Go — конус внутренних направлений в точке х. Доказательство. Легко проверить, что D cz A cz T cz G', и так как множество Т замкнуто (см. упр. 5.4), то cl D cz cl A cz T cz G'. Далее, при доказательстве теоремы 4.2.3 показано, что GoczZ), откуда следует второе утверждение. В Приведем теперь некоторые условия регулярности, обеспечи- обеспечивающие выполнение условий оптимальности Куна — Таккера. Условие регулярности Слейтера ^Множество X открытое, функции gi при / е / псевдовыпуклы в х, а при / ф I непрерывны в этой точке, и существует такая точка хбХ, что gi(х) < 0 при ie /. Условие линейной независимости Множество X открытое, функции gi при 1ф1 непрерывны в точке х, и векторы Vgt(x) при /е/ линейно независимы. Условие регулярности Коттла Множество X открытое, функции gi при 1ф1 непрерывны в точке х, и cl Go = G'. Условие регулярности Зангвилла clD = G/. Условие регулярности Куна—Таккера Условия Куна — Таккера В теореме 5.1.3 установлено, что необходимые условия опти- оптимальности Куна — Таккера удовлетворяются при выполнении условия регулярности Абади Т = G'. Ниже будет показано, что все введенные условия регулярности влекут выполнение условия Абади и, следовательно, обесцечивают справедливость необхо- необходимых условий Куна — Таккера. Из леммы 5.2.1 вытекает, что выполнение условий регулярности Коттла влечет за собой вы- выполнение условий Зангвилла, что в свою очередь влечет за
5.2. ДРУГИЕ УСЛОВИЯ РЕГУЛЯРНОСТИ 179 Условие независимости Условие Слейтера V \ Условие Коттла \ г Условие Зангвилла \ Условие регулярности Куна-Танкера k Условие Абзд?м Рис. 5.2 Связь различных условий регулярности для задачи с ограничения- ограничениями-неравенствами. собой выполнение условий регулярности Куна — Таккера. По- Покажем, что первые два условия регулярности обеспечивают вы- выполнение условий Коттла. Сначала предположим, что справедливо условие регулярно- регулярности Слейтера, т. е. существует такой xgI, что g;(x)<0, /_e/. Так как gt(x)< 0, gi(x) = 0 и функция gt псевдовыпукла в х, то Vgi(x)T(x — х)<0. Следовательно, вектор d = x — х принадле- принадлежит Go, т. е. Go Ф 0- Легко проверить, что cl Go = G', т. е. условие Коттла выполняется. Теперь предположим, что имеет место условие линейной не- независимости, т. е. уравнение 2 ^/VS"/ (х) = 0 не имеет ненулевых решений. Из теоремы 2.3.9 следует, что существует такой век- вектор d, что V^(x)rd<0 при /е/. Следовательно, йоФ0 и условие Коттла выполняется. Связь между этими условиями регулярности показана на рис. 5.2.
180 гл. б. условия регулярности 5.3. Задачи с ограничениями и виде равенств и неравенств В этом параграфе изучаются задачи со смешанными ограниче- ограничениями. А именно, рассматривается следующая задача: f(x) минимизировать при условиях т, XGl Из теоремы 5.1.2 следует, что требование Fo(]T = 0 яв- является необходимым условием оптимальности. При введении условия регулярности Т = G'(]Н0, где Яо = {d: Vft,(x)rd = 0 при /=1, ..., /}, оказывается, что Fofl Gf(]H0 = 0. Отсюда, как будет показано в теореме 5.3.1, можно, используя теорему Фаркаша, получить условия оптимальности Куна — Таккера. Описанный процесс изображен на следующей схеме: Локальная оптимальность Теорема FQ П Т=0 5.1.2 Условие регулярности G' П Яо Условия Fo О Куна-Таккера а' Теорема 5.3. J П# - о 0 5.3.1. ТЕОРЕМА (условия Куна —Таккера). Пусть f: ?„-* -*Е\, gi\ Еп-*Е\ при i = 1, ..., т, Ы: Еп-+Е\ при / = 1, ..., / и X — непустое множество в Еп. Рассмотрим следующую задачу: минимизировать / (х) при условиях g/(x)^0, /=1, ..., m, XGl ' Пусть х — локальное оптимальное решение этой задачи и /= {i: g;(x) = 0}. Предположим, что функции /\ gi при i^I и hi при i==l, ..., I дифференцируемы в точке х. Пусть, кроме того, выполняется условие регулярности Т = G* П#о> где Г — конус касательных к допустимой области в точке х,
5.3. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ В ВИДЕ РАВЕНСТВ И НЕРАВЕНСТВ 181 Тогда х является точкой Куна — Таккера, т. е. существуют та- такие числа щ ^ 0 для i'e/ и vi для / = 1, ..., /, что Vf W + Z «iVft (х) + S vtsht (x) = 0. ts/ t=l Доказательство. Так как х — локальное решение задачи, то ро[)Т = 0 в силу теоремы 5.1.2. Используя условие регуляр- регулярности, получаем, что Fo(]G/ (]Но = 0, т. е. система Ad ^ 0, crd > 0, где с = —Vf(x), A — матрица, строками которой яв- являются векторы Vgi(x)T при /е/, VA,(x)r и —VA/(x)r, нераз- неразрешима. Тогда по теореме 2.3.5 система Агу = с, у ^ 0, имеет решение, т. е. существуют неотрицательные числа щ при / е /, а/ и Р/ при / = 1, ..., /, такие, что V/ (х) + Е и,*?, (х) + S «/vAi W - I PiV*, (x) - 0. i/ il il Е ,?, () S /vi W I is/ i=l i=l Полагая vt = at — p,- для всех /, получаем утверждение тео- теоремы. Р ' Приведем теперь различные условия регулярности, обеспе- обеспечивающие выполнение условий оптимальности Куна—Таккера. Эти условия используют разные введенные ранее в этой главе конусы. Заметим, что условие регулярности Зангвилла здесь от- отсутствует, так как конус возможных направлений обычно совпа- совпадает с нулевым вектором при наличии нелинейных ограниче- ограничений-равенств. Условие регулярности Слейтера Множество X открытое, функции gi при i e / псевдовыпуклы в х, а при хф1 непрерывны в х, функции hi при /= 1, ..., / квазивыпуклы, квазивогнуты и непрерывно дифференцируемы в точке х, и векторы V/i;(x) при i = 1, ..., / линейно независимы. Кроме того, существует точка xgI, такая, что gi(x)<iO при ie/и Ы(х) = 0 при /=1, ..., /. Условие линейной независимости Множество X открытое, функции gi при / е / непрерывны в точке х, векторы Vg«(x) при /s/ и VA/(x) при /= 1, ..., /ли- /линейно независимы, функции hi при / = 1, ..., I непрерывно диф- дифференцируемы в х.
182 ГЛ. 5. УСЛОВИЯ РЕГУЛЯРНОСТИ Условие регулярности Коттла Множество X открытое, функции gi при 1ф1 непрерывны в точке х, функции hi при /= 1, ..., / непрерывно дифференци- дифференцируемы в х, векторы Vhi(x) при i= 1, ..., / линейно незави- независимы. Кроме того, cl (Go П #о) = G' П #о. Условие регулярности Куна — Таккера Условие регулярности Абади T=Gf(]H0. Условия оптимальности Куна — Таккера Теорема 5.3.1 утверждает, что условия оптимальности Куна — Таккера имеют место, если выполняется условие регулярности Абади: Т = Gf(]H0. Ниже показывается, что все перечисленные условия регулярности ббеспечивают выполнение условий Абади и, следовательно, выполнение необходимых условий оптималь- оптимальности Куна—Таккера. Так же, как это было сделано при доказательстве леммы 5.2.1, легко установить, что cl A cz Та G' (]Н0. Предположим те- теперь, что X— открытое множество, функции gt при гф1 непре- непрерывны в х, функции hi при_*" = 1, ..., / непрерывно дифферен- дифференцируемы и векторы Уй/(х) при /=1, ..., / линейно неза- независимы. Из доказательства теоремы 4.3.1 вытекает, что Go(]HoczA. Тогда cl (Go П #о) с: cl А а Т cz G' П #0 и выполнение условий ре- регулярности Коттла влечет выполнение соответствующих условий Куна и Таккера, что в свою очередь приводит к выполнению условия регулярности Абади. Покажем теперь, что условия Слейтера и линейной независи- независимости ведут к выполнению условия Коттла. Пусть удовлетво- удовлетворяется условие Слейтера, т. е. g/(x)<0 при /g/ и /z/(x)=O при 1=1, ..., / для некоторого^хеX. В силу псевдовыпукло- псевдовыпуклости функций gi в точке х имеют место неравенства Vg/(x)r(x — x)<0 при /<=/. Поскольку Ы (х) = Ы (х) = 0, из квазивыпуклости и квази- квазивогнутости функций hi в точке х следует равенство VA/(x)rX X(х — х) = 0. Положим d = х — х. Тогда deGod#0, т- е- Go П #о^0. Легко убедиться, что cl{GQ{]H0)= Gf (]Н0, т. е. условие регулярности Коттла выполняется.
УПРАЖНЕНИЯ 183 Условие независимости Условие Слейтера Л, у Условие Коттла \ Условие Куна-Таккера Условие Абади Рис. 5.3. Связь различных условий регулярности для задачи со смешанными ограничениями. Наконец, покажем, что из условия линейной независимости следует условие Коттла. Предположим от противного, что Go П Но = 0. Тогда, используя так же, как при доказательстве теоремы 4.3.2, теорему об отделимости, получаем, что сущест- существует ненулевой вектор (ii/, v), такой, что X uflgi (x) + + 2 Vt\/hi(x) = 0. Здесь U/^0— вектор с компонентами щ. Это противоречит линейной независимости соответствующих век- векторов. На рис. 5.3 изображены связи между различными условиями регулярности. Как уже говорилось раньше, все эти условия в силу теоремы 5.3.1 обеспечивают выполнение необходимых усло- условий оптимальности Куна — Таккера. Упражнения __ 5.1. Найдите конусы касательных к следующим множествам в точке х= @,0)': a) S = {(*!, х2): х2 > — *?}, b) S = {(xi, x2): X\ •— целое, дг2==0}, c) S = {(*!, х2): Х\ — рациональное, = 0}.
184 ГЛ. 5. УСЛОВИЯ РЕГУЛЯРНОСТИ 5.2. Пусть 5 — множество из ?„ и х е int 5. Покажите, что конус каса- касательных к 5 в точке х совпадает с Еп. 5.3. Докажите, что эквивалентным определением конуса касательных к множеству S в точке х является следующее: Т = {d: xk = х~+ Kkd + Xka (Я^) е= S для всех ?}, где Xk > 0 сходятся к 0 и отображение a: Ei-*En таково, что а(Я)->0 при 5.4. Докажите, что конус касательных замкнут. Указание: сначала покажите, что Г= (] c\K(Sf\N, х), где K(S()N, х) = {Х(х — х): xsSfliV, X > 0}, Jf — множество всех открытых окрестно- окрестностей точки х. 5.5. Пусть А — матрица порядка пгУ( п. Рассмотрим конусы Go = {d: Ad < 0} и G' = {d: Ad < 0}. Докажите, что a) Go — открытый выпуклый конус, b) G' — замкнутый выпуклый конус, c) Go = intG', d) Если Go ф 0, то cl Go = G'. 5.6. Рассмотрим задачу_минимизации f(x) при условиях х_^Х и gi(x)^0 при i = 1, ..., m. Пусть х — допустимая точка и / = {i: gt(x) = 0}. Предпо- Предположим^ что X — открытое множество, а функции gi при ij? / непрерывны в точке х. Пусть / = {i g /: gi — псевдовыпуклые в точке х функции}. Пред- Предположим, что множество {d: V^Wrd<0 при /e/, V^(xfd<0 при / €= / - /} непусто. Покажите, что сделанных предположений достаточно, чтобы _гаран- тировать выполнение условий оптимальности Куна — Таккера в точке х. (Эти предположения являются условием регулярности Эрроу — Гурви- ца —Узавы.) 5.7. Рассмотрим задачу минимизации f(x) при условиях ^(х)^0, i= 1, ..., пг. _Пусть х — допустимая точка и / = [i: g*(x)=0}. Предполо- Предположим, что (г, d) — оптимальное решение следующей задачи линейного про- программирования: минимизировать z при условиях v/ (X)T d — z a) Покажите, что если z = 0, то выполняются условия оптимальности Ф. Джона. b) Покажите, что если г = 0, то условия оптимальности Куна — Таккера выполняются при условиях регулярности Слейтера или Коттла. __ 5.8. Для каждого из приведенных ниже множеств найдите в точке х =@, 0)г конус возможных направлений и конус достижимых направлений: a) S = {(*,. х2): - 1 < хх < 1, х2 > * b) S = {(x{tx2): x2>x§; '/' х2
УПРАЖНЕНИЯ 185 c) S = {(*!, х2): *2 = - х]}; d) S = 5AU S2, где Sx = {(x{t x2): x{ > 0, x2 > x\}9 S2 = {(xu x2): xi < 0, - 2xx < 3*2 < - jcj. 5.9. Пусть /: En^Ei— дифференцируемая в_точке х функция, V/(x)t?i 0 и 5 = {x: /(x)^/(x)}. Покажите, что в точке х конус достижимых направ- направлений и конус касательных к 5 совпадают и равны {d: V/(x)rd ^ 0}. Спра- Справедлив ли этот результат, если V/(x)=0? Приведите обоснование ответа (докажите или приведите контрпример). 5.10. Рассмотрим задачу: минимизировать — х\ при условиях х\ + х\ ^ 1, a) Покажите, что условия регулярности Куна — Таккера выполняются в точке х = A, 0)г. __ b) Покажите, что х=A, 0)г — точка Куна— Таккера и точка глобаль- глобального оптимума. 5.11. Рассмотрим задачу минимизации функции 5* — х2 при gi{x)=* = х < 0. a) Проверьте графически, что х = 0 — оптимальное решение. b) Покажите, что в точке х = 0 выполняются все условия регулярности, введенные в § 5.2. c) Проверьте, что необходимые условия оптимальности Куна — Таккера выполняются в х = 0. Добавим к исходной задаче дополнительное ограничение g2(x)^0, где ( _ 1 __ х, если х !> 0, Л(Ж)"{ 1-*, если х<0. Заметим, что х = 0 остается оптимальным решением и что функция &г раз- разрывна, а ограничение g2(x)^0 не является активным в х. Проверьте, вы- выполняются ли условия регулярности, введенные в § 5.2, и условия оптималь- оптимальности Куна — Таккера в точке х = 0. (Это упражнение иллюстрирует необходимость предположения о непре- непрерывности функций, задающих неактивные ограничения.) 5.12. Рассмотрим допустимую область 5 = {xgI: ?i(x)^0}, где g{ (х) »в х\ + х\ — 1, а X — совокупность всех выпуклых комбинаций точек (-1, ОO", @, 1)г, A, О)', @, -1)г. a) Найдите конус Т касательных к множеству S в точке х= A, 0)г. b) Проверьте, принадлежит ли множество G' конусу Г, где G' = = {d: V?i(xTd<0}. c) Запишите множество X с помощью четырех ограничений-неравенств. Выполните задания пп. а) и Ь), полагая, что G' =Jd: Vgi(x)Td ^ 0, / е/} и / — новое множество индексов активных в точке х = A, 0)г ограничений. 5.13. Пусть S = {xeE#:g*(x)<0, /==1, .. .,m}, точка xs5 и /={/: gi (i)=0). Покажите, что Т с: G', где Т — конус касательных к 5 в х, a G' = = {d: Vgi(х)Гd<0 при /г /}. _ 5.14. Пусть 5 = {х eJ: #(х) < 0, / == 1, ..., m, ht(x) = 0, / = 1, ...,/}, xeS и I*={i:gi (х)=»0}. Покажите, что ГсО'ПЯо, где Г — конус каса- касательных к S в точке х, G/ = {d; 7S"/ (x)rd<0 при /s/}, ^0=»{d: V^t (x)rd = 0 при /==1, ..., /}.
186 ГЛ. 5. УСЛОВИЯ РЕГУЛЯРНОСТИ 5.15. Рассмотрим ограничения Cd<^0 и drd^l. Пусть d — допустимое решение, для которого drd = 1, €^ = 0 и C2d < 0, где Сг = (с[, CQ. По- Покажите, что r = Gi = {d: Cid<0, drd<0}. Здесь T — конус касательных, к множеству ограничений в точке d. Комментарии В этой главе условия оптимальности Куна — Таккера для задач с огра- ограничениями-неравенствами и со смешанными ограничениями были выведены с помощью соответствующих условий регулярности в отличие от подхода, основанного на предположении о справедливости условий Ф. Джона. Первоначально условия оптимальности Куна — Таккера были получены при выполнении следующего условия регулярности: для каждого вектора на- направления d из конуса G' существует допустимая дуга, касательная к кото- которой совпадает с d1). Затем условия оптимальности Куна —Таккера были установлены разными авторами при выполнении различных условий регуляр- регулярности. Для более глубокого изучения этого вопроса можно рекомендовать работы Abadie [1976b], Arrow, Hurwicz and Uzawa [1961], Canon, Cullum and Polak [1966], Cottle [1963a], Evans [1970], Evans and Gould [1970], Guignard [1969], Mangasarian [1969a], Mangasarian and Fromovitz [1967], Zangwill [1969]. Сравнение различных условий регулярности можно найти в обзорных статьях Bazaraa, Goode and Shetty [1972], Gould and Tolle [1972], Peterson [1973]. В работе Gould and Tolle [1971] показано, что условия регулярности, введенные в работе Guignard [1969], — слабейшие в том смысле, что они яв- являются необходимыми и достаточными для выполнения условий оптимально- оптимальности Куна — Таккера. *) Обычно это условие называют условием регулярности первого порядка, см., например, Fiacco and McCormik [1968]. — Прим. перев.
6 Функция Лагранжа и двойственность. Седловые точки и условия оптимальности Для любой задачи нелинейного программирования можно по- построить некоторую другую задачу нелинейной оптимизации, тесно связанную с исходной. Первая называется прямой зада- задачей, а вторая — двойственной. При некоторых предположениях о выпуклости прямая и двойственная задачи имеют равные меж- между собой оптимальные значения целевых функций. Это дает воз- возможность получать решение исходной задачи, решая двойствен- двойственную к ней. В настоящей главе обсуждаются некоторые свойства двойст- двойственной задачи, которые используются для построения общих стратегий решения прямой и двойственной задач. Как побочный результат одной из теорем двойственности будет получено (без предположений о дифференцируемое™) необходимое условие оптимальности, связанное с седловыми точками некоторых функций. План главы § 6.1. Задача, двойственная по Лагранжу1). С помощью функции Лагранжа вводится двойственная задача и дается ее геометрическая интерпретация. Приводятся численные примеры. § 6.2. Теоремы двойственности и седловые точки. Доказы- Доказываются слабая и сильная теоремы двойственности. Затем пока- показывается, что при соответствующих предположениях о выпукло- выпуклости функций оптимальные значения целевых функций прямой и двойственной задач совпадают. § 6.3. Свойства двойственной функции Лагранжа. Изучают- Изучаются такие важные свойства двойственной функции, как вогну- вогнутость, дифференцируемость. Приводятся необходимые и доста- достаточные условия, при которых некоторое направление является направлением подъема и наискорейшего подъема для двойст- двойственной задачи. § 6.4. Решение двойственной по Лагранжу задачи. Обсуж- Обсуждаются различные процедуры решения двойственной задачи. *) В дальнейшем будем иногда называть ее просто двойственной зада* чей. — Прим. перее.
188 ГЛ. б. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ В частности, рассматриваются градиентный метод, метод подъ- подъема и метод секущих плоскостей. § 6.5. Решение прямой задачи. Показывается, что точки, по- полученные в процессе решения двойственной задачи, являются оптимальными решениями некоторых возмущенных прямых за- задач. Для выпуклых задач показывается, как получить почти оптимальные допустимые решения прямой задачи. § 6.6. Задачи линейного и квадратичного программирования. Приводятся постановки двойственных задач к задачам линей- линейного и квадратичного программирования. 6.1. Задача, двойственная по Лагранжу Рассмотрим задачу Р нелинейного программирования, которую будем называть прямой задачей: Прямая задача Р: минимизировать f (x) при условиях g/(x)^0, /=1, ..., m, А,(х) = 0, i=i ...,/, хе== X. В литературе встречаются различные постановки задачи, на" зываемой двойственной к задаче Р. Среди различных формули- формулировок таких задач двойственная по Лагранжу задача привле- привлекает особое внимание специалистов. Она приводит к различным алгоритмам решения как линейных задач большой размерно- размерности, так и задач выпуклого и невыпуклого нелинейного програм- программирования. В последнее время двойственность по Лагранжу нашла применение в анализе задач дискретной оптимизации, где все или некоторые переменные предполагаются целочислен- целочисленными. Приведем формулировку задачи, двойственной по Ла- Лагранжу. Двойственная задача D: максимизировать 0(u, v) при условии где G(u, Функция G(u, v) называется двойственной функцией Лагран- жа1). Заметим, что для некоторых (u, v) функция 0 может m I ') Функцию ф (х, u, v) = [ (х) + Yj ui^i W + Yj vihi W обычно назы- вают функцией Лагранжа. — Прим. перев. < m I = inf< f(x)+ Z ^ (*) + S
6.1. ЗАДАЧА, ДВОЙСТВЕННАЯ ПО ЛАГРАНЖУ 189 принимать значение —оо. В формулировке двойственной по Лагранжу задачи ограничения g*(x)^0 и /i/(x) = 0 введены в целевую функцию с множителями Лагранжа щ и Vu Важно от- отметить, что множители щ, соответствующие ограничениям-нера- ограничениям-неравенствам gt(x)^ 0, неотрицательны, в то время как vi, отвечаю- отвечающие ограничениям-равенствам /i*(x) = 0, могут иметь любой знак. Так как двойственная задача заключается в максимизации m I нижней грани функции f (х) + ? u?gi (х) + ? t>*A* W, то ее иногда называют максиминной двойственной задачей. Прямая и двойственная задачи могут быть записаны в более удобной векторной форме, которой мы будем в дальнейшем пользоваться. Пусть g: En-+Em — вектор -функция с компонен- компонентами gu h: En-*-Ei — вектор-функция с компонентами Ы. Прямая задача Р: минимизировать f (x) при условиях g(x)^0, h(x) = 0, Двойственная задача D: максимизировать 8 (u, v) при условии и:>0, где 8 (u, v) - inf {/ (х) + u^g (х) + vHi (х): х е X}. Для каждой задачи нелинейного программирования можно построить различные двойственные задачи. Все зависит от того, какие из ограничений рассматриваются в виде неравенств g(x)^0 и равенств h(x) = O, а какие отнесены к описанию мно- множества X. Этот выбор влияет на усилия, затрачиваемые на оценку и вычисление функции 8 при решении двойственной за- задачи. Разумное выделение множества X зависит от структуры задачи. Геометрическая интерпретация двойственной по Лагранжу задачи Рассмотрим кратко геометрическую интерпретацию двойствен- двойственной задачи. Для простоты возьмем задачу с единственным огра- ограничением-неравенством. Прямая задача в этом случае имеет вид: минимизировать f(x) при условиях g-(x)^0, xg! На рис. 6.1 в плоскости (z\y z2) изображено множество G = {( г2): 2i=g(x), z2 = /(x), x(=X}. Очевидно, что
190 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ *2 \ ^*^> Наклон -и \z2 + uz, » a \ \ Наклон -и Рис. 6.1. Геометрическая интерпретация двойственности по Лагранжу. G— образ множества X при отображении (g, f). Прямая задача состоит в нахождении точки из множества G, левее оси z2 с ми- минимальной ординатой. Очевидно, что такой точкой будет точка (zu z2), отмеченная на рис. 6.1. Предположим теперь, что задано некоторое и ^ 0. Чтобы определить 6(а), нужно минимизировать f(x)+ug(x) при •хе! Иными словами, если положить Z\ = g(x), z2 = /(х) при xgI, to для определения Q(u) нужно минимизировать z2+uz\ на множестве G. Заметим, что Z2 + uz\ = a — уравнение пря- прямой, имеющей наклон —и относительно оси z2 и пересекающей ее в точке @, а). Для того чтобы минимизировать z2 + uz\ на множестве G, необходимо перемещать прямую г2 + uz\ = a параллельно самой себе до тех пор, пока она не станет опор- опорной к множеству G, т. е. пока G, оставаясь выше прямой, не будет касаться ее. Тогда точка пересечения этой прямой с осью г2 укажет значение 0(и), как это видно из рис. 6.1. Поэтому двойственная задача заключается в нахождении такого наклона опорной гиперплоскости, при котором значение координаты г2 точки ее пересечения с осью z2 будет максимальным. Как видно из рис. 6.1, такая гиперплоскость имеет наклон —п и является опорной к множеству G в точке (zi, z2). Таким образом, опти- оптимальным решением двойственной задачи является й, а опти- оптимальным значением целевой функции — z2. Заметим, что опти- оптимальные значения прямой и двойственной задач совпадают. 6.1.1. ПРИМЕР. Рассмотрим следующую задачу: минимизировать х\ + х\ при условиях -— хх — х2 + 4 ^ 0, хи х2 > 0.
6.1 ЗАДАЧА, ДВОЙСТВЕННАЯ ПО ЛАГРАНЖУ 191 Рис. 6.2. Пример 6.1.1. / — опорная гиперплоскость с наклоном, равным —4; 2 — оптимальное значение целевых функций прямой и двойственной задач. Легко проверить, что оптимальное значение целевой функции достигается в точке (х\, х2) = {2, 2) и равно 8. Пусть g(x) = — х\ — х2 + 4, Х= {(хи х2): хи х2^0}. Тогда двойственная функция Лагранжа имеет вид = inf {x\ — ux{ :хг > 0} + inf {x\ — ux2: x2 > 0} + Аи. Очевидно, что обе нижние грани достигаются при х\ — х2 = и/2, если и ^ 0, и при Xi = Х2 = 0, если и < 0, т. е. 1 q . . 4м, ц < 0. Заметим, что 0 —вогнутая функция, достигающая своего мак- максимума в точке п = 4. Заметим также, что оптимальные значе- значения целевых функций прямой и двойственных задач совпадают и равны 8. Рассмотрим теперь эту задачу в плоскости (z\, z2), где z\ = = g(x), z2 = f(x). Требуется найти G — образ множества Х = = {(*!, х2): х\ ^ 0, ^2^0}, полученный при отображении (g, f). Сделаем это, используя явное выражение для верхней и нижней огибающих множеств G, обозначаемых соответственно через р и а. При заданном Z\ значения a{z\) и PBi) совпадают с опти- оптимальными значениями целевых функций задач Р\ и Р2 соответ- соответственно:
192 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Задача Рх: Задача Р2: минимизировать х\ + х\ максимизировать х\ + х ПрИ УСЛОВИЯХ —*i—#2+4=2i, ПрИ УСЛОВИЯХ —Xx Можно проверить, что a(zi) = -^D — z{f, $(z{) = D — z\). при Z\ ^ 4. Множество G изображено на рис. 6.2. Заметим, что если xsl, то *1, л:2 ^ О и, следовательно, —Х\ — х2 + 4 ^ 4. Таким образом, любая точка xsZ соответствует zi ^4. Оптимальное решение двойственной задачи п = 4 опреде- определяет наклон опорной гиперплоскости, изображенной на рис. 6.2. Оптимальное значение целевой функции двойственной задачи равно а@) = 8 и совпадает с оптимальным значением целевой функции прямой задачи. 6.2. Теоремы двойственности и седловые точки В этом параграфе исследуется связь между прямой и двойствен- двойственной задачами и устанавливаются условия оптимальности для прямой задачи, связанные с седловыми точками. Теорема 6.2.1, называемая слабой теоремой двойственности, устанавливает, что значение целевой функции в любой допусти- допустимой точке двойственной задачи является оценкой снизу для значений целевой функции в любой допустимой точке прямой задачи. В качестве следствий из этой теоремы приводятся не- некоторые важные результаты. 6.2.1. ТЕОРЕМА (слабая теорема двойственности). Пусть х — допустимое решение задачи Р, т. e.xGl, g(x)^0, h(x)=O, a (u, v) — допустимое решение задачи D, т. е. u ^ 0. Тогда /(х)>в(и, v). Доказательство. Так как х—допустимое решение задачи Р, то xel, g(x)^0, h(x) = 0. Кроме того, по условию теоремы и ^» 0, т. е. u7g(x) ^ 0. Тогда по определению функции 0 имеем 6 (ц, v) = inf {/ (у) + пте (У) + vTi (у): yGl}< < / (х) + u^g (х) + v% (х) < f (х). ¦ СЛЕДСТВИЕ 1. ini{f(x):x&X, g(x)<0, h(x) = 0}>sup{9(u, v):u>0}. СЛЕДСТВИЕ 2. Если /(x) ^ 9 (п, v), где п ^ 0 и х s {x e= X: g(x)^0, h(x) = 0} то x и (п, v) — оптимальные решения пря- прямой и двойственной задач соответственно.
6.2. ТЕОРЕМЫ ДВОЙСТВЕННОСТИ И СЕДЛОВЫЕ ТОЧКИ 193 СЛЕДСТВИЕ 3. Если inf {f (x):xGX,g (x) < 0, h (x) = 0} = _ —оо, то 8 (u, v) = —оо для всех и ^ 0. СЛЕДСТВИЕ 4. Если sup {0(и, v): и ^ 0} = оо, то прямая задача не имеет допустимых решений. Разрыв двойственности По следствию 1 из теоремы 6.2.1 оптимальное значение целевой функции прямой задачи не меньше, чем оптимальное значение целевой функции двойственной задачи. Если выполняется стро- строгое неравенство, то говорят, что имеет место разрыв двойствен- двойственности. На рис. 6.3 показан случай, когда имеется разрыв двойствен- двойственности в задаче с единственным ограничением-неравенством. 6.2.2. ПРИМЕР. Рассмотрим следующую задачу: минимизировать — 2хх + х2 при условиях х{ + х2 — 3 = 0, где Х= {@, 0), @, 4), D, 4), D, 0), A, 2), B, 1)}. Легко проверить, что оптимум достигается в точке B, 1) и оптимальное значение целевой функции прямой задачи равно —3. Целевая функция 0 двойственной задачи имеет вид Q(v) = = min{(—2*i + x2) + v(x2 + x2 — Xb):{xu x2)eeX}. Нетрудно убедиться, что явный вид 6 следующий: — 3v, Двойственная функция изображена на рис. 6.4. Оптимальным решением двойственной задачи является точка v = 2, оптималь- оптимальное значение целевой функции равно —6. Очевидно, что в этом примере имеется разрыв двойственности. В рассмотренном случае множество G состоит из конечного числа точек, соответствующих точкам из X, что и показано на рис. 6.5. На этом же рисунке отмечена опорная гиперплоскость с максимальной величиной отрезка, отсекаемого на вертикаль- вертикальной оси. Длина этого отрезка равна —6, а тангенс угла наклона гиперплоскости равен —2. Таким образом, оптимальным реше- решением двойственной задачи является точка v = 2, а оптимальное значение целевой функции равно —6. Заметим также, что точки множества G, лежащие на вертикальной оси, соответствуют до- допустимым точкам прямой задачи, и, следовательно, минималь- минимальное значение целевой функции прямой задачи равно —3. 7 М Базара, К. Ш
194 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Рис. 6.3. Разрыв двойственности. / -- разрыв двойственности; 2 — оптималь- оптимальное значение целевой функции прямой задачи; 3 — оптимальное значение целевой функции двойственной задачи. Рис. 6.4. Двойственная функция из примера 6.2.2. Условия, гарантирующие отсутствие разрыва двойственности, сформулированы в теореме 6.2.4. Однако прежде докажем сле- следующую лемму. 6.2.3. ЛЕММА. Пусть X — непустое выпуклое множество в Еп, а: Еп-*Е\ и g: Еп-+Ет — выпуклые функции, а функция h: En-+Et аффинная, т. е. имеет вид h(x) = Ax — b. Если ука- указанная ниже система 1 не имеет решения, то система 2 имеет решение (и0, u, v). Обратное утверждение верно, если и0 > 0. Система 1: а (х)< 0, g (х) < 0, h (х) = 0 при некотором хе! Система 2: иоа(х) + urg(х) + vrh(х)>0 для всех
6.2. ТЕОРЕМЫ ДВОЙСТВЕННОСТИ И СЕДЛОВЫЕ ТОЧКИ 195 f Рис. 6.5. Пример 6.2.2. / — оптимальное значение прямой задачи = —3; 2 — оптимальное значение двойственной задачи = —6; 3 — опорная гипер- гиперплоскость с наклоном —2. Доказательство. Предположим, что система 1 не имеет ре- решений, и рассмотрим множество А = {(р, Ч> г)« Р > а(х), q>g(x), r = h(x) для некоторого хеД Учитывая, что множество X выпукло, функции а и g выпук- выпуклы, a h аффинная, легко показать, что Л — выпуклое множество. Поскольку система 1 неразрешима, точка (О, О, 0)^Л. Тогда в силу следствия из теоремы 2.3.7 существует такой ненулевой вектор (uq, u, v), что щр + urq + vrr > 0 для всех (р, q, г) е cl Л. F.1) Зафиксируем некоторую точку хе! Так как р и q могут быть выбраны сколь угодно большими, то неравенство F.1) спра- справедливо только в том случае, если щ ^ 0, u ^ 0. Точка (р, q, г)= [а(х), g(x),h(x)] eel Л. Поэтому из F.1) получаем Поскольку последнее неравенство выполняется для всех хеХ, система 2 имеет решение. Чтобы доказать обратное утверждение, предположим, что система 2 имеет'решение (йо, u, v), причем и0 > 0, и^О. Так как (по, и, v) — решение системы 2, то иоа(х) + urg(х) + vrh(х)>0 для всех хе! Пусть точка х, принадлежащая множеству X, такова, что g(x)^0 и h(x) = 0. Поскольку и ^ 0, то из последнего нера-
196 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ венства получаем, что иоа(х)^О. Так как «о > 0, то а(х)^0 и, следовательно, система 1 неразрешима. ¦ Теорема 6.2.4, называемая обычно сильной теоремой двой- двойственности, показывает, что при соответствующих предположе- предположениях о выпуклости и выполнении условий регулярности опти- оптимальные значения целевых функций прямой и двойственной за- задач совпадают. 6.2.4. ТЕОРЕМА (сильная теорема двойственности). Пусть X — непустое выпуклое множество в Еп, функции /: Еп-+Еи g: En-*Em выпуклые, a h: Еп-*Ет аффинная, т. е. h(x) = = Ах — Ь. Предположим, что выполняется следующее условие регулярности. Существует такой вектор xgX, что g(x)<0, h(x) = 0, кроме того, Oeinth(J). Здесь h(X)= {h(x): xel}. Тогда inf {/(х): xEl,g(x)<0,h(х) = 0} = sup{9(u, v): и>0}. F.2) Если нижняя грань конечна, то sup {0(u, v): и ^0} достигается в точке (и, у),__для ^которой u ^ 0. Если нижняя грань дости- достигается в точке х, то u7g(x) = 0. Доказательство. Пусть у = inf {/(х): х е Xt g(x) ^ 0, h(x) = = 0}. Если у ——оо, то по следствию 3 из теоремы 6.2.1 sup {9 (u, v): и^0}=—оо и, следовательно, равенство F.2) выполняется. Предположим теперь, что y принимает конечное значение, и рассмотрим систему f(x)-v<Of g(x)<0, h(x) = 0, xgI По определению у эта система не имеет решений. Тогда из леммы 6.2.3 следует, что существует ненулевой вектор («о, u, v), у которого («о, и) ^ 0, такой, что uo U (х) - у] + nrg (х) + vrh (х) > 0 для всех хе! F.3) Покажем сначала, что и0 > 0. Предположим противное, т, е. пусть и0 = 0. По предположению теоремы существует такой хеЛ, что g(x)<0 и h(x) = 0. Для этого х из F.3) следует, что u7g(x)^0. Так как g(x)<0 и u ^ 0, то неравенство urg(x)^0 возможно только, если u = 0. Тогда из F.3) сле- следует, что vTh(x) ^0 для всех xgI Поскольку Oeinth(^), можно выбрать такой хеХ, что h(x) = — Xv, где X > 0. По- Поэтому 0^vrh(x) = —^||v||2. Отсюда v = 0. Таким образом, по- показано, что если ио = 0, то и (uq7 u, v) = 0, что невозможно. Сле- Следовательно, wo > 0,
6.2, ТЕОРЕМЫ ДВОЙСТВЕННОСТИ И СЕДЛОВЫЕ ТОЧКИ 197 Разделив обе части F.3) на ио и обозначив — и — соот- ветственно через и и v, получим /(х) + urg(х) + vrh(х)>у Для всех xg! F.4) Это соотношение показывает, что 9 (S, v) = inf {/ (х) + urg (x) + v'h (x): xgZ}>Y. В силу теодемы 6.2.1 можно сделать вывод о том, что 0(u, v) = =-у и (u> v) — оптимальное решение двойственной задачи. Для завершения доказательства предположим, что х — опти- оптимальное решение прямой задачи, т. e.jx gX, g (x) ^ 0, h (х) = О, f(x) = y. Положим в F.4)_х равным х, получим urg(x)^ 0. Так как u^0,ag(x)^0, то u7g(x) == б. ¦ В только что доказанной теореме требование Oeinth(X) и существование такого xgI, что g(x)<0 и h(x) = O, могут рассматриваться как некоторое обобщение введенного в гл. 5 условия регулярности Слейтера. Так, если X = Еп, то предпо- предположение Oeinth(A') выполняется автоматически, так что усло- условие регулярности состоит в требовании существования точки х, для которой g(x)<0 и h(x) = 0. Чтобы убедиться в этом, по- положим h(x)=Ax — b. He теряя общности, можно считать, что ранг матрицы А равен т, так как в противном случае можно отбросить лишние ограничения. Любой вектор уе?т можно представить в виде у = Ах — Ь, где х = Ar(AAr)~1(y-f-b). Та- Таким образом, h (X) = Ещ и 0 е int h (X). Критерий седловой точки Опираясь на теорему 6.2.4, получим хорошо известный крите- критерий оптимальности решений прямой и двойственной задач в терминах седловой точки функции Лагранжа. Заметим, что не- необходимое условие оптимальности требует выпуклости и регу- регулярности, в то время как достаточное условие не нуждается в этих предположениях. 6.2.5. ТЕОРЕМА (теорема о седловой точке). Пусть X — непустое множество в Еп и f:_En-+Eu _g:__?'rt->?lm, h: En-+Ei. Предположим, что существуют xgXh (u, v), такие, что и^Ои Ф(х, u, v)<Ф(х, u, v) <ф(х, u, v) F.5)
198 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ для всех хе!и всех (u, v), для которых и_^ 0, где ф(х, и, v) = = /(х)+ urg(x) + v7h(x). Тогда х и (u, v) являются соответ- соответственно решениями прямой задачи Р и двойственной задачи D. Обратно, предположим, что X — выпуклое множество, функ- функции f и g выпуклы, a h аффинная, т. е. h(x) = Ax — b. Кроме того, предположим, что Oeinth(A') и существует xgX, такой, что g(x)<0 и h(x) = 0. Если х — оптимальное решение зада- задачи Р, то найдется вектор (u, v), такой, что и>0и справедливы неравенства F.5). Доказательство.^ Предположим, что существуют xgX и (u, v), такие, что и^Ои неравенства F.5) выполняются. Так как f(x) + urg(x) + vrh(x) = ф(х, и, v)<q>(x, п, у) для всех u ^ О и ve?/, to g(x)^0 и h(x) = O. Поэтому х — допустимое решение задачи Р. Положив в полученном выше неравенстве и = 0, получим urg(x) ^ О._ Так как и ^ 0, а g(x)^0, то u7g(x)^0. Следовательно, urg(x)==0. Учитывая это равенство, получаем из F.5), что ) F.6) для каждого хе! Так как^амэтношения F.6) выполняются при любом xgX, то f(x)^0(u, v). Поскольку х — допустимая точка задачи Р и и ^ 0, то по следствию 2 из теоремы 6.2.1 х и (u, v) — опти- оптимальные решения прямой и двойственной задач соответственно. Предположим теперь, что х — оптимальное решение^ зада- задачи Р. В силу теоремы 6.2.4 существует такой вектор (u, v), что и^Ои f(x]_= 8 (u, v),jurg(x) =_0. По определению 8 получаем f(x) = 9fi,v)<f(x) + urg(x) + vrh(x) = (p(x)u,v) для каждого хе! Так как urg(x) = v7h(x) = 0, то отсюда следует, что для всех хеХ Ф (х, u, v) = / (х) + urg (х) + v^h (х) < ф (х, п, у). Таким образом, доказана справедливость правого неравенства в F.5). Справедливость левого неравенства^ устанавливается элементарно, если учесть, что urg(x) = 0, h(x) = O, g(x)^0 и O ¦
6.2. ТЕОРЕМЫ ДВОЙСТВЕННОСТИ И СЕДЛОВЫЕ ТОЧКИ 199 Связь между критерием седловой точки и условиями оптимальности Куна — Таккера В главах 4 и 5 обсуждались условия оптимальности Куна — Так- Таккера для задачи Р: минимизировать / (х) при условиях g (х) ^ О, XGl В теореме 6.2.5 для этой же задачи сформулированы усло- условия оптимальности решения прямой и. двойственной задач, свя- связанные с седловыми точками функции Лагранжа. Приведенная ниже теорема 6.2.6 устанавливает связь между этими двумя ти- типами условий оптимальности. 6.2.6. ТЕОРЕМА. Пусть . S = {хе= X: g(x)< 0^ h(x) = 0}. Рассмотрим задачу Р, состоящую в минимизации /(х) при усло- условии, что хеS. Предположим, что в точке xeS выполняются условия оптимальности Куна — Таккера, т. е. существуют такие векторы u ^ 0 и v, что V/ (х) + Vg (х) u + Vh (x) v = 0, Пусть /= {i: gt(x) = O}mL Предположим, что функции f и gi при / е / выпуклы в точке х, а Ы аффинная, если vi ф 0. Тогда точка (х, u, v) удовлетворяет условию оптимальности седловой точки _ _ Ф(х, и, v)<q>(x, u, v)<qp(x, u, v) F.8) для всех хе!и всех (u, v), для которых а>0. Здесь ф (х, и, v)= f() + T() + Th() Обратно. Пусть (х, и, v), где xg intX, и ^ 0, удовлетворяет условию оптимальности седловой точки F.8). Тогда х — допу- допустимое решение задачи Р и, кроме того, вектор (х, u, v) удов- удовлетворяет условиям Куна — Таккера F.7). _ Доказательство. Предположим, что вектор (х, u, v), где xeS и и ^ 0, удовлетворяет условиям Куна — Таккера F.7). В силу выпуклости в точке х функций / и gi при fe/ и аффин- аффинности hi для Vi Ф 0 при всех х^Х получаем / (х) > / (х) + V/ (х)т(х - х),_ F.9) x)T(x-x) при /е/, F.10) x)T(x-x) при /=1, ,.м I, V/?=0. F.11)
200 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Умножим F.10) на щ ^ 0, F.11) на zJ, и сложим результаты с F.9). Учитывая F.7), получим, что ф(х, u, v)^ ф(х^и, v) при всех хе! Дале^ так как g(x)^0, h(x) = 0, urg(x) = 0, то Ф_(х, и, у)^ф(х, u, v) при всех u ^ 0. Следовательно, в точке (х, и, v) выполняются неравенства F.8). Докажем обратное утверждение. Предположим, что для точ- точки (х, u, v), такой, что xeintX и u ^ 0, выполняются нера- неравенства F.8). Поскольку ф(х, и, у)^ф(х, и, v) npnjBcex_u ^ 0 и всех v, легко проверить, что g(x)^0, h(x)=0 и urg(x) = 0. Отсюда следует, что х — допустимая точка задачи Р. Так как ф(х, и, у)^ф(х, u,_v) для всех хеХ, то х — решение задачи минимизации ф(х, u, v) при xgI Так KiaK_xeintX, то Ухф(х, п, v) = 0, т. е. V/(x)+ Vg(x)u + Vh(x)v=0, и, следо- следовательно, соотношения F.7) выполняются. ¦ Теорема 6.2.6 устанавливает, что если х — точка Куна—Так- кера, то при некоторых предположениях о выпуклости множи- множители Лагранжа, фигурирующие в условиях Куна—Таккера, удовлетворяют условиям критерия седловой точки F.8). И об- обратно, множители u, v из критерия седловой точки являются множителями Лагранжа в условиях Куна—Таккера. Более того, в силу теорем 6.2.4, 6.2.5 и 6.2.6 оптимальные значения переменных двойственной по Лагранжу задачи в точности совпа- совпадают с множителями Лагранжа из условий Куна — Таккера и с множителями, фигурирующими в критерии седловой точки. 6.3. Свойства двойственной функции Лагранжа В § 6.2 изучалась взаимосвязь между прямой и двойственной задачами. В теореме 6.2.4 показано, что при некоторых условиях оптимальные значения целевых функций прямой и двойственной задач оказываются равными. Это дает возможность не решать прямую задачу непосредственно, а находить решение двойствен- двойственной к ней задачи. Чтобы облегчить решение двойственной за- задачи, нужно изучить свойства двойственной функции Лагранжа. В частности, ниже будет показано, что 0 — вогнутая функция, а также будут обсуждены дифференцируемость и субдифферен- цируемость двойственной функции Лагранжа, охарактеризованы направления подъема и наискорейшего подъема для функции 0. Всюду в дальнейшем в этой главе будем считать, что X — компакт, чтобы упростить доказательство некоторых теорем. За- Заметим, что это предположение не столь ограничительно. Если X — неограниченное множество, но множество решений ограни- ограниченно, то можно добавить соответствующие нижние и верхние
б.З. СВОЙСТВА ДВОЙСТВЕННОЙ ФУНКЦИИ ЛАГРАНЖА 20! границы на переменные таким образом, чтобы решение оказа- оказалось внутри соответствующего многомерного параллелепипеда. Для удобства будем обозначать через w вектор, составленный из компонент векторов и и v, а* через р — вектор-функцию, со- составленную из gi, i= I, ..., m, и hi, i= 1, ...,/. Докажем теперь теорему 6.3.1, утверждающую, что G — вогнутая функция. 6.3.1. ТЕОРЕМА. Пусть X — непустое компактное множество в Еп, /: Еп^Е\ и р: En-+-Em+i — непрерывные функции. Тогда двойственная функция Лагранжа вогнута на Em+i. Доказательство. Так как функции f и р непрерывны, а X — компакт, то 6 принимает конечные значения всюду в Em+i. Пусть wi, w2 e Em+h X <= @, 1). Тогда x + A - Я) w2] = inf {/ (х) + [A,Wl + A - Л) w2f р (х): х <= Х}= = inf {X[f (x) + w[p (x)] + A - К) \f (x) + wfP (x)]: x <= X} > т. е. 9 — вогнутая функция. Н Поскольку функция 0 вогнутая, по теореме 3.4.2 всякий ее локальный оптимум является и глобальным. Этот факт делает привлекательной задачу нахождения максимума 9. Однако ос- основная трудность в решении двойственной задачи состоит в том, что явный вид двойственной функции не известен, так как 0 может быть вычислена в точке только после того, как решена соответствующая подзадача минимизации. Далее в этом пара- параграфе будут изучаться свойства дифференцируемости и субдиф- ференцируемости двойственной функции Лагранжа. Эти свой- свойства оказываются полезными при решении задачи максимиза- максимизации двойственной функции 9. Дифференцируемость функции 9 Обратимся теперь к проблеме дифференцируемости двойствен* ной функции Лагранжа 9(w)= inf {/(x) + wrp(x): xsJf}, Удобно ввести следующее множество: JC(w) = {y: у обращает в минимум /(x) + wrP(x) при
202 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Дифференцируемость функции 9 в некоторой точке ^зави- ^зависит от элементов множества X(vt). В частности, если X(w) со- состоит из единственной точки, то, как ^удет показано в теореме 6.3.3, функция 9 дифференцируема в w. Сначала, однако, дока- докажем лемму. 6.3.2. ЛЕММА. Пусть X — непустой компакт в ЕПу функции /: En-+Ei и р: Еп—Em+i непрерывны, v/^Em+i—некоторая фик- фиксированная точка. Предположим, что X(w) состоит из един- единственной точки {х}. Если w^wh xk^X(wk) при всех k, то х*->х. Доказательство, Будем доказывать от_противного. Предполо- Предположим, что w^-^w, xk^X(wk) и Их* — х|| > е > 0 при *gJ, где Ж — некоторое множество индексов. Так как X — компакт, то последовательность {xk}^ содержит сходящуюся подпосле- подпоследовательность {xjj^,, предел которой у принадлежит множеству X. Очевидно, что ||у — х|| ^ е > 0, и, следовательно, у ф х. Кроме того, для каждого w*, И^Ж\ выполняется неравен- неравенство Переходя к пределу при &->оо и 4еГ и учитывая, что -^у, w^-^w, a f и р — непрерывные функции, получаем, что Отсюда следует, что yGl(w), Это противоречит тому, что X(w) состоит из одной точки. Ш 6.3.3. ТЕОРЕМА. Пусть X — непустой компакт в Еп, функ- функции /: Еп-^Ех и р: En->Em+i непрерывны, we?m+/. Предполо- Предположим, что X(vt) состоит из единственной точки {х}. Тогда функ- функция 9 дифференцируема в w и градиент V9(w)= p(x). Доказательство. Так как функции / и р непрерывны, г X — компакт, то для любого фиксированного w существует точка Xa;GX(w). По определению функции 9 справедливы следую- следующие два неравенства: = (w-w)rP(x), F.12) в (w) - 6 (w) < / (х J + wrp (x J - / (x J - w^p (хш) = = (w-w)rP(x.). F.13)
6 3. СВОЙСТВА ДВОЙСТВЕННОЙ ФУНКЦИИ ЛАГРАНЖА 203 Из F.12), F.13) и неравенства Шварца следует, что Отсюда — W || Если w-vw, то по лемме 6.3.2 х^-^х и P(xa,)-^p(x) в силу не- непрерывности функции р. Поэтому из F.14) получаем 6(w)-(w-w)rP(x) _Q l||| Следовательно,__функция 0 дифференцируема в точке w и ее градиент равен р(х). ¦ Субградиент функции 0 В теореме 6.3.1 было показано, что 0 — вогнутая функция и, сле- следовательно, в силу теоремы 3.2.5 она субдифференцируема, т. е. имеет субградиенты. Как будет видно ife дальнейшего, субгра- субградиенты играют важную роль при решении задачи максимиза- максимизации двойственной функции Лагранжа, т. е. они естественным образом приводят к определению направлений подъема. Тео- Теорема 6.3.4 показывает, что каждый вектор xg^(w) определяет субградиент функции 0 в точке w. 6.3.4. ТЕОРЕМА. Пусть X — непустой компакт в Еп, функ- функции f: En-+E\ и р: En-^Em+i непрерывны,__так что для любого we?m+/ множество X(w) непусто. Если xgX(w), то р(х) — субградиент функции 0 в точке w. Доказательство. Так как f и р — непрерывные функции, а X— компакт, то X(vt)=?0 для любого we?m+/. Зафиксируем некоторый вектор we?m+/, и пусть xgX(w). Тогда Поэтому р(х) — субградиент функции 0 в точке w. ¦ 6.3.5. ПРИМЕР. Рассмотрим следующую задачу: минимизировать — хх — х2 при условиях Хх + 2х2 — 3 ^ 0, хи л:2 = 0, 1, 2 или 3.
204 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Обозначим g(xu х2) = х\ + 2х2— 3, X— {(хи х2): Х\, х2 = = 0, 1, 2 или 3}. Тогда двойственная функция Лагранжа имеет вид: 0 (и) = inf {— Xi — х2 + и {хг + 2лг2 — 3): хи х2 = 0, 1, 2 или 3} = если 0<н<~, — 3, 2 — Зи, если н^1. Пусть и = V2- Для того чтобы найти субградиент функции 0 в точке й, рассмотрим следующую вспомогательную задачу: минимизировать — х{ — х2 + у (#i + 2л:2 — 3) при уоловии хи х2 = 0, 1, 2 или 3. Легко видеть, что множеством Х(п) оптимальных решений последней задачи является {C, 0), C, 1), C, 2), C, 3)}. Тогда в силу теоремы 6.3.4 gC, 0) = 0, gC, 1) = 2, gC, 2) = 4, gC, 3) = 6 — субгради^нты функции 0 в точке п. Заметим, что 3/2 также является субградиентом функции 0 в ^очке п, однако не представляется в виде g(x) для некоторого хеХ(й). Из рассмотренного выше примера видно, что теорема 6.3.4 дает только некоторую достаточную характеристику субгради- субградиентов. Необходимые и достаточные условия того, что вектор является субградиентом двойственной функции Лагранжа, бу- будут сформулированы в теореме 6.3.7. Однако прежде приведем еще один важный результат. 6.3.6. ТЕОРЕМА. Пусть X — непустой компакт в ?„, функ- функции /: Еп~+Е\ и 0: En-+Em+i непрерывны и w, de?m+/. Тогда 07(w; d)^drp(x) для некоторого xeZ(w). Доказательство. Рассмотрим последовательность w + ^d, где Я*-^0+. Для каждого k существует xfesX(w + y), и так как X — компакт, то_можно выделить подпоследовательность }ж, сходящуюся к х из X. Зафиксируем xsl Тогда при каждом JgI Переходя к пределу при &-*оо, получим, что
6 3. СВОЙСТВА ДВОЙСТВЕННОЙ ФУНКЦИИ ЛАГРАНЖА 205 т. е. xgI(w). Кроме того, из определения 8(w + ^^d) и 8(w) имеем е (w + М) - е (w) = f Ш + (w + MF Р (х,) - е (w) > xkdTv (xk). Это неравенство выполняется при всех к^.Ж. Учитывая, что х*->х при к^Ж и ?->оо, получим lime(w+xn)-B(w) - По лемме 3.1.5 9'(w;d) = lim в (w + a,d) - e (w) существует СЛЕДСТВИЕ. Пусть выполняются предположения теорем_ы и C9 (w) — совокупность субградиентов функции 0 в точке w Тогда _ • 9' (W; d) == inf {dr|: I e dQ (w)}. Доказательство. По теореме 6.3.4 p (x) <=_d9 (w), где х опре- определен _в теореме 6.3.6, и, следовательно, 0'(w; d) ^ inf {dr|: ge e^0(w)}. Пусть теперь J e <90 (w). Так как 0 — вогнутая функ- функция, то 0 (w + Xd) — 0 (w) ^ ^dr|. Разделим обе части этого неравенства на Я > 0. Переходя к пределу при А,->0+, получим, *гго 0/(w;d)^dr|. Так как это неравенство выполняется при любом I e= dQ (w), то 0' (w; d) < inf {d7?: I € dQ (w)}. ¦ 6.3.7. ТЕОРЕМА. Пусть X — непустой компакт в Еп, функ- функции /: ?,i->?i и р: En-+Em+i непрерывны. Вектор \ является субградиентом функции 0 в точке w e Em+i тогда и только тог- тогда, когда он^ принадлежит выпуклой оболочке множества {f}(y):ye=X(w)}. Доказательство. Обозначим множество {р(у): yel(w)} через Л, а его выпуклую оболочку — через Н(Л). По теореме 6.3.4 выполняется Ac39(w), и так как dQ (w) — выпуклое мно- множество, то Н (Л) с dQ (w). Учитывая, что X — компакт, а функ- функции р непрерывны, легко убедиться, что Л — компакт. Так как выпуклая оболочка компакта замкнута, то Я (Л) —замкнутое выпуклое множество. _ Покажем теперь, что #(Л)=э <Э0 (w) .__Пусть это не так, т. е. пусть существует такой ?', что |'^<90(w) и \' фН(А). По тео- теореме 2.3.4 существуют число а и ненулевой вектор d, такие, что для каждого у^ J(w), F.15) . F.16)
206 ГЛ. 6. ФУНКЦИЯ ЛАГРАИЖА И ДВОЙСТВЕННОСТЬ @,0) (-3,-2) Рис. 6.6. Субградиенты. В силу теоремы 6.3.6 существует такой вектор yGl(w), что B/(w;d)>drP(y). Тогда из F.15) получаем, что 6'(w;d)>a. В то же время из F.16) и в силу следствия из теоремы 6.3.6 в' (w; d) = inf {dr?: l<= 39 (w)} < йтГ < a. Противоречие. Это значит, что ?'е//(Л) и dQ(w) = H(A), Ш 6.3.8. ПРИМЕР. Рассмотрим следующую задачу: минимизировать — (л^ — 4J — (х2 — 4J при условиях хх —3^0, — 4 < 0, Введем обозначения: g\{xh x2) = Xi — 3, g2(xu x2) — — #i+*2—2, Х = {{хи х2): Xi + x2~4^0; xlyx2^Q}. Тогда двойственная функция Лагранжа имеет вид 9 (щ, и2) = inf {- (*, - 4J - (х2 - 4J + Щ [хх - 3) + Применим теорему 6.3.7_для нахождения множества субгра- субградиентов функции 8 в точке и = A, бO". Чтобы найти множество нужно решить следующую задачу: минимизировать — (х{ — 4J -— (х2 — 4J — 4х{ + 5лг2 — 13 при условиях Х\ + х2 — 4 Целевая функция этой задачи вогнута, и в силу теоремы 3.4.6 она достигает минимума на многограннике в одной из его экстремальных точек. Многогранник X имеет три экстремальные точки — @, 0), D, 0) и @, 4). При этом /@, 0) = /D, 0) == —45, /@, 4) = —9. Таким образом, оптимальными решениями яв-
6.3. СВОЙСТВА ДВОЙСТВЕННОЙ ФУНКЦИИ ЛАГРАНЖА 207 ляются точки @,0) и D,0), а Х(й)= {@,0), D,0)}. По тео- теореме 6.3.7 субградиенты функции 9 в точке и определяются как выпуклые комбинации g@, 0) и gD, 0), т. е. как выпуклые ком- комбинации векторов (—3, — 2)т и A, —6)г. На рис. 6.6 изобра- изображено множество субградиентов 0. Направления подъема и наискорейшего подъема Двойственная задача состоит в максимизации функции в при условии, что и ^ 0. Если задана некоторая точка wr = (ur, v7"), то естественно желание определить направления, вдоль которых функция возрастает. Для ясности сначала приведем следующее определение направления подъема. 6.3.9. ОПРЕДЕЛЕНИЕ. Вектор d называется направлением подъема функции 8 в точке w, если существует такое б > 0, что 6 (w + Ad) > 9 (w) при каждом Я е @, 6). Заметим, что если функция в вогнута, то вектор d является направлением подъема функции 0 в точке w тогда и только тогда, когда 0'(w; d)>0. Функция 9 достигает максимума в точке w тогда и только тогда, когда в ней не существует на- направлений подъема, т. е. тогда и только тогда, когда 0/(w; d)^ ^ 0 для всех d. В силу следствия из теоремы 6.3.6 вектор d является направ- направлением подъема функции 0 в точке w тогда и только тогда, когда inf {dr|e d0(w)} > 0, т. е. тогда и только тогда, когда для некоторого е > 0 при каждом % е с?0 (w) выполняется не- неравенство dT% ^ е > 0. В качестве иллюстрации определения рассмотрим пример 6.3.8. Совокупность субградиентов функции 0 в точке A,5) изо- изображена на рис. 6.6. Вектор d является направлением подъема тогда и только тогда, когда dT% ^ е для каждого субградиента 1 при некотором е > 0. Другими словами, d — направление подъема, если угол между этим направлением и любым субгра- субградиентом строго меньше 90°. Для этого примера конус направле- направлений подъема изображен на рис. 6.7. Заметим, что в этом случае каждый субградиент задает направление подъема. Однако в общем случае это не обязательно. Так как функция 0 должна максимизироваться, то интересно найти не просто направление подъема, а направление, вдоль которого 0 возрастает быстрее всего. 6.3.10. ОПРЕДЕЛЕНИЕ. Вектор d называется направлением наискорейшего подъема функции 0 в точке w, если 0'(w; й)= max 6'(w; d). НИ1
208 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Рис. 6.7. Конус направлений подъема для примера 6.3.8. / — конус направ- направлений подъема; 2 — субградиент наименьшей длины. 6.3.11. ТЕОРЕМА. Пусть X — непустой компакт в Еп, функ- функции /: Еп-+Е\ и (J: En-+Em+i выпуклы. Обозначим через % суб- субградиент из C0 (w) с наименьшей евклидовой нормой. Тогда на- направление наискорейшего подъема d функции 0 в точке w опре- определяется следующим образом: 0, если 1 = 0, r -4- если 1=7^0. II6II Доказательство. По определению 6.3.10 и в силу следствия из теоремы 6.3.6 направление наискорейшего подъема может быть получено из следующих соотношений: max 0' (w; d) = max inf dr| ^ inf max dr| = d||<l lld||<l 5a0(w) |e=d6(w) ||d||<l 11611 = 11511. FЛ7) Если построить направление d так, чтобы 07(w; d) = |||||, то из F.17) следует, что d — направление наискорейшего подъема. Если J"=0, то при (Г== 0, очевидно, ©'(w; d) = |||||. Пусть те- теперь %ф0 и d = \/ |||||. Заметим, что 9' (W; d) = inf {d^i: 6 e дв (w)} = inf |^: I e dQ (w)} = F.18)
6.4. РЕШЕНИЕ ДВОЙСТВЕННОЙ ПО ЛАГРАНЖУ ЗАДАЧИ 209 Так как | — самый короткий вектор из 30 (w), то по тео- теореме 2.3.1 ?"(g — 1)^0 для каждого ?^<90(w). Следовательно, inf {lT(l — ?)'• ?ed0(w)} = 0 достигается в точке g. Тогда из F.18) следует, что 0'(w; d)= ||g||. ¦ 6.4. Решение двойственной по Лагранжу задачи * В предыдущем параграфе были описаны различные свойства двойственной функции Лагранжа. В настоящем параграфе эти свойства будут использоваться для получения алгоритмов ре- решения задачи максимизации двойственной функции в области {(u, v): u^O}. В частности, здесь будут обсуждаться некото- некоторые процедуры подъема и метод секущих плоскостей примени- применительно к решению двойственной задачи. Градиентный метод Для заданных (u, v) значение двойственной функции Лагранжа может быть получено из решения следующей вспомогательной задачи: минимизировать / (х) + urg (х) + vrh (x) при условии xgI Предположим, что х— оптимальное решение. Тогда по тео- теореме 6.3.3 имеем V0(u, v)r = [g(x)r, h(x)r]. Если V0(u,v)=^O, то в силу теоремы 4.1.2 этот вектор является направлением подъема и функция 0 будет возрастать при движении из (u, v) вдоль V0(u, v). Однако если некоторые компоненты й равны нулю, а соответствующие gt(x) отрицательны, то u + Xg(x)^0 при i>0 и, следовательно, нарушается условие неотрицатель- неотрицательности. Чтобы учесть это обстоятельство, используем модифици- модифицированное направление [g(x), h(x)], где g(x) определяется сле- следующим образом: gi(x), ^ если б,>0, max[0, gi(x)]f если й/ = 0. Теорема 6.4.1 показывает, что [g(x),h(x)] определяет допу- допустимое направление подъема для функции 0 в точке (u, v). Бо- Более того, [g(x), h(x)] —нулевой вектор только в том случае, если в двойственной задаче достигнут максимум. 6.4.1. ТЕОРЕМА. Пусть (п, v)e Em+iy п ^ 0. Предположим, что функция 0 дифференцируема в точке (u, v) и ее градиент Равен [i(x),h(x)]. Если [?(х), h(x)] ф @, 0), то [?(x),h(x)]-
210 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ допустимое направление подъема для функции 0 в (й, v). Если [&(*), h(x)] = @, 0), то 9 достигает на области {(u, v): и ^ 0} максимума в точке (й, v). Доказательство. Пусть dr=[g(x)r, h(x)r]. По построению функции g направление d допустимое. Если d ф 0, то V0(u, v)rd > 0, и по теореме 4.1.2 вектор d является направле- направлением подъема. Пусть теперь [g(x), h(x)] = @, 0). Так как ?;(х) = 0 для всех if то g/(x)^0 и Uigi(i) = O при всех L Дру- Другими словами, g(x)<0 и urg(x) = 0. F.20) Рассмотрим двойственную задачу максимизации 6 (u, v) при и ^ 0. В точке (п, v) выполняются условия Куна — Таккера, если существует такой вектор h ^ 0, что V0 (п, v) = (b, 0) и пгЬ = О. Из F.20) следует, что при b = g(x) эти условия вы- выполняются. Так как 0 — вогнутая функция, то по теореме 4.2.1 для того, чтобы точка (u, v) была оптимальной, достаточно вы- выполнения условий Куна — Таккера. ¦ Алгоритм градиентного метода Если выполняются предположения теоремы 6.3.3, то функция 0 дифференцируема, и для решения задачи максимизации 0 на множестве {(u, v): и ^ 0} может быть использована следую- следующая схема. На втором шаге алгоритма решается задача минимизации функции одного переменного Я. Для простоты будем предпола- предполагать, что существует конечное оптимальное значение А*. Если это не так, то либо оптимальное значение целевой функции не- неограниченно, либо ограниченно, но не достигается ни при ка- каком К. В первом случае процедура останавливается и делается вывод, что целевая функция двойственной задачи неограниченна на допустимом множестве, а прямая задача неразрешима. Во втором случае в качестве Kk может быть выбрано произвольное достаточно большое число. Начальный этап. Выбрать вектор (ui, Vi), такой, что ui ^ 0, положить й=1 и перейти к основному этапу. Основной этап. Шаг 1. При заданном (u^, v*) решить сле- следующую вспомогательную задачу: минимизировать f (х) + u?g (х) + v?h (x) при условии xgI Пусть Xk — единственное оптимальное решение. Построить вектор (g(x*), Ь(ха-)] в соответствии с F.19). Если этот вектор
6.4. РЕШЕНИЕ ДВОЙСТВЕННОЙ ПО ЛАГРАНЖУ ЗАДАЧИ 211 нулевой, то остановиться; (u*, v*) — оптимальное решение В противном случае перейти к шагу 2. Шаг 2. Рассмотрим следующую задачу: максимизировать 9 [(ub vk) + X (g(xk), h (xk))] при условиях U? Пусть ^ — оптимальное решение. Положить (uk+u v*+1) = = (u*, Vk) + h[g(*k)> h(x^)]. Присвоить k значение k+l и пе- перейти к шагу 1. Проиллюстрируем использование градиентного метода для решения задачи максимизации двойственной функции Лагранжа на следующем примере. 6.4.2. ПРИМЕР. Рассмотрим следующую задачу: минимизировать х\ + х\ при условиях — хх — х2 + 4 ^ О, Xi + x2 — 8<0. Легко проверить, что оптимум достигается в точке B, 2) и оптимальное значение целевой функции равно 8. Двойственная задача состоит в максимизации Q(u\, и2) при т, и2^ 0, где 9 (uv и2) = min {я? + *! + «*! (- хх - х2 + 4) + и2 (х{ + 2х2 - 8)}. Будем решать двойственную задачу описанным выше гра- градиентным методом, взяв в качестве начальной точки щ=@, 0)г. Заметим, что по теореме 6.3.3 функция 9 дифференцируема. При п{ = @, 0)г значение функции 9 (Uj) = min {x\ + xty = 0, и Х\, Хг минимум достигается в единственной точке Xi = @, 0)г. В силу теоремы 6.3.3 V9 @) = g (хО = D,-8)г. Тогда ? (х,) = D, 0)г. При этом 9 DЯ, 0) = min {x\ — 4lx{) + min {х\ — 4Хх2) + 16Я = ==-4Я2 — 4Л2+ 16Я, = -8Л2+ 16Я. Оптимальным решением задачи максимизации 9DЯ, 0) при ^ 0 1) является %\ = 1, так что щ = и, + ^В (х,) = @, Of + 1 • D, Of = D, Of. *) В общем случае не получается явного выражения для 8(ui+Xg(xi)) = = 9DХ, 0). Однако для некоторых К вычисление 6 сводится к решению за- задачи безусловной оптимизации. Для нахождения оптимального значения A,t могут быть использованы соответствующие процедуры одномерного поиска. Подробно методы безусловной оптимизации обсуждаются в гл. 8.
212 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ При и2 = D, 0)г имеем 9 (u2) = min {х\ + х\+ 4 ( - хх— *2+4)}=8. Минимум достигается в единственной точке х2 = B, 2)г. В силу теоремы 6.3.3 ?0(u2) = g(x2) = @, — 2)г. В этом случае g(x2) = = @, 0)г, и, следовательно, U2 = D, 0)г— оптимальное решение двойственной задачи. Метод подъема для недифференцируемой двойственной функции В § 6.3 было показано, что вектор d является направлением подъема для функции 0 в точке (u, v), если Ат% ^ е > 0 для каждого §ed0(u, v). Для нахождения такого направления может быть использована следующая задача: максимизировать е при условиях d^^e при |ed0(u, v), dt ^ 0, если ut = 0, — l<d,<l, i=l, ..., m + l. Заметим, что ограничения di ^ 0, если щ = 0, гарантируют, что вектор d является возможным направлением, а нормирующие ограничения —1 ^ di ^L 1 обеспечивают конечность решения задачи. Решение задачи нахождения направления связано со сле- следующими трудностями: 1. Множество 50 (u, v) и, следовательно, ограничения за- задачи известны лишь в неявном виде. Однако можно использо- использовать теорему 6.3.7, дающую полную характеристику множества субградиентов. 2. Множество 50 (u, v) обычно содержит бесконечное число векторов-субградиентов, так что получается задача линейного программирования с бесконечным числом ограничений. Однако если д0 (u, v)—многогранник, то ограничения Ат\ ^ е при \ е <50 (u, v) можно заменить ограничениями dr|/ ^ e, j = 1, ... ..., 7, где 1i,...,1y — экстремальные точки множества dQ (u, v). Таким образом, в этом случае получается задача линейного программирования с конечным числом ограничений. Алгоритм подъема Ниже будет рассмотрена процедура подъема для задачи максимизации функции 0 на множестве {(u, v): и^О}. Метод применяется независимо от того, является ли 50 (u, v) много- многогранным множеством или нет. На первом шаге делается по- попытка построить направление подъема при помощи решения некоторой задачи линейного программирования с конечным чис-
6.4. РЕШЕНИЕ ДВОЙСТВЕННОЙ ПО ЛАГРАНЖУ ЗАДАЧИ 213 лом ограничений. На втором шаге проверяется, является ли полученное на первом шаге направление действительно направ- направлением подъема. В силу теоремы 6.3.7 выполнение шага 2 требует знания всех оптимальных решений задачи минимизации /(x) + ujg(x)+ -J- v?h(x) при xgX, что может быть связано со значительными трудностями. На третьем шаге функция 0 максимизируется вдоль направления подъема, найденного на предыдущих шагах. Решается задача одномерной оптимизации относительно пере- переменного %. Для простоты изложения будем считать, что сущест- существует конечное оптимальное значение X*. Если это не так, то либо оптимальное значение целевой функции неограниченно, либо, если оно ограниченно, то не достигается ни при каком К. В первом случае процедура останавливается и делается вывод, что целевая функция двойственной задачи неограниченна и множество допустимых решений прямой задачи пусто. Во вто- втором случае в качестве Я,* берется достаточно большое число. Эта процедура в сжатой форме описана ниже. Предпола- Предполагается, что функции /, g, h непрерывны, а X — компакт, так что множество Х(и, v) непусто при каждом (u, v). Начальный этап. Выбрать вектор w[ = (u[, v[), такой, что и^О. Решить задачу минимизации / (х) + u[g (x) + v[h (x) при хе! Пусть Xj — оптимальное решение и Ц = [g(Xj)r, h(XjO*]. Положить k = y = 1 и перейти к основному этапу. Основной этап. Шаг 1. При заданных |ь ..., |Y решить сле- следующую задачу: максимизировать г при условиях dr?/>8, /=1, ..., Y» ^ если 1-я компонента uk равна 0, Пусть (dY, 8Y) — оптимальное решение. Если eY = 0, то про- процедура останавливается; направления подъема не существует и w? = (u?, vj) — оптимальное решение. Если eY > 0, перейти к шагу 2. Шаг 2. Решить следующую вспомогательную задачу: минимизировать dYl при условии I e dQ (ub v*). Пусть §Y+1 — оптимальное решение этой задачи. Если dJIY+1 > 0 то dY — направление подъема; перейти к шагу 3. Если d?lY+1 ^0 то присвоить у значение у+ 1 и перейти к шагу 1.
214 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Шаг 3. Положить d^==dY и решить следующую задачу- максимизировать 8 (vrk + Xdk) при условиях (wk + Xdk)i^0, /=1, ..., т, где (wk + Xdk)i есть 1-я компонента вектора wk + Xdk. Пусть %k — оптимальное решение. Положить w^+J = w* + kkdk и пе- перейти к шагу 4. Шаг 4. Пусть x^+i — оптимальное решение задачи минимиза- минимизации f (x) + u?+1g (x) + v?+1h (x) при х€ X, где (u?+1, vj+l)=wj+1. Положить |[ — [ff(x*+i)r> ^(xfe+i)r]# Заменить ^ на 6+ 1, поло- положить Y133! и перейти к шагу 1. Проиллюстрируем построенную процедуру на следующем примере. 6.4.3. ПРИМЕР. Рассмотрим следующую задачу: минимизировать х{ — 4х2 при условиях — х{ — х2 + 2 Здесь двойственная задача состоит в максимизации Q(u\, при ии U2 ^ 0, где 6 (ии и2) = min {(xi — 4х2) + Щ (— л:, — х2 + 2) + min лг!A — t/i) + min х2(—4 — щ + и2) + 2щ — и2. <<3 0<<3 Будем решать двойственную задачу методом подъема, взяв в качестве начальной точки ui =@, 4)т. Для Ui =@, 4)г имеем e(ui) = —4, и максимум достигается в точке вида @, а) при 0 ^ а ^ 3. Выбрав а = 0, получим оп- оптимальное решение х = @, 0)г и соответствующий субградиент ^, =g(x) = B, —1)г. На шаге 1 рассматривается задача максимизировать е при условиях 2di — d2 Оптимальным решением этой задачи является вектор di = = A, —1)г. При этом 8 = 3. Так как е > 0, то переходим к ре- решению задачи шага 2. По теореме 6.3.7 d0(ui)== {%=(—а+ 2, а— 1)г: 0 ^ а ^ 3}. Тогда целевая функция этой задачи имеет
6.4. РЕШЕНИЕ ДВОЙСТВЕННОЙ ПО ЛАГРАНЖУ ЗАДАЧИ 215 вид gr^ = (_a-j- 2)-1 +(a — 1)(—1)=—2a + 3. Следователь- Следовательно, задача второго шага состоит в минимизации —2а + 3 при О <; а ^ 3. Оптимальным решением этой задачи является а=3, оптимальное значение целевой функции равно —3 < 0. Соответ- Соответствующий оптимуму субградиент %2 =(— 1, 2)г. Возвращаясь к шагу 1, решаем задачу максимизировать е при условиях 2d{— — d{ + 2d2 Оптимальное значение целевой функции равно 1 и дости- достигается при d2 = (l, 1)г. Так как е > О, решаем задачу шага 2. Целевая функция имеет вид |rd2 = (—а + 2) • 1 + (а — 1) • 1 = I. Поскольку значение целевой функции положительно для лю- любого |, то d2=(l,l)r — направление подъема. Будем теперь искать максимум двойственной функции Ла- гранжа вдоль направления подъема A, 1), т. е. решим задачу максимизации 9 [@, 4)— ЯA, 1)] при Я ^ 0. Легко проверить, что Я —4, 0<Я<1, 9[@, - ¦ —- ' ' ^ ^ ' Оптимальным решением является Х\ = 1 и, следовательно, u2 = (l, 5)T. Воспроизведем теперь процесс поиска направления подъема в и2. Для U2 = (l,5)r имеем 0(и2) = —3. Оптимум достигается в любой точке вида (<%ь аг), где 0 <; ai, a2 ^ 3, т. е. оптималь- оптимальное решение есть выпуклая комбинация экстремальных точек @, 0), @, 3), C, 0) и C, 3). Выбирая оптимальное решение х = @, 0)т, получим соответствующий субградиент ^! = () = B, —1)т. На шаге 1 метода решается задача максимизировать е при условиях 2^! — d2^e, Оптимальным решением является вектор di = A, —1)г. При этом е = 3 > 0. По теореме 6.3.7 <Э8 (и2) — множество выпуклых комбинаций точек Р, = g@, 0) = B, - 1)г, P2 = g@, 3)=(-l, 2)т, P3 = gC, 0) = (— 1, - 1)г, P4 = gC, 3) = (—4, 2)т. Учитывая, что оптимум целевой функции задачи, решаемой на шаге 2, до- достигается в одной из этих экстремальных точек, получаем, что оптимум равен min{dfPi, d[p2,d[p3,d[p4} = min{3,~-3, 0, —6}=—6. Поэтому оптимальным решением задачи шага 2 является вектор р D2)г
216 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ' Снова повторяем шаг 1 с новыми ограничениями, соответ- соответствующими %2\ получим следующую задачу: максимизировать е при условиях 2d{ — d2 Оптимальное значение целевой функции этой задачи равно ну- нулю, и, следовательно, в и2 не существует направлений подъема. Таким образом, U2 = (l, 5)г является оптимальным решением двойственной задачи. Метод секущих плоскостей > В обсуждавшихся ранее методах решения двойственной задачи на каждой итерации строится допустимое направление, вдоль которого двойственная функция Лагранжа возрастает. Здесь будет рассмотрена другая стратегия решения двойственной за- задачи, когда на каждом шаге оптимизируется функция, аппрок- аппроксимирующая двойственную функцию Лагранжа. Напомним, что двойственная функция Лагранжа 0 имеет вид 6 (u, v) = inf {/ (х) + u^g (х) + vHi (х): х <= X}. Если обозначить 2 = 0(u, v), то неравенство 2^f() + urg(x) + vrh(x) должно выполняться для каждого xg! Тогда двойственная задача, состоящая в максимизации 0(u, v) при u ^ 0, эквивалентна следующей: - максимизировать z при условиях г<f (x) + urg(x) + vrh(x), xgI, F.2А Заметим, что последняя представляет собой задачу линейного программирования относительно переменных г, и и v. К сожа- сожалению, число ограничений здесь бесконечно и они представлены в неявном виде. Предположим, что известны точки хь ..., xk-\ из X, и рассмотрим следующую задачу: максимизировать z при условиях z < / (х;) + urg (xf) + vrh (х7), /=1, ...,fc-lf F.22) u>0. Это задача линейного программирования с конечным числом ограничений. Ее можно решить симплексным методом. Пусть {zki Uk, Vk) — ее оптимальное решение. Если это решение удов-
6А. РЕШЕНИЕ ДВОЙСТВЕННОЙ ПО ЛАГРАНЖУ ЗАДАЧИ 217 летворяет F.21), то оно является оптимальным решением двой- двойственной задачи. Чтобы проверить, выполняется ли F.21), рас- рассмотрим вспомогательную задачу: минимизировать / (х) + ujg (х) + v?h (x) при условии хе! Пусть х* — оптимальное решение этой задачи, 8 К> V/e) = / (**) + К «( Если zk < 9(и*, \k), то (u*, v*) —оптимальное решение двой- двойственной задачи. В противном случае для (u, v) = (u/e, v*) нера- неравенство F.21) не выполняется при х = х*. Поэтому добавим ограничение к ограничениям F.22) и снова решим задачу линейного про- программирования. Очевидно, что в оптимальной точке (г*, щ, v*) это неравенство не должно выполняться. Иными словами, от области определения дополнительными ограничениями отсе- отсекаются заведомо неоптимальные точки. Отсюда и название ме- метода — метод секущих плоскостей. Алгоритм метода секущих плоскостей При описании метода секущих плоскостей предполагается, что функции f, g и h непрерывны, X — компакт, так что мно- множество Х(и, v) непусто при каждом (u, v). Начальный этап. Найти такую точку хо^Х, что g(o) и h(хо) = 0. Положить й=1 и перейти к основному этапу. Основной этап. Шаг 1. Решить следующую задачу, обычно называемую основной задачей: максимизировать z при условиях z < f (ху) + nTg (х7) + vrh (х/), / = 0, ..., k — 1, Положить (Zk, Uk, Vk) равным оптимальному решению этой задачи и перейти к шагу 2. Шаг 2. Решить следующую подзадачу: минимизировать / (х) + u?g (х) + vph (x) при условии хе! Пусть Х? — оптимальное решение этой задачи и 9(u^,vfe) = 8=5 f (xk) + ulg (хл) + v?h (x^). Если zk = G (uft, vk), то остано-
218 ГЛ 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ виться. В этом случае (u*, v*) — оптимальное решение двойст- двойственной задачи. В противном случае, т. е. если г*>8(и*, v*), присвоить k значение &+ 1 и вернуться к шагу 1. На каждой итерации к основной задаче добавляется ограни- ограничение, и, следовательно, число ее ограничений монотонно возра- возрастает. Если число ограничений в основной задаче становится чрезмерно большим, то все неактивные ограничения можно от- отбросить. К тому же заметим, что оптимальные решения основной задачи образуют невозрастающую последовательность {zk}. Так как каждое Zk является верхней границей оптимального значе- значения целевой функции двойственной задачи, то можно остановить процедуру при zk — max 0(и;-, v;) < е, где е — некоторое ма- лое число. Метод секущих плоскостей как метод тангенциальной аппроксимации Алгоритм секущих плоскостей для нахождения максимума двойственной функции можно интерпретировать как метод тан- тангенциальной аппроксимации. По определению функции 0 имеем 6(u,v)</(x) + ttr*(x) + vTi(x) при xgI Таким образом, при любом фиксированном хе! гиперпло- гиперплоскость {(u, v, z): u е= Bm9 v € Eh z = f (x) + uTg (x) + v'h (x)} ограничивает функцию 8 сверху. Основная задача на k-й итерации эквивалентна следующей: максимизировать 0(u, v) при условии где ft(u>v) Заметим, что 0 — кусочно-линейная функция, аппроксимирую- аппроксимирующая функцию 0 при помощи (k—1) ограничивающих гипер- гиперплоскостей. Пусть (Zk, m, Vft) — оптимальное решение основной задачи. При решении подзадачи получим 0 (u*, v^) и х*. Если Zk > > 0 (u*, Vk), то новое ограничение z < f(xk) + u?g (xfe) + v?h (x^) вводится в основную задачу, определяя новую более точную кусочно-линейную аппроксимацию функции 0. Так как 0 (u^, vfe) = — f (xk) + ulS (xk) + YV^ (xk)> то гиперплоскость {(г, u, v): z = f(xk) + nTg{xk) + vTh(xk)} является касательной к графику функции 0 в точке (г^, щ, v^).
6.4. РЕШЕНИЕ ДВОЙСТВЕННОЙ ПО ЛАГРАНЖУ ЗАДАЧИ 219 Теперь приведем пример, иллюстрирующий применение ме- метода секущих плоскостей и его интерпретацию как метода тан- тангенциальной аппроксимации. 6.4.4. ПРИМЕР. Минимизировать (х{ — 2J + -гх\ при условиях хх — -g- х2 —- 1 ^0, 2х{ + Зх2 = 4. Положим X = {(хи х2): 2xi + 3x2==4}, так что двойствен- двойственная функция Лагранжа имеет вид -1х2- l): 2^ + 3^- F.23) Будем решать двойственную задачу методом секущих плоско- плоскостей, взяв в качестве начальной точки допустимое решение хо=(х, тг) • На шаге 1 первой итерации решаем следующую задачу: максимизировать z при условиях z <;-?- — -ju, Точка (гь и{) = Г у, 0J является оптимальным решением этой задачи. На шаге 2 решаем задачу F.23) при и = щ = 0. Получаем оптимальное решение xi=B, ОO. При этом Q(u\) = = 0 < Z\. Следовательно, необходима по крайней мере еще одна итерация. Результаты оказавшихся необходимыми четы- четырех итераций приведены в табл. 6.1. Таблица 6.1 Результаты вычислений для примера 6.4.4 к 1 2 3 4 Добавляемое ограничение Шаг 1 (**, ик) A,0) (U) (ii) (й,?) Шаг 2 B,0) 0 (?,*) й (Тб, l) t28 /55 3 \ 51 \32> Ш 512
220 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Рис. 6.8. Тангенциальная аппроксимация функции 0. Аппроксимирующая функция 0, получившаяся в конце чет- четвертой итерации, изображена жирной линией на рис. 6.8. Легко проверить, что двойственная функция Лагранжа имеет вид 9 (и) = — у и2 + и. Гиперплоскости, добавленные после второй итерации, действительно являются касательными к графику функции 0 в точках (zk, ик). В данном случае двойственная функция достигает максимума при й ==-?-, при этом &(п) = -щ. Заметим, что последовательность {Uk} сходится к оптимальной точке u = -jr. 6.5. Решение прямой задачи До сих пор были изучены различные свойства двойственной функции и описаны некоторые процедуры решения двойствен- двойственной задачи. Однако основной нашей целью является нахожде- нахождение оптимального решения прямой задачи. В этом параграфе будут установлены некоторые теоремы, помогающие при нахождении решения как прямой, так и воз- возмущенной прямой задачи, которая будет определена ниже. Однако для невыпуклых задач в силу возможного разрыва двойственности обычно необходимы дополнительные усилия для нахождения оптимального решения прямой задачи.
6.5. РЕШЕНИЕ ПРЯМОЙ ЗАДАЧИ 221 Решение возмущенных прямых задач В процессе решения двойственной задачи при вычислении функ- функции 6 в точке (u, v) приходится решать следующую задачу: минимизировать f (х) + urg (х) + vrh (x) при условии х е Л'. Доказанная ниже теорема 6.5.1 показывает, что оптималь- оптимальное решение х этой задачи является также оптимальным реше- решением прямой задачи, в которой некоторые ограничения подверг- подвергнуты возмущению. 6.5.1. ТЕОРЕМА. Пусть задан вектор (u, v), где и ^ 0. Рас- Рассмотрим задачу минимизации функции /(x) + urg(x) + vrh(x) при х <= X. Пусть х — оптимальное решение этой задачи. Тогда х — оптимальное решение следующей задачи: минимизировать f (x) при условиях gi (х) ^ gt (х), / е /, hi(x) = hi(x), /= 1, ...,/, XGl Здесь / = {i: ш > 0}. Доказательство. Пусть вектор xgX такой, что А,-(х)== й* (х) при / = 1, ..., /, и ^(х)< gi(x) при i е/. Очевидно, что / (х) + u*g (x) + vHi (x) > f (x) + u^g (x) + v^h (x). F.24) Поскольку h(x)=h(х) и urg (х) = 2 utgi (х)< 2 Uigi (x)==urg(x), из F.24) следует, что / (X) + U^g (X) > f (X) + U^g (X) > f (i) + U^g (X). Отсюда f(x)>/(x). ¦ СЛЕДСТВИЕ. Пусть выполняются предположения теоремы и g(x)^0, h(x) = 0, u7g(x) = 0. Тогда x — оптимальное реше- решение следующей задачи: минимизировать f (x) при условиях gt(х) <0, /е /, Л,(х) = 0, /=1, ...I, В частности, х — оптимальное решение исходной прямой за- Лачи, a (u, v)—оптимальное решение двойственной задачи.
222 ГЛ 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Доказательство. Заметим, что из равенства urg(x) = 0 сле- следует, что g,(x) = 0 при /е/, и тогда в силу теоремы х — реше- решение сформулированной задачи. Так как допустимая область прямой задачи содержится в области определения рассматри- рассматриваемой здесь задачи и х— допустимое решение прямой задачи, то х — оптимальное решение прямой задачи. Кроме того, /(х) = = /(х) + urg(x) + vrh(x) = 9(u, v), так что (и, v)— оптималь- оптимальное решение двойственной задачи. В Из последней теоремы следует, что по мере того, как в заданной точке (u, v) вычисляется двойственная функция 6, определя- ляется точка х, являющаяся оптимальным решением задачи, тесно связанной с исходной, т. е. задачи, в которой ограничения h(x) = 0 и gi(x)^ 0 при i = 1, ..., m заменены на h(x) = h(x) HftW<fi(x),ie/. Предположим, что в ходе решения двойственной задачи для данного вектора (u, v), такого, что и ^ 0, имеется xg!(u, v). Кроме того, предположим, что для некоторого е > О выполня- выполняются неравенства | gi (х) | sg: e при f е /, gi (x) ^ е, 1ф1, и |А/(х)|<;е, /=1, ..., /. Если е — достаточно малое число, то х — почти допустимая точка. Предположим теперь, что х — оп- оптимальное решение прямой задачи Р. Тогда по определению функции в (u, v) ив силу того, что hi (х) = 0, gi (х) ^ 0, щ ^ О, имеем < / (x) + I uigl (x) + E vth, (x) < f (x). is/ i=-l Из последнего неравенства следует, что Таким образом, если е — достаточно малое число, так что до- достаточно мало е I ? ut + Yj I vt | I, то получим так называемое почти оптимальное решение. Во многих практических задачах такое решение оказывается приемлемым. Следующая теорема 6.5.2 показывает, что, если нет разрыва двойственности, то условие дополняющей нежесткости является необходимым для оптимальности. 6.5.2. ТЕОРЕМА. Предположим, что х и (u, v) — оптималь- оптимальные решения соответственно прямой и двойственной задач и
6.5. РЕШЕНИЕ ПРЯМОЙ ЗАДАЧИ 223 дх) = 6(й, v). Тогда urg(x) = 0, х^Х(п, v), т. е. х —решение задачи минимизации /(х) + urg(х) + vrh(х) при хе! Доказательство. Из определения 0(u, v) имеем f (х) + urg (x) + vTi(x) > inf {/ (х) + пте (х) + vTh (x): x е J} = = 6(S, v) = /(x). F.25) Отсюда urg(x) +vrh(x)^ 0, и так как h(x) = 0, то п^(х)^О. Поскольку п^О, a g(x)^0, имеем urg(x)^O. Следовательно, Qrg(x) = 0. Тогда из F.25) следует, что xsl(u,v). ¦ Можно также отметить, что если нет разрыва двойственно- двойственности, то, как следует из теоремы, среди точек множества Х(и, v), где (u, v)—решение двойственной задачи, найдется оптималь- оптимальное решение прямой задачи. Построение допустимых решений прямой задачи в выпуклом случае При некоторых предположениях о выпуклости на каждой ите- итерации алгоритма решения двойственной задачи можно получать допустимые точки прямой задачи. Достигается это с помощью некоторой задачи линейного программирования. Пусть задана некоторая допустимая для исходной задачи точка х0, и пусть построены точки X/Gl(u/, v/) при /= 1, ..., k. Предположим, что эти точки получены в процессе максимизации двойственной функции Лагранжа с помощью одного из обсуждавшихся в § 6.4 методов. В теореме 6.5.3 будет показано, что допустимые решения прямой задачи можно получить, решая следующую за- задачу линейного программирования Рг: Задача Р': k минимизировать ? Kjf (xf) «о при условиях X! k*g (ху) /-о Я,>0, / = 0,1, ...,?. 6.5.3. ТЕОРЕМА. Пусть Я— непустое выпуклое множество в ?„, /: Еп-+Е\ и g: En-+Em — выпуклые функции, h: En-+Ei —
224 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ аффинная функция, т. е. h(x)=Ax — b. Пусть х0 — некоторое начальное допустимое решение задачи Р, a x/gI(u/, v/) при /= 1, ..., k получены при помощи любого алгоритма решения двойственной задачи. Обозначим через А,/, / = О, ..., k, опти- мальное решение задачи Р', и пусть xk + ? %}xt. Тогда xk — допустимое решение задачи Р. Кроме того, если г* — 0 (u, v) ^ e k для некоторого (и, v), и ^ 0, то f(xk)^.y + s, где zk = ? ^//(х/)> Y = inf{/(x):xe=X, g(x)<0, h(x)==0}. Доказательство. Так как X — выпуклое множество и Xj^X при всех /, то Xk ^ X. Учитывая ограничения задачи Р' и то, что функция g выпуклая, a h аффинная, получаем g(x^)^0 и Ь(ха>) = 0, т. e. xk — допустимое решение прямой задачи. Пред- Предположим теперь, что Zk — 8 (u, v)^e при некотором (u, v), где Из выпуклости f и теоремы 6.2.1 следует, что Eo^(X/)== Таким образом, на каждой итерации метода решения двой- двойственной задачи, решая задачу линейного программирования Р', можно получить допустимую точку прямой задачи. Даже если значения целевой функции прямой задачи {f(xk)} образуют не обязательно убывающую последовательность, она все же ограничена сверху невозрастающей последовательностью {zk}. Заметим, что если Zk достаточно близки к вычисленным в допустимой для двойственной задачи точке (u, v), и ^0, зна- значениям целевой функции, то х* — почти оптимальное допусти- допустимое решение прямой задачи. Заметим также, что если исполь- используется метод секущих плоскостей, то решать задачу Р' не нужно, так как она совпадает с двойственной к основной за- задаче, решаемой на шаге 1. Оптимальные переменные Хо, ..., %k могут быть восстановлены по решению основной задачи, и х* k k полагается равным X Я/Х/. Стоит также упомянуть, что крите- критерий окончания процесса в алгоритме секущих плоскостей Zk = = 0(u^, \k) можно интерпретировать как получение (u, v) = = (и*, V*) и е = 0 в последней теореме. Чтобы проиллюстрировать последнюю процедуру, рассмо- рассмотрим пример 6.4.4. В конце первой итерации имеются точки хо= f-J-, -gj и Xj =B, 0)г. Соответствующая допустимая точ-
6.6. ЗАДАЧИ ЛИНЕЙНОГО И КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 228 ка xi прямой задачи может быть получена при решении следую- следующей задачи линейного программирования: минимизировать -g- л0 при условиях — -g- Яо + _ о - з Оптимальное решение этой задачи A0 = -g- и A,i = -g-. Оно по- порождает допустимое решение прямой задачи — Ю • 10 Как уже указывалось ранее, эта задача линейного програм- программирования не^ обязательно должна решаться специально для нахождения Яо, Яь так как двойственная к ней уже была ре- решена в ходе применения алгоритма. 6.6. Задачи линейного и квадратичного программирования В этом параграфе обсуждаются частные случаи двойственности по Лагранжу. В частности, кратко рассматривается двойствен- двойственность в линейном и квадратичном программировании. Линейное программирование Рассмотрим следующую задачу линейного программирования: минимизировать сгх при условиях Ах = Ь, Обозначим X = {х: х ^ 0}. Тогда двойственная по Лагранжу задача заключается в максимизации 8(v), где 6 (v) = inf {crx + vT (b - Ах): х > 0} = = vTb + inf {(cr — vrA) x: x > 0}. Очевидно, что если (сг — vrA) 8 M. Базара, К. Шетти 9(v) = f V ' ( —оо в противном случае.
226 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Следовательно, двойственная задача может быть сформулиро- сформулирована в виде максимизировать vrb при условиях Arv < с. Таким образом, в линейном программировании двойственная задача не включает в себя переменных прямой задачи. Более того, двойственная задача также является задачей линейного программирования. Легко проверить, что двойственная к двойст- двойственной задаче совпадает с исходной прямой задачей. В теореме 6.6.1 устанавливаются связи между прямой и двойственной за- задачами. 6.6.1. ТЕОРЕМА. Рассмотрим сформулированные выше пря- прямую и двойственную задачи линейного программирования. Мо- Может встретиться одна из следующих взаимно исключающих друг друга ситуаций: 1. Прямая задача имеет допустимые решения, и ее целевая функция неограниченна в допустимой области. В этом случае множество допустимых решений двойственной задачи пусто. 2. Двойственная задача имеет допустимые решения, и ее це- целевая функция неограниченна в допустимой области. В этом случае множество допустимых решений прямой задачи пусто. 3. Обе задачи имеют допустимые решения. В этом случае обе задачи имеют оптимальные решения х и v соответственно, при этом crx = vrb, (сг — vrA)x = 0. 4. Допустимые области обеих задач пусты. Доказательство. Пусть векторы х и v таковы, что Ах = Ь, х^Ои Arv <; с. Тогда v7b = vrAx ^ crx. Поэтому inf {crx: Ax = b, x > 0} > sup {vrb: Arv < с}. F.26) Если значения целевой функции прямой задачи неограни- неограниченны, то из F.26) следует, что двойственная к ней задача не имеет допустимых решений. Точно так же из F.26) следует, что если значение целевой функции двойственной задачи не- неограниченно, то допустимая область прямой задачи пуста. Пусть теперь обе задачи имеют допустимые решения. Снова исполь- используя F.26), получаем, что значение inf {crx: Ax = b, х ^ 0} ко- конечно и, следовательно, прямая задача должна иметь решение. Обозначим его через х. Из условий Куна — Таккера следует су- существование такого вектора v e Em, что F.27) (c-vrA)x = 0. F.28)
6.6. ЗАДАЧИ ЛИНЕЙНОГО И КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 227 В силу F.27) вектор v — допустимое решение двойственной задачи, а из F.28) имеем с7х = vrAx = vn>. Тогда из F.26) следует, что v — оптимальное решение двой- двойственной задачи. Последний возможный случай состоит в пу- пустоте допустимых областей обеих задач. Ш Теперь покажем, как можно получить оптимальные двой- двойственные переменные, если прямая задача решается симплекс- симплексным методом. Пусть оптимальное базисное решение хг=(хв, х^), где х# = 0, хв —B~V Матрица А и вектор с соответственно представлены в виде А = [В, N], сг = (с?, с^). Условие Куна — Таккера F.28) можно переписать в виде (сЗз — ^В) хв + (с? — ^N) xn = 0. Так как х#=0, то это условие выполнится, если с? — vrB = 0 или . F.29) Условие F.27) можно переписать в виде ев — vrB !> 0 и с# — v N^0. Если v =с5В~, то первое неравенство выпол- выполняется, а второе принимает вид и совпадает с условием оптимальности для симплексного ме- метода. Напомним, что на каждой итерации симплексного метода нулевая строка симплекс-таблицы содержит составляющие век- вектора свВ^А — сг. Предположим, что матрица А включает в себя единичную подматрицу, и пусть вектор оценок соответ- соответствующих переменных задается вектором С/. Тогда из F.29) вектор С/ = СвВ" — С/ = vr — cj содержится в нулевой строке преобразованной таблицы над исходной единичной подматри- подматрицей. Складывая с/ и с[ из последней таблицы, получаем опти- оптимальные значения двойственных переменных. Квадратичное программирование Рассмотрим следующую задачу квадратичного программирова- программирования: минимизировать у хГНх + drx при условиях Ах^Ь, где Н — симметрическая положительно определенная матрица, так что целевая функция строго выпукла. Двойственная по
228 **Л. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ Лагранжу задача состоит в максимизации 0(и) при u ^ О, где 6(и) = inf [jхтНк + dTx + пт(Ах-b): xg Ел}. F.30) Заметим, что при фиксированном и функция ух^Нх + d7x + + и7 (Ах — Ь) строго выпукла to достигает минимума в точке, удовлетворяющей равенству d = 0. F.31) Таким образом, двойственная задача может быть переписана в виде максимизировать -^ хГНх + drx + и7* (Ах — Ь) при условиях Нх + Aru = — d, u>0. Получим теперь альтернативную форму двойственной зада- задачи. Так как Н — положительно определенная матрица, то су- существует Н-1 и единственное решение уравнения F.31) опре- определяется следующим образом: Подставляя это выражение для х в F.30), получаем 6 (u) = j urDu + игс - 4 drH-Jd, где D = —AH-]Ar, с ==—b — AH~]d. Двойственная задача тог* да может быть записана следующим образом: максимизировать -^ urDu + urc — -^ drH ^d при условии u^O. Решить двойственную задачу можно относительно легко, ис- используя следующую схему. При заданном и положим V6(u) = = Du + с = g. Определим g по формуле: gii если Ui>0 или 8t>Qt 0, если ut = 0 и gt < 0. Если g = 0, то по теореме 6.4.1 вектор и — оптимальное реше- решение. В противном случае g — допустимое направление спуска. Оптимизируя 0 из точки и вдоль направления g так, чтобы не нарушить неотрицательности, приходим к новой точке. Затем процесс повторяется.
УПРАЖНЕНИЯ 229 Упражнения 6.1. Рассмотрим задачу минимизации Xi при условии, что х\ + х\« 1. Выпишите в явном виде двойственную функцию Лагранжа и проверьте, что она вогнута. Найдите решения прямой и двойственной задач и сравните опти- оптимальные значения их целевых функций. 6.2. Рассмотрим следующую задачу: максимизировать 2х{ + Здг2 + лг3 при условиях xi + х2 — считая, что X > 0}. и *2, х&): Х\ + Хг ^ 4, jci, #a, JCs *и *2, хъ>Ъ. a) Найдите явный вид двойственной функции, {(хи х2, *s) : Xi + x2 — хз < 1, хь х2, *з > 0}. b) Повторите п. „а", положив X = {(хи *2, х&): Х\ 0} с) Заметим, что трудности, появляющиеся при вычислении двойственной функции в заданной точке, зависят от ограничений, включаемых в определе- определение множества X. Предложите некоторые общие соображения, которые могут быть использованы в выделении множества X так, чтобы облегчить решение задачи. 6.3. Рассмотрим задачу минимизации е~х при — х ^ 0. a) Решите эту задачу. b) Полагая X = ?lf найдите в явном виде двойственную функцию и ре- решите двойственную задачу. 6.4. Рассмотрим прямую задачу Р из § 6.1. Введением вектора дополни- дополнительных переменных s эта задача может быть переписана в виде минимизировать / (х) при условиях g (х) + s = 0, h(x) «0, (х, s) & X't где X' *= {(х, s): xsJ(, s > 0}. Сформулируйте задачу, двойственную к ней, и покажите, что она эквивалентна двойственной к задаче Р, рассмотренной в § 6.1. 6.5. В доказательстве леммы 6.2.3 покажите, что Л — выпуклое множество. 6.6 Пусть выполняются предположения теоремы 6.2.5, х — оптимальное решение прямой задачи и функции [и g дифференцируемы в точке х. Пока- Покажите, что существует такой вектор (u, v), что x)^O для любого x<sX, V/(x) + ? Й^(х)+ S^V/i^x) (x- e0 ПРИ *—* т> и>0. Покажите, что эти условия приводят к условиям Куна — Таккера, если X — открытое множество. 6.7. Докажите следующее условие оптимальности седловой точки. Пусть X — непустое выпуклое множество в Еп, функции f: En-+ Ei и g: En -+Ет выпуклые, a h: En-^Ei аффинная. Если х — оптимальное решение задачи
230 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ минимизации f(x) при условиях g(x) < 0, h(x) =0,xs X, то существует век- вектор («о, п, vj # 0, (йо, u) ^ 0, такой, что Ф (w0, u, v, х)< ф (й<ь u, v, х)< ф (й0, и, vT х) для всех и ^ 0, veE/ и хеЯ. Здесь ф(н0, u v, х) =* «of (x) 4-urg(x) + + v7b(x). 6.8. Рассмотрим задачу минимизации f(x) при условиях g(x)< 0, xel Теорема 6.2.4 утверждает, что в оптимальных точках значения целевых функ- функций прямой и двойственной задач совпадают, если предполагается, что X — выпуклое множество, f и g-выпуклые функции и существует такая точка xG^f, что g(x)<0. Предположим, что условие выпуклости функций заме- заменено на требование их непрерывности, а множество X предполагается выпук- выпуклым компактом. Остается ли в силе утверждение теоремы? Докажите или приведите контрпример. 6.9. Рассмотрим следующую задачу: минимизировать — 2дг! + 2дг2 + *з — 3*4 при условиях Xi + *2 + *з + х* < 8, хх — 2*3+ 4*4 < 2, |<6, *1, *2> Х$, *4 ^ 0. Пусть X = {(*i, *2, *3 *4):*i + *2 < 8, *3 + 2*4 < 6, *ь *2, *з, Xi > 0}. a) Найдите в явном виде функцию 9. b) Проверьте, что 9 дифференцируема в точке D, 0), и найдите 7 9D,0). c) Проверьте, что V 9 D, 0) не является допустимым направлением, и най- найдите возможное направление спуска. d) При начальной точке D, 0) найдите максимум 9 на полученном в п. „с" направлении. 6.10. Рассмотрим задачу минимизации х\ + х\ при условиях Xi + Хг — 4 < 0 И *i, Хг > 0. а) Проверьте, что х= B, 2)т — оптимальное решение этой задачи и ) b) Положив X = {(*i, хг): *i > 0, х2 ^ 0}, запишите двойственную за- и2 дачу. Покажите, что двойственная функция 9 (и) = г 4м Проверьте, что в этой задаче нет разрыва двойственности. c) Решите двойственную задачу методом секущих плоскостей, описанным в § 6.4. В качестве начальной точки возьмите х = A, \)т. 6) Покажите, что 9 дифференцируема всюду, и решите двойственную задачу градиентным методом из § 6.4. 6.11. Рассмотрим следующую задачу: минимизировать Х\ + х2 при условиях 2*i + *2 ^ 8, 3*, + 2*2<10, Хи *2>9, *ь *2 — целые числа. Пусть X = {(*i, хг): 3*i + 2*2 < 10, хи *2 ^ 0 и целые}. Дифференцируема ли функция 9 в точк$ и = 2? Если нет, то охарактеризуйте ее направления подъема,
УПРАЖНЕНИЯ 231 6.12. Рассмотрим следующую задачу: минимизировать (х\ — ЗJ + (х2 — 5) 10, при условиях х\ — х2 a) Найдите оптимальное решение геометрически и проверьте оптималь- оптимальность с помощью условий Куна — Таккера. b) Сформулируйте двойственную по Лагранжу задачу при X = = {(хи х2): xi + 2*2 < 10, хи х2 ^ 0}. c) Выполните три итерации градиентного метода, описанного в § 6.4, для решения задачи максимизации, начиная из точки (wi, иг) =s @, 0). Опишите возмущенные задачи оптимизации, соответствующие построенным недопусти- недопустимым точкам прямой задачи. 6.13. Для задачи и упр. 6.12 проделайте три итерации метода секущих плоскостей и сравните результаты с результатами, полученными при исполь- использовании градиентного метода. Укажите полученные в этом алгоритме допу- допустимые решения прямой задачи. 6.14. Рассмотрим следующую задачу: максимизировать 3*i + 6*2 + 2#3 + 4дг4 ПрИ УСЛОВИЯХ Х\ + Х2+ #3 + *4<12, ~ *i+ х2 x2 х2 a) Сформулируйте двойственную задачу, положив X — {(#i, x2, x$t xfi: Xi + Х2 < 12, х% < 4, Хг + Хь < 6, xit x2, xs, xk > 0}. b) Взяв в качестве начальной точку @, 0), решите двойственную задачу с помощью метода наискорейшего подъема, описанного в § 6.4. c) Зная оптимальное решение двойственной задачи, найдите решение прямой. 6.15. Рассмотрим задачу минимизации х при условии, что g(x) <0 и х е X — {х: х ^ 0}. Выпишите в явном виде двойственную функцию и ука- укажите совокупность всех субградиентов в точке и = 0 для каждого из сле- следующих случаев: Г — — при х Ф О, ( О при х = О, ¦1:1 ¦И а) , —- при х Ф О, ь)*(х>. ; при х =0, Г — при х Ф 0, с) *(*)-{ х ^ I при # в 0.
232 ГЛ 6 ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ 6.16. Предположим, что 6: Ет-+Е\ — вогнутая функция. a) Покажите, что 0 достигает максимума в точке и тогда и только тогда, когда __ max {8' (u; d): ||d||<l} = 0. b) Покажите, что 9 достигает максимума на области U = {и: и ^ 0} в точке и тогда и только тогда, когда max{0'(U d): de=D, ||d||<l} = 0, где D — конус возможных направлений множества U в точке и. Заметим, что эти результаты могут использоваться в качестве критерия остановки в задаче максимизации двойственной функции. 6.17. Рассмотрим следующую задачу: минимизировать f (x) при условиях Ах = Ь, XGl Здесь X — компактное многогранное множество, /—вогнутая функция. a) Постройте двойственную по Лагранжу задачу. b) Покажите, что двойственная функция вогнута и кусочно-линейна. c) Охарактеризуйте субградиенты, направления подъема и направление наискорейшего подъема для двойственной функции. d) Обобщите результат п. „Ь" на случай, когда X не является компактом. 6.18. Постройте численный пример задачи, для которой субградиент двой- двойственной функции не является направлением подъема. Возможно ли, чтобы множество субградиентов и конус направлений подъема не пересекались? Указание: рассмотрите субградиент с минимальной нормой. 6.19. В § 6.3 было показано, что минимальный по норме субградиент % функции Э в точке и задает направление наискорейшего подъема. Предла- Предлагается следующее видоизменение для обеспечения допустимости: » 6й если "t^0' \h если iii>Q. Является ли f направлением подъема? Определяет ли этот вектор при допол- дополнительном требовании неотрицательности направление наискорейшего подъ- подъема? Докажите или приведите контрпример. 6.20. Рассмотрим следующую задачу: минимизировать сгх при условиях Ах = Ь, где X — компактное многогранное множество. Пусть для заданного v точки Xi, ..., Xk являются экстремальными точками множества X, принадлежащими Х(\). Покажите, что экстремальные точки множества d0(v) содержатся в множестве Л = {Ах,— Ь: / = 1, ..., k). Приведите пример, когда экстре- экстремальные точки множества дд(\) образуют собственное подмножество множе- множества Л. 6.21. Предположим, что минимальный по норме субградиент | функции 0 в точке (u, v) не равен нулю. Покажите, что если существует е > 0, такое, что II % — Ъ II < е, то % — направление подъема для функции 0 в точке (u, v). Из предыдущего упражнения следует, что если для нахождения % исполь- используется итеративная процедура, то после достаточно большого числа итераций будет найдено направление подъема.
УПРАЖНЕНИЯ 233 6.22.__Рассмотрим прямую и двойственную задачи, исследованные в § 6.1. Пусть (u, v)—оптимальное решение двойственной задачи. Зададим (u, v) и положим xeXju, v). Покажите, что существует такое б > 0, что || (u, v) — (и, v)— X[g(x), h(x)]|| — невозрастающая функция от К на отрезке [О, б]. Проинтерпретируйте геометрически этот результат и проиллюстрируйте на примере следующей задачи, для которой (ui, м2) = C, 1) — двойственные переменные, соответствующие первым двум ограничениям-неравенствам: минимизировать — 2*1 — 2х2 — 5л:з при условиях хх + х2 + ^з^Ю, х{+ 2*з 3*6, Хь Х2, х\9 х2, 6.23. Из упр. 6.22 следует, что малое перемещение в направлении любого субградиента приближает к решению двойственной задачи. Пусть прямая за- задача заключается в минимизации f(x) при условиях h(x)= 0, хе! Рассмо- Рассмотрим следующий алгоритм максимизации двойственной функции. Основной этап. При заданном v* выбрать x*eX(v*). Положить =Vk + kh(xk) для малого К > 0. Присвоить k значение HI и повторить основной этап. a) Рассмотрите возможные способы выбора величины шага X. Видите ли вы преимущества в уменьшении величины шага от итерации к итерации? Если „да", то предложите схему, как это делать. b) Обязательно ли возрастает двойственная функция от итерации к ите- итерации? Обоснуйте ответ. c) Придумайте подходящий критерий остановки алгоритма. d) Примените этот алгоритм для решения следующей задачи: минимизировать х\-{- х\ + 2х3 при условиях Х\ + х2 + Хг = 6, — *\ + х2 + *3 = 4, взяв в качестве начальной точки" v = A, 2)г. Описанную процедуру обычно называют методом субградиентной опти- оптимизации. 6.24. Рассмотрим задачу минимизации /(х) при условиях g(x)^0, хе! a) В упр. 6.23 приводился метод субградиентной оптимизации для задачи с ограничениями-равенствами. Модифицируйте алгоритм так, чтобы его мож- можно было применить для решения задачи с ограничениями-неравенствами. Указание: пусть при фиксированном и точка х принадлежит Х(и). Для всех i, для которых щ = 0, замените gi(x) на max[0, g'(x)]. b) проиллюстрируйте процедуру из п. „а" на примере решения задачи из упр. 6.14, взяв в качестве начальной точку и = @, 0)г, c) Постройте метод субградиентной оптимизации для решения задачи со смешанными ограничениями. 6.25. Рассмотрим задачу о размещении складов. Пусть заданы k пунктов потребления и известен спрос dj, / = 1, ..., k, на некоторый продукт в каждом из этих пунктов. Предположим также, что заданы m возможных участков для строительства складов. Если для строительства выбран i-й уча- участок, то мощность склада равна Ьи а затраты на его строительство gi. За- Затраты на перевозку единицы продукта со склада на /-м участке в /-и пункт потребления равны сц. Требуется определить, сколько складов нужно
234 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ построить и где, а также какие использовать схемы перевозок, чтобы удовле- удовлетворить спрос и при этом минимизировать суммарные затраты. Математиче- Математически эта задача может быть сформулирована следующим образом: минимизировать при условиях т k m 2 2 счхч + 2 ? m Xij^zO, / = 1, .. у,е{0, 1}, /-: uyi ..., А;, 1, ... i tn. Здесь xt/ — количество продукта, перевозимого со склада на /-м участке /-му потребителю, а ^=1, если принято решение о строительстве склада на i-u участке, и yi = 0 в противном случае. a) Сформулируйте соответствующую двойственную задачу. b) Основываясь на результатах этой главы, постройте специальную схему для решения двойственной задачи. c) Рассмотрите небольшой численный пример. 6.26. Компания хочет запланировать темп производства некоторого вида продукции на плановый период [О, Т] таким образом, чтобы минимизировать суммарные затраты на его выпуск и хранение запасов. При этом должен быть удовлетворен известный спрос на продукцию, темп производства должен падать на заданном интервале [/, и], запасы не должны превышать d, ав конце планового периода они должны быть не меньше Ь. Эта задача может быть формализована следующим образом: г минимизировать \ [схх (t) + c2y2 (t)] dt о t при условиях х (t) = xQ + \ [у (т) — z (т)] dx при t е [О, Г], о О < х @ < d при * е= (О, Г), при *е@, Г). Здесь: х (t) — запасы продукции в момент времени /; y(t) —темп производства в момент времени /; х0 — известные начальные запасы; z(t) —известный темп роста спроса на продукцию в момент времени t\ сь с2 — заданные коэффициенты. a) Сформулируйте дискретный аналог этой задачи управления и выпи- выпишите для нее двойственную задачу. • b) Постройте схемы решения прямой и двойственной задач. c) Примените полученный алгоритм для решения задачи при следующих значениях исходных данных: Т =*= б, Хо = О, Ь ¦** 4, С\ *= 1, с2 **= 2, / » 2, м = 5, d = 6, 2@ = 4 при / & [0, 4] и г(/) * 3 при / & [4, 6].
УПРАЖНЕНИЯ 235 6.27. Рассмотрим прямую и двойственную задачи линейного программи- программирования. Покажите непосредственно, что: a) если прямая задача не имеет допустимых решений, а двойственная имеет, то целевая функция двойственной задачи неограниченна в допустимой области; b) если двойственная задача не имеет допустимых решений, а прямая имеет, то целевая функция прямой задачи неограниченна в допустимой об- области. Указание: используйте теорему Фаркаша. 6.28. Рассмотрим следующую задачу: минимизировать -— хх — 2х2 —• *з ПРИ УСЛОВИЯХ Х\ + Х2 + #3 ^ 16, Xi — х2 + 3*з < 12, Х\+ х2 < Решите прямую задачу симплекс-методом. На каждой итерации найдите двойственные переменные из симплексной таблицы. Покажите, что эти двой- двойственные переменные удовлетворяют условиям дополняющей нежесткости, но при этом нарушаются двойственные ограничения. Проверьте, что в конце вы- вычислений получаются допустимые двойственные решения. 6.29. Рассмотрим задачу минимизации сгх при условиях Ах = Ь, х ^ 0. Запишите двойственную задачу. Покажите, что задача двойственная к двой- ственой эквивалентна прямой. 6.30. Рассмотрим следующую задачу квадратичного программирования: минимизировать 2х\ + х\ — 2х{х2 — 4*j — 6#2 при условиях Х\ + х2 ^ 8, - хх + 2*2 < 10, Решите двойственную задачу методом, изложенным в § 6.6. На каждой ите- итерации определите соответствующие недопустимые и допустимые точки прямой задачи. Введите меру допустимости и проверьте ее действие. Можно ли сде- сделать какие-либо общие выводы? 6.31, Рассмотрим задачи: min max <р (х, у) и max min <p (x, у), х&Х уеУ уеУ х<гХ где X и У — непустые компактные выпуклые множества в Еп и Ет соответ- соответственно, функция ф выпукла по х при заданном у и вогнута по у при задан- заданном х. а) Покажите, что неравенство min max qp (х, у) > max min <p (x, у хеЯ уе=У уеК хе-ЛГ выполняется без требования выпуклости. b) Покажите, что max ср (•, у) — выпуклая функция от х, a min q> (x, •) — yeY хеЯ вогнутая функция от у. c) Покажите, что min max ср (х, у)=» max min qp(x, у). х€=Х уеУ уеУ хеХ Указание: используйте результат п. „Ь" и необходимые условия опти- оптимальности, полученные в § 3.4.
236 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ 6.32. Пусть X и У — непустые множества в ?я, f, g: Еп -* ?i. Рассмотрим сопряженные функции /¦ и g*, определенные следующим образом: /• (u) = inf {/ (х) - итх: х <== X), g* (и) = sup {g (х) - игх: х е У}. a) Проинтерпретируйте /* и g* геометрически. b) Покажите, что функция f* вогнута на X*, a g* выпукла на У*, где X* = {и: /*(и) > -оо}, У* = {и: g*(u) < оо}. c) Докажите следующую слабую сопряженную теорему двойственности: d) Предположим теперь, что функция f выпукла, a g вогнута, int X Л Г) int У ф 0 и inf{/(x) — ^(х): х е X Г) У} > —оо. Покажите, что в этом случае неравенство из п. „с" обращается в равенство и sup{/*(u) —g*(u): ueX*f| У*} достигается. e) При подходящем выборе функций fug, множеств X и У сформули- сформулируем следующую задачу нелинейного программирования: минимизировать f (х) — g (x) при условии х Как сформулировать сопряженную двойственную задачу? Приведите не- некоторые стратегии ее решения. 6.33. Рассмотрим следующую задачу с одним ограничением: минимизировать f (x) при условиях g (х) < О, Х€=Х, где X — компакт. Двойственная по Лагранжу задача состоит в максимизации 6(м) при и > 0, где 9(w]h= mi[f(\)+ug(x): xsfl. a) Пусть й^О и хеХ(й). Покажите, что если g(x)>0, то п > й, если g(x)<0, то п < й, где п — оптимальное решение двойственной задачи. b) Используя результат п. „а", найдите отрезок [а, 6], содержащий все оптимальные решения двойственной задачи, или покажите, что целевая функ- функция неограниченна. c) Рассмотрим теперь задачу максимизации 9(«) при а ^ и ^ 6. Для ее решения воспользуемся следующей схемой. Пусть п = (а + Ь)/2 и хе^(м). Если g(x)>0, то заменим а на п и повторим процесс. Если #(х)<0, то заменим Ь на м и повторим процесс. Если g(x) = 0, то прекратим процесс, взяв п в качестве оптимального реше- решения двойственной задачи. Покажите, что приведенная процедура сходится к оптимальному решению. Проиллюстрируйте это на решении задачи, двойственной к следующей* минимизировать х\ + х\ при условии — Х\ — #2 + 1 ^ 0. d) Альтернативный подход к решению задачи максимизации 9(«) при а ^ и ^ Ь состоит в применении метода тангенциальной аппроксимации, опи- описанного в § 6.4. Покажите, что на каждой итерации необходимо рассматри- рассматривать только две опорные гиперплоскости и что алгоритм может быть описан следующим образом
КОММЕНТАРИИ 237 Пусть Ха^Х(а), xb<=X(b), и = (/(хя) — f(xb))/(g(xb) — g(xa)). Если и в а или й — Ь, то остановить процесс; й—оптимальное решение двой- двойственной задачи. В противном случае рассмотреть некоторую точку_х е Х(п). Если g(x) > 0» ™ заменить а на й и повторить процесс. Если g(x) < 0, то заменить b на и и повторить процесс. Если g(x) = 0, то остановить процесс; и —- оптимальное решение двойственной задачи. Покажите, что эта процедура сходится к оптимальному решению, и ре- решите этим методом задачу из п. „с". Комментарии Сильные результаты, связанные с двойственностью в линейном програм- программировании и критериями седловой точки в выпуклом программировании, вы- вызвали большой интерес к анализу двойственности в нелинейном программи- программировании. Ранние результаты в этой области включены в работы Dorn [1960], Hanson [1961], Mangasarian [1962], Stoer [1963] и Wolfe [1961]. Позднее были получены различные формулировки двойственных задач, при которых сохраняются многие свойства двойственности линейного програм- программирования. Это, например, двойственные по Лагранжу, сопряженные двой- двойственные и замещающие двойственные задачи. В этой главе довольно подроб- подробно исследовалась двойственность по Лагранжу, так как, по нашему мнению, это наиболее многообещающая с вычислительной точки зрения формулировка. Кроме того, здесь же дается некоторое представление о той полезной инфор- информации, которую можно получить Т1ри анализе других формулировок двой- двойственности. Тем читателям, которые интересуются изучением сопряженной двойственности, можно рекомендовать работы Fenchel [1949], Rockafellar [1964, 1966, 1968, 1969, 1970], Whinston [1967]. Замещающая двойственность, при которой ограничения задачи группируются в одно с помощью множите- множителей Лагранжа, описана в Greenberg and Pierskalla [1970b]. Разные авторы вводили различные формулировки двойственности, при которых сохраняется симметрия между прямой и двойственной задачами. К этому классу принад- принадлежат работы Dantzig, Eisenberg and Cottle [1965], Mangasarian and Pon- stein [1965] и Stoer [1963]. В работах Geoffrion [1971b] и Karamardian [1967] можно найти пре- прекрасную библиографию по различным постановкам двойственности и их взаи- взаимосвязи. Для дальнейшего изучения двойственности полезны монографии Everett [1963], Falk [1967, 1969], Lasdon [1968]. Связь между двойствен- двойственностью по Лагранжу и другими формулировками двойственности исследуется также в работах Bazaraa, Goode and Shetty [1971], Magnanti [1974], Whin- Whinston [1967]. Экономическая интерпретация двойственности дана у Balinski and Baumol [1968], Beckman and Kapur [1972], Peterson [1970] и Williams [1970]. В § 6.1 и 6.2 ставится двойственная задача и исследуются некоторые ее свойства. Как следствие из основной теоремы двойственности получены кри- критерии оптимальности седловой точки для задач выпуклого программирования. Впервые эти критерии были установлены Куном и Таккером (Kuhn and Tucker [1951)]. Родственную формулировку минимаксной двойственности можно найти в книгах Mangasarian and Ponstein [1965], Ponstein [1965], Rockafellar [1968], Stoer [1963]. В § 6.3 исследуются свойства двойственной функции Лагранжа. Охарак- Охарактеризована совокупность субградиентов в произвольной заданной точке. Эти характеристики использованы для определения направлений подъема и наи- наискорейшего подъема. Показано, что направление наискорейшего подъема за- задается вектором минимального по норме субградиента. Этот результат полу- получен Демьяновым (Demyanov [1968]). В § 6.4 полученные свойства двойствен- двойственной функции были использованы при построении различных схем для
238 ГЛ. 6. ФУНКЦИЯ ЛАГРАНЖА И ДВОЙСТВЕННОСТЬ нахождения ее максимума. В частности, описаны градиентный метод и метод декомпозиции для получения направлений подъема. Для дальнейшего изуче- изучения этой тематики рекомендуем работы Demyanov [1968, 1971], Fisher, North- rup and Shapiro [1975] и Lasdon [1970]. Существуют и другие процедуры ре- решения двойственной задачи. Так, метод секущей плоскости, обсуждаемый в § 6.4, — процедура построения очередного ограничения. В двойственной форме он в точности совпадает с обобщенным методом Вулфа, описанным в работе Dantzig [1963]. Другая процедура — метод субградиентной оптимизации, кратко описанный в упр. 6.22, 6.23 и 6.24. Подробнее об этом методе можно прочитать в работах Held, Wolfe and Crowder [1974] и Поляка [1967]. Кроме того, к этой тематике относятся работы Bazaraa and Goode [1977], Fisher, Northrup and Shapiro [1975], Held and Karp [1970]. Одной из первых работ, использующих двойственность по Лагранжу для получения вычислительных схем, являются исследования Эверетта (Everett [1963]). При некоторых условиях в его работе показано, как можно восста- восстановить решение прямой задачи. Этот результат и его обобщения приведены в § 6.5.
Часть 3 Алгоритмы и сходимость алгоритмов Понятие алгоритма В дальнейшем будут описаны алгоритмы для решения различ- различных классов задач нелинейного программирования. В этой главе вводится понятие алгоритма, который рассматривается как точечно-множественное отображение. Доказательство ос- основной теоремы о сходимости алгоритмов базируется на поня- понятии замкнутого отображения. В последующих главах эта тео- теорема применяется для исследования сходимости некоторых вы- вычислительных схем. План главы § 7.1. Алгоритмы и алгоритмические отображения. В этом параграфе алгоритмы определяются как точечно-множествен- точечно-множественные отображения, а также вводится понятие множества ре- решений. § 7.2. Замкнутые отображения и сходимость. Вводится по- понятие замкнутого отображения, а затем доказывается основная теорема о сходимости. § 7.3. Сложные отображения. Исследуется замкнутость от- отдельных отображений и устанавливается замкнутость их компо- композиции. Обсуждаются алгоритмы, отвечающие сложным отобра- отображениям, и приводятся условия их сходимости. § 7.4. Сравнение алгоритмов. Обсуждаются некоторые прак- практические критерии для оценки эффективности различных алго- алгоритмов,
240 ГЛ. 7. ПОНЯТИЕ АЛГОРИТМА 7.1. Алгоритмы и алгоритмические отображения Рассмотрим задачу минимизации Дх) при условии xeS, где f — целевая функция, a S — допустимая область. Процедуру решения, или алгоритм для нахождения решения этой задачи, можно представить в виде итеративного процесса, который по- порождает последовательность точек в соответствии с предписан- предписанным набором правил, включающим критерий окончания. Алгоритмическое отображение Возьмем вектор Xk и применим к нему правила алгоритма. В ре- результате получим новую точку Xk+\. Этот процесс может быть описан в терминах некоторого алгоритмического отображения А. В общем случае такое отображение является точечно-множест- точечно-множественным и ставит в соответствие каждой точке из области X подмножество множества X. Таким образом, при заданной на- начальной точке Xi алгоритмическое отображение генерирует по- последовательность Xi, x2, ..., где x^GA(Xfe) для всех к. Пре- Преобразование Xk в Xfc+i посредством отображения представляет собой итерацию алгоритма. 7.1.1. ПРИМЕР. Рассмотрим следующую задачу: минимизировать х2 при условии х^1. Оптимальное решение этой задачи х=1. Пусть задано точечно- точечное алгоритмическое отображение А (х) = -^{х + 1)« Не- Нетрудно убедиться, что при любой начальной точке последова- последовательность, порожденная отображением А, сходится к оптималь- оптимальному решению х=1. Например, при х\ = 4 алгоритм генери- генерирует последовательно 4, 2.5, 1.75, 1.375, 1.1875, ..., как это показано на рис. 7.1, а. В качестве другого примера рассмотрим точечно-множест- точечно-множественное отображение [l, у(*+1)]. если А(х) = [|(*+1), 1J, если х<1. Как видно из рис. 7.1,6, образом любой точки х является замкнутый отрезок и любая точка этого отрезка может быть вы- выбрана в качестве преемника х. При произвольной начальной точке х\ алгоритм сходится к х=1. При Х\ = 4, например, в качестве одной из возможных последовательностей, порождае-
7.1. АЛГОРИТМЫ И АЛГОРИТМИЧЕСКИЕ ОТОБРАЖЕНИЯ 241 ХМ А(х) xk (а) (Ь) Рис. 7.1. Примеры алгоритмических отображений. мых алгоритмом, можно выбрать {4, 2, 1.2, 1.1, 1.02, ...}. Ре- Результатом применения алгоритмического отображения может быть и другая последовательность, отличная от указанной. Множество решений и сходимость алгоритмов Рассмотрим следующую задачу нелинейного программирования: минимизировать f(x) при условии xeS. Наиболее предпочтительным свойством алгоритма для реше- решения приведенной выше задачи является сходимость генерируе- генерируемой им последовательности к глобальному оптимальному ре- решению. Однако в большинстве случаев приходится довольство- довольствоваться менее благоприятными результатами. В практических ситуациях невыпуклость функций, большая размерность задачи или другие трудности вынуждают останавливать итеративную процедуру, если получена точка, принадлежащая некоторому множеству, которое мы будем называть множеством решений Q. Рассмотрим несколько типичных множеств решений упомяну- упомянутой выше задачи. 1. Q={x: х является точкой локального оптимума задачи}. 2. Й={х: xeS, f(x)<6}, где b — некоторое приемлемое значение целевой функции. 3. Q = {х: х е= 5, f(x) < LB + е}, где е > 2 — допустимая погрешность, a LB — нижняя грань значений целевой функции на S. _____ 4. Й={х: xe=S, f(x) — /(x)<e}, где /(?) —глобальный минимум, а е > 0 —погрешность. 5. Q = {х: х удовлетворяет условиям оптимальности Куна — Таккера}.
242 ГЛ. 7. ПОНЯТИЕ АЛГОРИТМА 6. Q = {х: х удовлетворяет условиям оптимальности Фрица Джона}. Таким образом, в общем случае алгоритмы приводят скорее к множеству решений, чем к множеству точек глобального опти- оптимума. В частности, говорят, что алгоритмическое отображение А: Х-+Х сходится на Ус1, если при произвольной начальной точке xi e Y предел любой сходящейся подпоследовательности, генерируемой алгоритмом последовательности хь х2, ..., при- принадлежит множеству решений Q. Выберем в качестве Q мно- множество точек глобального оптимума. Очевидно, что два сфор- сформулированных в примере 7.1.1 алгоритма являются сходящимися на множестве вещественных чисел. 7.2. Замкнутые отображения и сходимость В этом параграфе вводится понятие замкнутого отображения, а затем доказывается теорема о сходимости. Смысл понятия замк- замкнутости будет ясен из приведенного ниже примера и последую- последующего обсуждения. 7.2.1. ПРИМЕР. Рассмотрим следующую задачу: минимизировать х2 при условии х ^ 1. Пусть Я- — множество точек глобального оптимума, т. е. Q = = {1}. Рассмотрим алгоритмическое отображение если л:>2, у(*+ 1), если х<2. Отображение А показано на рис. 7.2. Очевидно, что для произ- произвольной начальной точки х\ ^ 2 любая порождаемая отображе- отображением А последовательность сходится к точке х = 2. Заметим, что х ф. Q. С другой стороны, при х\ < 2 любая последователь- последовательность, генерируемая алгоритмом, сходится к Зс = 1. В этом при- примере алгоритм сходится к точке множества Q в интервале (—оо, 2) и не сходится в интервале [2, оо). Замкнутые отображения Рассмотренный пример показывает, какое значение для сходи- сходимости алгоритма имеет выбор начальной точки х\. Заметим, что каждый из алгоритмов в примерах 7.1.1 и 7.2.1 удовлетворяет следующим условиям;
7,2. ЗАМКНУТЫЕ ОТОБРАЖЕНИЯ И СХОДИМОСТЬ 243 А(х) Рис. 7.2. Пример не всюду сходящегося алгоритмического отображения. 1. При заданной допустимой точке Xk ^ 1 любая порожден- порожденная алгоритмом точка Xk+\ также является допустимой, т. е. Xk+l > 1. 2. Если заданная допустимая точка Xk не принадлежит мно- множеству решений Q, то любая порожденная точка Xk+\ удовле- удовлетворяет неравенству f(xk+\)< /(**)» гДе f(x) = x2. Иными сло- словами, целевая функция монотонно убывает. 3. Если заданная допустимая точка ^gQ, to порожденная точка также принадлежит Q, т. е. Xk+\ = 1. Несмотря на указанное выше сходство, оба алгоритма из примера 7.1.1 сходятся к 1=1, в то время как алгоритм из примера 7.2.1 не сходится к Зс ===== 1 при любой начальной точке х\ ^ 2. Причина этого заключается в том, что алгоритмическое отображение из примера 7.2.1 не является замкнутым в точке х = 2. Ниже дается определение замкнутости отображения, обобщающее понятие непрерывности функции. 7.2.2. ОПРЕДЕЛЕНИЕ. Пусть X и У —непустые замкнутые множества соответственно в Ер и Ея. Говорят, что точечно-мно- точечно-множественное отображение A: X-**Y замкнуто в точке xgX, если из соотношений у* е А (х*), У* -> У следует, что уеЛ(х). Отображение А замкнуто на множестве Z cz X, если оно замкнуто в каждой точке из Z. На рис. 7.2 изображено незамкнутое в точке х = 2 точечно- множественное отображение. В частности, последовательность {xk}t такая, что xk = 2—т-, сходится к х = 2, последователь- последовательность {*/*}, ДЛЯ КОТОрОЙ yk = \(xk)= ^ — -g?-f СХОДИТСЯ К
244 ГЛ. 7t ПОНЯТИЕ АЛГОРИТМА о f/=y, но уфА(х)= {2}. На рис. 7.1 приведены два примера всюду замкнутых алгоритмических отображений. Теорема сходимости Условия, обеспечивающие сходимость алгоритмических отобра- отображений, устанавливаются в сформулированной ниже теореме 7.2.3. Эта теорема будет использоваться в дальнейшем для до- доказательства сходимости некоторых алгоритмов. 7.2.3. ТЕОРЕМА. Пусть X— непустое замкнутое множество в Еп, Q а X — непустое множество решений. Рассмотрим то- точечно-множественное отображение А: Х-+Х. При заданной на- начальной точке xi e X последовательность строится в соответ- соответствии со следующей итеративной процедурой. Если Хй е Я, то процесс останавливается. В противном слу- случае полагается Xft+iGA(x^), k присваивается значение k+l и процедура повторяется. Предположим, что построенная алгоритмом последователь- последовательность хь Х2,* ... содержится в компактном подмножестве множе- множества X, и пусть существует непрерывная функция а, которую назовем функцией спуска, такая, что а(у)< а(х), если x^Q, и уеА(х). Если отображение А замкнуто на дополнении к Q, то либо алгоритм остановится через конечное число шагов в точке из Q, либо он порождает бесконечную последовательность {х*}, такую, что: 1. Любая сходящаяся подпоследовательность последователь- последовательности {х*} имеет предел в Q, т. е. все предельные точки {х*} принадлежат Q. 2. а(х*)-*а(х) для некоторого xeQ, Доказательство. Если на некоторой итерации получена точка Xfc^Q, то алгоритм останавливается. Предположим, что гене- генерируется бесконечная последовательность {xk}. Пусть {хи)ж — некоторая сходящаяся подпоследовательность, имеющая своим пределом точку х^Х. Так как функция а непрерывна, то а (хл)-> ->а(х) для *еЖ Таким образом, для любого заданного е > О найдется номер К е Ж, такой, что a(xk) — а(х)<е при k>К и *еХ В частности, при k = К будем иметь а(х,)-<х(х)<е. G.1) Пусть k > /С. Так как а — функция спуска, то а(х*)< а(х#), а из G.1) следует, что а(х*) — а(х) = а(х*) — а(х*) + а(хк) — — а(х)< 0 + 8 = е. Так как это неравенство справедливо для
7.2. ЗАМКНУТЫЕ ОТОБРАЖЕНИЯ И СХОДИМОСТЬ 245 всех к > К и так как е > 0 было выбрано произвольным, то lima(x*) = a(x). G.2) /г-»оо Покажем теперь, что xeQ, Предположим, что хфQ, и рассмо- рассмотрим последовательность {x*+i}^. Эта последовательность со- содержится в компактном подмножестве множества Х9 и, следова- следовательно, из нее можно выделить подпоследовательность {x*+i}-, сходящуюся к хе! Учитывая G.2), легко показать, что a(x) = a(x). Поскольку А замкнуто и так как х* —>х, x*+i ^ е A(Xk) и x*+i -* х для k е Ж, то х = А(х). Следовательно, a(x)<a(x), что противоречит равенству a(x) = a(x). Таким образом, xeQ и первая часть теоремы доказана. Из первой части и равенства G.2) следует справедливость второй части. ¦ СЛЕДСТВИЕ. В предположениях теоремы если Й состоит из единственной точки {х}, то вся последовательность {х*} схо- сходится к точке х. Доказательство. Предположим, что существуют е > 0 и под- подпоследовательность {xk}%: такие, что ||х*-х||>е для ?<=Ж G.3) Очевидно, что найдется Ж' а Ж, такое, что {xk}^ сходится к х7. Из первой части теоремы 7.2.3 следует, что х'ей, Так как Q={x}, то х' = х. Следовательно, х^-^х для к^.Жг, а это противоречит G.3). ¦ Заметим, что если рассматриваемая точка х* не принадле- принадлежит множеству решений Q, то алгоритм порождает новую точ- точку х*+ь для которой a(Xfc+i) < а(х^). В большинстве случаев в качестве а выбирается целевая функция f, так что алгоритм генерирует последовательность точек с улучшающимися значе- значениями целевой функции. Возможны и другие подходы к выбору функции а. Например, если / дифференцируема, то в случае за- задачи безусловной минимизации можно взять a(x)= ||Vf(x)||. Остановка алгоритма ; Как показано в теореме 7.2.3, алгоритм останавливается, если получена точка из множества решений Q. Однако в большинстве случаев сходимость к точке из Q имеет место лишь в предель- предельном смысле и приходится прибегать к некоторому практически реализуемому правилу для остановки итеративной процедуры. С этой целью часто используются описанные ниже критерии. Пусть е > 0, а N — заранее определенное положительное целое. 1. Цх/h-jv — хл|| < е.
246 ГЛ. 7- ПОНЯТИЕ АЛГОРИТМА В этом случае алгоритм останавливается, если суммарное перемещение после N последовательных применений отображе- отображения А меньше е. 2 < 2- 11**11 <е> В соответствии с этим критерием алгоритм останавливается, если относительное смещение в результате данной итерации меньше е. 3. a(xk) — а(х*-ыу)<е. В этом случае процесс прекращается, если общее убывание значения функции спуска после N последовательных итераций меньше е. 4 Здесь считается, что выполнился критерий остановки, если относительное убывание значения функции спуска на некоторой итерации меньше е. 5. a(xk) — a(x)< e, где xgQ. Этот критерий применим в тех случаях, когда заранее из- известно значение а(х), например если a(x)= ||Vf(x)|| в задаче безусловной минимизации f(x) и Q = {х: Vf (х) = 0}, то а(х) = 0. 7.3. Сложные отображения В большинстве процедур решения задач нелинейного програм- программирования алгоритмические отображения представляют собой композицию нескольких отображений. Например, некоторые алгоритмы сначала определяют направление dU, вдоль которого осуществляется спуск, а затем с помощью решения задачи од- одномерной минимизации функции a(x*-f-A>d*) находят длину шага X*. В этом случае отображение А является композицией отображений М и D, где D определяет направление сЦ, а М — оптимальную длину шага %& Часто бывает нетрудно доказать замкнутость результирую- результирующего отображения, исследуя его отдельные составляющие. В этом параграфе дается строгое определение сложного ото- отображения, а затем устанавливается зависимость замкнутости такого отображения от замкнутости его отдельных компонент. Наконец, обсуждаются алгоритмы, отвечающие сложным ото- отображениям, и устанавливаются условия, при которых они схо- сходятся. 7.3.1. ОПРЕДЕЛЕНИЕ. Пусть X, Y и Z — непустые замкну- замкнутые множества в Еп, Ер и Ея соответственно. Рассмотрим то-
7.3. СЛОЖНЫЕ ОТОБРАЖЕНИЯ 24? Рис. 7.3. Сложные отображения. чечно-множественные отображения В: X-+Y и С: Y-+Z. Слож- Сложным отображением А = СВ называется точечно-множественное отображение A: X->Z, для которого A(x)=U{C(y):ye=B(x)}. На рис. 7.3 иллюстрируется понятие сложного отображения, а теорема 7.3.2 и ее следствия дают некоторые достаточные условия замкнутости сложного отображения. 7.3.2 ТЕОРЕМА. Пусть X, Y и Z — непустые замкнутые мно- множества в Еп, Ер и Ед соответственно. Рассмотрим точечно-мно- точечно-множественные отображения В: X-+Y и С: Y-+Z и соответствую- соответствующее им сложное отображение А = СВ. Пусть В замкнуто в точ- точке х, а С — на множестве В(х). Будем также предполагать, что если Хй->х и уА-еВ(х^), то существует сходящаяся подпосле- подпоследовательность последовательности {у*}. Тогда отображение А замкнуто в точке х. Доказательство. Пусть х*->х, z^eA(x^) и z^-^z. Нужно показать, что xgA(x), По определению А для каждого k су- существует yiGB(xfe), такой, что гйеС(у*:). По условию тео- теоремы существует подпоследовательность {у^}^ сходящаяся к у. Так как В замкнуто в точке х, то уеВ(х). Кроме того, из замкнутости С на В(х) следует, что оно замкнуто и в точке у, а значит, zGC(y), Таким образом, zEC(y)eCB(x)=A(x), т. е. А замкнуто в точке х. ¦ СЛЕДСТВИЕ 1. Пусть Ху Y и Z — непустые замкнутые мно- множества в Еп, Ер и Ея соответственно. Рассмотрим точечно-мно- точечно-множественные отображения В: X-+Y и С: Y-*Z. Предположим, что В замкнуто в точке х, С замкнуто на В(х), a Y — компакт. Тогда А *== СВ замкнуто в х.
248 ГЛ. 7. ПОНЯТИЕ АЛГОРИТМА СЛЕДСТВИЕ 2. Пусть X, Y и Z — непустые замкнутые мно- множества в Еп, Ер и Eq соответственно. Рассмотрим функцию В: X-**Y и точечно-множественное отображение С: Y-+Z. Если В непрерывна в х, а С замкнуто на В(х), то А = СВ замкнуто в х. Обратим внимание на важное предположение теоремы 7.3.2 о существовании сходящейся подпоследовательности {у*} ж. Как будет показано в примере 7.3.3, без этого предположения сложное отображение А = СВ не обязательно будет замкнутым, даже если замкнуты отображения В и С. 7.3.3. ПРИМЕР. Рассмотрим отображения В, С: Е\-+Еи определяемые следующим образом: Т' если ^# О, О, если х = О, Заметим, что В и С всюду замкнуты. Для сложного отображе- отображения А= СВ имеем А(х)= СВ(л:)= {z: |z|<|B(x)|}. Из опре- определения В следует, что 1 | { { {0}, если ? если х = Отображение А не замкнуто в точке х = 0. Действительно, рассмотрим сходящуюся к х = 0 последовательность {хн}, где xk =-г . Для нее A(xk)= {z: \z\ ^ k) и, следовательно, г* = 1 принадлежит h{xk) для всех k. С другой стороны, предельная точка z = 1 не принадлежит А(х)={0}. Таким образом, А(х) не замкнуто, несмотря на то что В и С замкнуты. В этом случае теорема 7.3.2 неприменима, поскольку последовательность у*е для хк=-г не имеет сходящейся подпоследователь- ности. Сходимость алгоритмов, определяемых сложными отображениями На каждой итерации многих алгоритмов нелинейного програм- программирования используются два отображения. Одно из них обычно замкнуто и удовлетворяет необходимым условиям сходимости из теоремы 7.2.3. Второе отображение может включать в себя некоторый процесс до тех пор, пока значение функции спуска не возрастает. Можно показать (см. упр. 7.17), что полное отобра-
7.3. СЛОЖНЫЕ ОТОБРАЖЕНИЯ 249 жение в таких случаях может не быть замкнутым, так что тео- теорема 7.2.3 неприменима. Однако, как это следует из теоремы 7.3.4, такие отображения обеспечивают сходимость. 7.3.4. ТЕОРЕМА. Пусть X — непустое замкнутое множество в ?л, Q - непустое множество решений. Рассмотрим непрерыв- непрерывную функцию а: Еп-+Е\ и точечно-множественное отображение С: Х-+Х, удовлетворяющее следующему требованию*: если хеХ, то а(у)^ а(х) для yG C(x). Пусть точечно-множествен- точечно-множественное отображение В: Х-+Х замкнуто на дополнении к Q и такое, что <х(у)<а(х) для всех уеВ(х), если хфп. Рассмотрим алгоритм, определяемый сложным отображением А = СВ. Возь- Возьмем xigX и построим последовательность {х*} следующим об- образом: Если xk e Q, то процесс останавливается, в противном слу- случае хжсА(хй). - Предположим, что Л= {х: a(x)^a(xi)}—компакт. Тогда либо алгоритм остановится через конечное число шагов в точке из Q, либо все предельные точки последовательности {х*} при- принадлежат Q. Доказательство. Если на некоторой итерации x^gQ, to алго-. ритм останавливается. Предположим, что {х*}—бесконечная последовательность, и пусть {xk}^—ее подпоследовательность, сходящаяся к х. Тогда a(x*)-*a(x) для JgX Как и в тео- теореме 7.2.3, учитывая монотонность а, получаем lima(xft) = a(x). G.4) Требуется показать, что xgQ. Предположим противное, т. е. пусть x^=Q, и рассмотрим последовательность {x^+i}^. По определению сложного отображения А получаем, что Xk+\ e GC(y^), где y*eB(xfc). Заметим также, что у*, xft+i G Л. Так как Л — компакт, то существует множество индексов Ж'си Ж, такое, что у*->у и x^+i-^x' для к^Жг. Отображение В замк- замкнуто вх^й, следовательно, уеВ(х) и a(y)<a(x). Так как х*+1 е С (у*), то по предположению a(x*+i) <; а (у*) для k&W. Переходя к пределу в последнем неравенстве, получаем, что а (х') г^: а (у), и так как a(y)<a(x), то a(x/)<a(x). Посколь- Поскольку a(x*+i)-^a(x') для к^Ж', то неравенство a(x')<a(x) противоречит G.4). Следовательно, xgQ. ¦ Минимизация вдоль независимых направлений Сформулируем теперь теорему, устанавливающую сходимость класса алгоритмов для решения задач следующего вида: миними- минимизировать f(x) при условии хе?„. При слабых предположениях
250 ГЛ. 7. ПОНЯТИЕ АЛГОРИТМА будет показано, что алгоритм, который генерирует п линейно независимых направлений поиска и строит новую точку последо- последовательной минимизацией функции f вдоль этих направлений, сходится к стационарной точке. Теорема также устанавливает сходимость алгоритма, использующего линейно независимые и ортогональные направления поиска. 7.3.5. ТЕОРЕМА. Пусть задана дифференцируемая функция f: En-+E\. Рассмотрим задачу минимизации f(x) при условии, что хе?„, и алгоритм, отображение которого А определено следующим образом. Вектор уеА(х), если он получается по- последовательной минимизацией функции / вдоль направлений di, ..., drt, начиная из точки х. Направления поиска db ..., Ап могут зависеть от х, а норма каждого из них равна 1. Предпо- Предположим, что выполняются следующие условия: 1. Существует е > 0, такое, что det[D(x)]^e для каждого х^Еп. Здесь D(x)—матрица порядка пУ^п, столбцами которой являются построенные алгоритмом направления, a det[D(x)] — определитель D(x). 2. Минимум функции / вдоль любой прямой в Еп единствен. Возьмем начальную точку xi и предположим, что алгоритм строит последовательность {xk} в соответствии со следующим правилом. Если V/(xfe) = 0, то алгоритм останавливается в х*. В противном случае x^+i = А(х*), k полагается равным HI и процедура повторяется. Тогда если последовательность {х*} содержится в компактном множестве пространства Еп, то каж- каждая предельная точка х построенной таким образом последова- последовательности {xk} удовлетворяет равенству V/(x) = 0. Доказательство. Если последовательность {х^} конечна, то утверждение очевидно. Предположим, что алгоритм порождает бесконечную последовательность {х*}. Пусть Ж— бесконечная последовательность положительных целых чисел, и пусть подпоследовательность {xk}x сходится к точке х. Нужно показать, что Vf(x) = 0. Предположим против* ное, т. е. пусть V/(x)=t^0, и рассмотрим подпоследовательность {xk+i}x. По условию теоремы она содержится в компактном мно- множестве пространства Еп и, следовательно, существует Ж'сЖ, такое, что {x^+i}^ сходится в некоторой точке х'. Покажем, что х' может быть получена из х последовательной минимизацией f вдоль каждого из п линейно независимых направлений. Пусть Dk — матрица порядка tiY^n, столбцами которой яв- являются построенные на k-и итерации направления спуска di*, ... ..., dnki т. е. xk+l==xk + Dkkk = xk+ Sd/Ль где Лм —вели- —величина шага вдоль направления d^. В частности, предполагая,
7.3. СЛОЖНЫЕ ОТОБРАЖЕНИЯ 251 что Уьк = хь У/+1.*вУ/* + Л/л<1/ь /=1, ...,я, получаем, что и f (Уж,k)</(У/* + *dM) Для всех 1еВ,,/=1 n, G.5) Поскольку det[D*] > е > 0, то Dk — невырожденная матри- матрица, так что kk — D* (x*+i — x/?). Так как каждый столбец ма- матрицы D* по норме равен единице, то существует Ж" cz Ж', та- такое, что D*->D. Поскольку det[D/e]^e для каждого к, то det[D] ^ е, и значит, матрица D невырожденна. Далее, xa+i-^x', Хк -+ х, Dft -> D для к € Jif7/, так что А* -> ^, где ^ = D-1 (х' — х). Следовательно, х' = x + Dl = x+ ? d/Я/. Пусть yi = x и y/+i = у/ + X/d/ для / = 1, ..., /г, так что х' = у„+1. Чтобы убе- убедится в том, что вектор х7 может быть получен из х последова- последовательной минимизацией / по направлениям di, .-.., drt, доста- достаточно показать, что /(Уу+i)</(У/ + Щ) для всех 1е?,и/=1 л. G.6) Заметим, что Я/*->А,/, d/^->d/, x^->x, x^+i-^-x', если к&Ж" и ^~^оо, так что у/*-*-у/ для /=1, ..., /2+1 при feeJ;/ и ?->оо. Тогда в силу непрерывности / неравенство G.6) следует из G.5). Таким образом, показано, что точка х' получена из х последовательной минимизацией / вдоль направлений d, ..., drt. Очевидно, что f(xx)^f(x). Рассмотрим сначала случай, когда f(x')</(x). Так как последовательность {/(х^)} невозрастаю- щая и /(xfe)->/(x) при JgI и ^->оо, то lim f (xk) = f(x). k k>oo Это невозможно в силу того, что xfe+i->x' при к&Ж', Л->оо, и предположения, что f(x')<f(x). Теперь рассмотрим случай, когда /(x/) = f(x). Так как точка х' получена из х минимиза- минимизацией / вдоль di, ..., dn, то в силу условия 2 теоремы это озна- означает, что х' = х. Отсюда следует, что V/(x)rd/ = 0 для / = 1, ... ..., /г. Так как di, ..., dn линейно независимы, то V/(x) = 0, что противоречит сделанному в начале доказательства теоремы предположению. ¦ Заметим, что предположения замкнутости или непрерывно- непрерывности сделаны по отношению к отображению, порождающему на- направления спуска. Для того чтобы предельные направления спу- спуска были линейно независимы, необходимо, чтобы линейно независимыми и сходящимися были направления, используемые на каждой итерации. Это очевидно, если на каждой итерации используется фиксированное множество линейно независимых направлений. И обратно, если на каждой итерации использу- используются взаимно ортогональные направления поиска, по норме
252 гл- 7- ПОНЯТИЕ АЛГОРИТМА равные единице, то матрица D удовлетворяет равенству DrD = = I. Следовательно, det[D]= 1, так что условие 1 теремы ока- оказывается выполненным. Заметим также, что условие 2 в формулировке теоремы ис- используется для того, чтобы гарантировать следующее свойство. Если минимизация дифференцируемой функции / вдоль п ли- линейно независимых направлений, построенных в точке х, приво- приводит в точку х', то неравенство /(х/)</(х) влечет за собой Vf(x)^=0. Без условия 2 это неверно. Достаточно, например, взять f(xu x2) = x2(l —х\). Если х = @, ОO", то минимизация / из точки х сначала вдоль d{ — A, 0)г, а затем вдоль ch = @,1)г должна привести в точку х' = A, 1)г, где /(х') = /(х) = 0, даже, если V/(x) = @, l)r#@, 0)г. 7.4. Сравнение алгоритмов В дальнейшем будет рассмотрено несколько алгоритмов для ре- решения различных классов задач нелинейного программирования. В этом параграфе обсуждается ряд важных факторов, которые следует учитывать при оценке эффективности алгоритмов и их сравнении. Этими факторами являются A) универсальность, надежность и точность; B) чувствительность к параметрам и исходным данным; C) затраты на предварительную обработку и вычисления; D) сходимость. Универсальность, надежность и точность Сконструированы разнообразные алгоритмы для решения задач нелинейного программирования, таких, как задачи безусловной минимизации, задачи с ограничениями в виде неравенств, за- задачи с ограничениями-равенствами и задачи с ограничениями обоих типов. В пределах каждого из этих классов различные алгоритмы опираются на специальные предположения относи- относительно структуры задачи. Например, для задач безусловной ми- минимизации некоторые процедуры предполагают, что целевая функция дифференцируема, в то время как в других алгоритмах не делается этого предположения, а полагаются главным обра- образом только на вычисления оптимизируемой функции. При реше- решении задач с ограничениями-равенствами некоторые алгоритмы применимы только в случае линейных ограничений, тогда как другие подходят и для задач с нелинейными ограничениями. Таким образом, универсальность алгоритма определяется тем классом задач, для решения которых он предназначен, а также рамками требований, предъявляемых алгоритмом к задачам данного класса.
7.4. СРАВНЕНИЕ АЛГОРИТМОВ 253 Другой важной характеристикой алгоритма является его на- надежность или устойчивость. Для любого заданного алгоритма нетрудно построить тестовую задачу, которую нельзя эффективно решить с его помощью. Поэтому под надежностью здесь пони- понимается способность процедуры решать большинство задач из некоторого класса с разумной точностью. При оценке алгоритма нельзя пренебрегать влиянием размерности и структуры задачи на степень его надежности. Некоторые алгоритмы достаточно эффективны, если число переменных в задаче невелико или ограничения не слишком нелинейны, и оказываются неработо- неработоспособными в других случаях. Согласно теорме 7.2.3, сходимость алгоритмов подразумева- подразумевается в предельном смысле, если она вообще имеет место. Таким образом, появляется необходимость в оценке качества точек, полученных алгоритмом после разумного числа итераций. Пред- Предпочтение отдается тем алгоритмам, которые быстро приводят к допустимым решениям с хорошими значениями целевой функ- функции. Как отмечалось в гл. 6 при рассмотрении двойственности и как будет показано в гл. 9 при обсуждении штрафных функ- функций, некоторые процедуры порождают последовательности не- недопустимых решений, когда допустимость обеспечивается только в конце процесса. От таких процедур естественно потребовать, чтобы на последних итерациях процесса степень недопустимости была невелика. Тогда в случае преждевременной остановки бу- будет получено почти допустимое решение. Чувствительность к параметрам и исходным данным Для работы большинства алгоритмов должны быть заданы на- начальные значения некоторых параметров, таких, как начальная точка, длина шага, ускоряющий множитель и параметры оста- остановки процесса. Некоторые процедуры чувствительны к этим параметрам и к исходным данным задачи и в зависимости от их значений могут приводить к различным результатам или преждевременно останавливаться. Желательно, чтобы при фик- фиксированном наборе выбранных параметров алгоритм мог ре- решать задачу для широкого круга исходных данных. Точно так же при заданном наборе исходных данных предпочтение от- отдается алгоритму, который не очень чувствителен к выбору зна- значений параметров. Затраты на предварительную обработку и вычисления Еще одной важной характеристикой при сравнении алгоритмов являются общие затраты, как вспомогательные, так и вычис- вычислительные, необходимые для решения задачи. Очевидно, что
254 1 л- It ПОНЯТИЕ АЛГОРИТМА затраты на предварительную обработку вводимых данных долж- должны приниматься в рассмотрение при оценке алгоритма. Алго- Алгоритм, который использует в вычислениях первые или вторые производные, особенно если исходные функции сложны, требует значительно больше времени на предварительную обработку, чем алгоритмы, использующие только значения самих функций. Вы- Вычислительные затраты обычно оцениваются машинным време- временем, числом итераций или числом вычислений значений функ- функции. Однако любая из этих оценок сама по себе не является полностью удовлетворительной. Машинное время, необходимое на выполнение алгоритма, зависит не только от его эффектив- эффективности, но и от типа используемой машины, способа измерения времени и эффективности программирования. Точно так же число итераций не может быть использовано как единственная мера эффективности алгоритма, поскольку затраты на одну итерацию могут существенно различаться в различных про- процедурах. Наконец, число вычислений значений функции как оценка вычислительных затрат может ввести в заблуждение, так как не учитывает других операций, таких, как перемноже- перемножение матриц, обращение матриц и нахождение подходящих на- направлений спуска. Кроме того, для методов, зависящих от про- производных, необходимо оценить затраты на их вычисления в сравнении с вычислениями самих функций. Сходимость Теоретическая сходимость к точкам из множества решений — крайне желательное свойство алгоритма. Два заданных конку- конкурирующих сходящихся алгоритма могут быть подвержены тео- теоретическому сравнению на основе порядка, или скорости сходи- сходимости. Это понятие определяется ниже. 7.4.1. ОПРЕДЕЛЕНИЕ. Пусть последовательность {rk} схо- сходится к г. Верхняя грань неотрицательных чисел р, удовлетво- удовлетворяющих условию называется порядком сходимости последовательности {rk}. Если р = 1 и коэффициент сходимости Р < 1, то говорят, что после- последовательность имеет линейную сходимость. Если р > 1 или р= 1, р = 0, то имеет место сверхлинейная сходимость после- последовательности. Если в приведенном выше определении rk представляет со- собой a(Xfe), т. е. значение функции спуска на k-й итерации, то больше число рг тем выше скорость сходимости алгоритма.
УПРАЖНЕНИЯ 255 Если предел в определении 7.4.1 существует, то для больших значений k асимптотически имеем \rk+\ — r\ = $\rk — г\рч что показывает на ускорение сходимости при больших значениях р. При одном и том же р чем меньше коэффициент сходимости р, тем выше скорость сходимости. Необходимо, однако, заметить, что порядок сходимости отражает ход процесса, только когда число итераций приближается к бесконечности. Другим критерием сходимости, часто используемым при срав- сравнении алгоритмов, является их способность эффективно мини- минимизировать квадратичные функции. Это объясняется тем, что вблизи минимума линейная аппроксимация функции, как пра- правило, неудовлетворительно отражает ее поведение, в то время как квадратичная форма может быть достаточно хорошей ап- аппроксимацией. Таким образом, алгоритм, который не дает хоро- хороших результатов при минимизации квадратичной функции, вряд ли может быть с успехом использован в случае общей нелиней- нелинейной функции, когда текущая точка находится вблизи от ми- минимума. Упражнения 7.1. Установите, какие из следующих отображений замкнуты, а какие нет; a) А (*)-{*: *2 + #2<1}; b) А(х) = {у: хгу<1}; c) А(х) = {у: |[у-х||<1}; d)AW [у\ *2 + */2< 1}, если х Ф О, Г [у\ *2 + ([-lf0]f 7.2. Рассмотрим отображение А, где А(х) —неотрицательный квадратный корень из х. Покажите, что алгоритм, определяемый отображением А, схо- сходится к х = 1 при произвольной начальной точке х > 0. Указание: положите а (х) = | х — 11. 7.3. Установите, какие из следующих отображений замкнуты, а какие нет. a) (Уи ^)eA(Xi, х2) означает, что yi = Xt — 1 и у% е [х2— 1, х2 + 1]. b) (уи (/2)eA(Xi, хг) означает, что yi = *i — I, а у2 е[—х2 + 1, х2 + 1], если х2 ^ 0, и уч е[х2 + 1, —#2 + 1], если х2 < 0. c) (Уи Уг)е А(хи х2) означает, что уг=х2у a yi ^[Xi — || х ||, х\ + || х ||]. 7.4. Пусть X и Y — непустые замкнутые множества в Ер и Eq соответ- соответственно. Покажите, что точечно-множественное отображение А: X -»- Y за- замкнуто в том и только том случае, если множество {(х, у): хеХ, уеА(х)} замкнуто. 7.5. Пусть X и Y — непустые замкнутые множества в Ер и Eq соответ- соответственно, А: X ->Т и В: X -*• Y — точечно-множественные отображения. Опре- Определим сумму отображений С = А + В следующим образом: С(х) = = {а + Ь: абА(х), ЬеВ(х)}. Покажите, что если А и В замкнуты, а Y — компакт, то отображение С замкнуто. 7.6. Пусть А: Еп\ Еп"^ Еп — точечно-множественное отображение, опре- определенное следующим образом. При любых заданных х, z s En точка у е е А(х, z), если у =Дх + A —~%)z для некоторого ^е [0, 1] и ||у||<[|Лх + A-Я)г|| для всех Я е= [0, 1].
256 Гл- 7. ПОНЯТИЕ АЛГОРИТМА Покажите, что отображение А замкнуто в каждом из следующих случаев. а) II II —евклидова норма, т. е. ||g|| = ¦(?•0 • b) || || — /,-норма, т. е. ||g||=][] | gt |. c) II II — /оо-норма, т. е. ||g|| = max \gt |. l < i < п 7.7. Пусть А: Еп X ?i -*- Еп — точечно-множественное отображение, опре- определенное следующим образом. При любых хе?я и z e ?t точка ^sA(x, z), если II у — х || < 2 и || у II < w || для каждого w, удовлетворяющего усло- условию II W — X || ^2 Покажите, что отображение А замкнуто для каждого вида нормы, опре- определенного в упр. 7.6. 7.8. Пусть В — матрица порядка mX«, b — т-мерный вектор, А: Еп-^Еп — точечно-множественное отображение, определенное следующим образом. При любом хе?„ точка у принадлежит А(х), если у — оптимальное решение задачи минимизации хтг при условиях Bz == b, z ^ 0. Покажите, что отображение А замкнуто. 7.9. Пусть В — матрица порядка /пХ«, с есть /г-мерный вектор, А: Ет-*Еп — точечно-множественное отображение, определенное следующим образом. При любом хе?т точка у принадлежит А(х), если у является оптимальным решением задачи минимизации crz при условиях Bz = x, z ^ 0. a) Покажите, что отображение А замкнуто в точке х, если множество Z « {z: Bz = x, z ^ 0} — компакт. b) Будет ли А замкнутым отображением, если множество Z не является компактом? 7.10. Пусть заданы с, Aе?П) k e ?i, компактное многогранное множе- множество X с Enji отображение А: ?„ X ?л -*• ?i, определенное следующим обра- образом. Число X принадлежит А (с, d), если X = sup{A,: z(X)^ k), где z(X) = = min{(c + Xd)Tx: хеД Покажите, что отображение А замкнуто в (с, d). 7.11. Пусть /: En-^Ei — непрерывная функция, а / — замкнутый ограни- ограниченный интервал в ?i. Пусть А: Еп X Еп -** Еп — точечно-множественное ото- отображение, определенное следующим образом. При любых х, de En, где d Ф 0, точка уеА(х, d), если у = х + ^d для некоторого ~Х е / и, кроме того, f (у) < f (х + М) для каждого X е /. a) Покажите, что А замкнуто в (х, d). b) Остается ли в силе утверждение, если d = 0? c) Остается ли в силе утверждение, если / не ограничен? 7.12. Пусть X — заданное число, а функция /: Ei-+Ei непрерывно диф- дифференцируема. Пусть A: ?i -> Ei — точечно-множественное отображение, опре- определенное следующим образом: : + *.)< f(x), : + X)>f(x) и f(x~X)<f(x), : + X)>f(x) и f(x-X)^f(x). а) Покажите, что отображение А замкнуто на множестве х + X — X, я, Я, если если если Ъ) Примените алгоритм, определенный отображением А, для минимизации функции f(x) = x2 — 2x, взяв в качестве начальной точки #i = 5.3 и положив X = 1.
Упражнения 25? с) Пусть U = {*: | х - х |< А,), где ^^ = 0. Докажите, что если последовательность точек, генерируемая алгоритмом, при- принадлежит компактному множеству, то она сходится к точке из Q. d) Может ли точка х из п. „с" быть точкой локального максимума или седловой точкой? 7.13. Пусть функция f: ?i->?i непрерывно дифференцируема. Рассмо- Рассмотрим точечно-точечное отображение А: Ex-*-Ei, определенное следующим об- разом: к()§ если a) Покажите, что А замкнуто на множестве Л = {х: f'(x) Ф 0}. b) Пусть7(#)=*2 — 2х — 3. Примените описанный выше алгоритм, взяв в качестве начальной точки Xi = —5. Обратите внимание, что алгоритм схо- сходится к точке х = — 1, в которой /(—1)= 0. о c) Для f(x) = Хг — | хг | и начальной точки Х\ = -=- проверьте, что алгО» ритм не сходится к точке х, в которой f(x)= 0. d) Алгоритм, определяемый замкнутым отображением А, иногда исполь* зуется для нахождения точек, в которых функция f равна нулю. В п. „Ь" алгоритм сходится, в то время как в п. „с" нет. Рассмотрите эту ситуацию в соответствии с теоремой 7.2.3. 7.14. В алгоритмах нелинейного программирования часто встречается опре- определенное ниже отображение линейного поиска М: ЕпХ>Еп->- Еп. Вектор у принадлежит М(х, d), если он является решением следующей задачи: минимизировать / (х + A,d) при условиях х + Хй ^ 0, где /: En-^Ei. Чтобы доказать, что отображение М незамкнуто, нужно ука- указать последовательность {х^, d*}, сходящуюся к (х, d), и последовательность у*еМ(хй, dk), сходящуюся к у, такие, что y0M(x, d). Пусть з.адана точка xi = A, 0)г, Xk+i — точка окружности (х{— 1J+ (х2— IJ = 1 на середине дуги, соединяющей xk и @, 1)г. Вектор d^ = (x*+i —х*)/|| х*+1 —х* [|. Пола- Полагая f(xu х2) = (*i + 2J+ (х2 — 2J, покажите, что a) последовательность {xk} сходится кх= @, 1)г, b) последовательность {d^} сходится к d = @, 1)г, c) последовательность {у*} сходится к у = @, 1)г, d) отображение М незамкнуто в (х, d). 7.15. Пусть f: En-+Ei — дифференцируемая функция. Рассмотрим сле- следующее отображение для определения направления D: Еп -> Еп X Еп% которое задает проекцию антиградиента функиии / на подпространство. При любом х > 0 точка (х, d) принадлежит D(x), если [ i(W еслй Х} > о или если */ = 0, а -Щ^ <0, J J dxf ^ dj = \ dxj ( 0 в остальных случаях Покажите, что D незамкнуто. 9 М Базара, К Шетти
258 ГЛ. 7. ПОНЯТИЕ АЛГОРИТМА Указание: возьмите f(xit дг2) = #i-— x2 и рассмотрите последовательность ( 1 V {xk}, сходящуюся к (О, 1)Г, где х& = I -г-, 1 J . 7.16. Пусть f: En-+Ei — дифференцируемая функция. Рассмотрим слож- сложное отображение А = MD, где D: Еп-+ ЕпХ Еп, а М: ЕпХЕп-+ Еп, опреде- ленное следующим образом. Пусть задан х ^ 0, тогда (х, d)e D(x), если { " если Xj > 0 в остальных или если случаях. Xj = 0 и dxf df(x) дх} { 0 Вектор уеМ(х, d), если у == х + Ы для некоторого 1>0 й, кроме того, % является решением задачи минимизации f(x + Xd) при условии, что х + Ы ^ 0, % > 0. a) Используя условия Куна — Таккера, найдите оптимальное решение следующей задачи: минимизировать х\ + х\ — х{х2 + 2х{ + х2 при условии Хи х2^0. b) Начиная из точки B, 1), решите задачу из п. „а'\ воспользовавшись алгоритмом, определяемым отображением А. Обратите внимание, что алго- алгоритм сходится к оптимальному решению, полученному в п. „а". c) Возьмите в качестве начальной точки вектор @, 0.09, 0) и, используя определенный отображением А алгоритм, решите предложенную Вулфом (Wolfe [1972]) задачу 4/о 2\Ш минимизировать -г- ух у — х^х2 -f- х2у — jc3 при условии хи х2, х3 Обратите внимание, что генерируемая последовательность сходится к точке @, 0, л:з), где хз = 0.3A +0.5V2). Используя условия Куна — Таккера, пока- покажите, что эта точка не является оптимальным решением. Заметьте также, что алгоритм сходится к оптимальному решению п. „Ь", но не п. „с". Это проис- происходит потому, что А не замкнуто, как следует из упр. 7.14 и 7.15. 7.17. Это упражнение показывает, что для сходимости алгоритма отобра- отображение не обязательно должно быть замкнутым. Рассмотрим задачу минимизировать х2 при условии х е Ei И отображения В, С: Ех->Еи где В {х) = -^- для всех х, Jx, если — 1 ^#^1, х + 1, если х < — 1, | х — 1, если х > 1. Пусть множество решений Q = {0} и функция спуска а(х) = х2. а) Покажите, что В и С удовлетворяют всем предположениям теоре- теоремы 7.3.4.
УПРАЖНЕНИЯ 259 b) Преверьте, что сложное отображение А = CD определяется соотно- соотношениями х -^ , если — 2 <; х А(*). X — + 1, если х < — 2, х -х — 1, если х > 2, и незамкнуто. Покажите, что, несмотря на то, что А незамкнуто, алгоритм, определен- определенный этим отображением, сходится к точке х — 0 независимо от начальной точки. 7.18. В теореме 7.3.5. предполагалось, что det[D(x)]>e > 0. Можно ли это предположение заменить следующим? В каждой точке х^, генерируемой алгоритмом, направления поиска idi, ..., d« линейно независимы. 7.19. Пусть X —-замкнутое множество в Еп и функции /: En"^Ei и р: Еп -*• Ещ+1 непрерывны. Покажите, что определенное ниже точечно-множе- точечно-множественное отображение С: Em+i-*-En замкнуто. уеС (w), если у является решением задачи.- минимизировать / (х) + w P (х) при условии xsl, 7.20. В этом упражнении вводится класс методов секущих плоскостей, ко- которые часто используются в нелинейном программировании. Определим, сна- сначала алгоритм, а затем сформулируем предположения, при которых он схо- сходится. Обозначим через ^ совокупность многогранных множеств в Ер, а че- через Q — непустое множество решений в Eq. Общий алгоритм секущих плоскостей Начальный этап. Выбрать непустое многогранное множество Zi с ЕРу по- положить k = 1 и перейти к основному этапу. Основной этап. Шаг 1. Взять Z*, положить w^eBfZft), где В: 9> -*¦ Eq. Если Wk e Q, то остановиться, в противном случае перейти к шагу 2. Шаг 2. Положить VA>eC(w*), где С: Eq-+Er. Пусть a: Er-^Ei и Ь: Ег-*Ер — непрерывные функции. Положить Zn+i = Zk П {х: я(у^) + + b(Vk)Tx ^ 0}, заменить k на k + 1 и вернуться к шагу 1. Сходимость алгоритма секущих плоскостей Алгоритм секущих плоскостей либо остановится через конечное число ша- шагов, либо будет построена бесконечная последовательность {w^}, все точки сгущения которой принадлежат Q, если выполняются следующие условия: 1. {wk} и {vk} содержатся в компактных множествах соответственно из Eq и Ег. 2. Для каждого Z если wgB(Z), to wgZ. 3. С — замкнутое отображение. 4. Если заданы w^Q и Z, где wgB(Z), то из того, что vsC(w), следует, что w ф {х: а(\)+ b(v)rx ^ 0} и Z П {х: fl(v)+ b(v)rx ^ 0} # 0. Докажите эту теорему. 9*
260 ГЛ. 7. ПОНЯТИЕ АЛГОРИТМА Указание: возьмите подпоследовательности {wk}^ и (v*) ус> сходящиеся соответственно к w и v. Во-первых, покажите, что для любого k и всех / ^ k + 1 справедливо неравенство a(\k)-\- b(v*)rw/ ^ 0. Переходя к пре- пределу, покажите, что a (v) + b (v) Tw ^ 0. Из этого неравенства, а также из условий 3 и 4 следует, что weQ, так как в противном случае может быть получено противоречие. 7.21. Рассмотрим двойственный алгоритм секущих плоскостей, описанный в § 6.4, для максимизации двойственной функции. a) Покажите, что двойственный алгоритм секущих плоскостей является специальной формой общего алгоритма, рассмотренного в упр. 7.20. b) Проверьте, что условия 1—4 теоремы о сходимости, сформулирован- сформулированные в упр 7.20, остаются справедливыми, так что двойственный алгоритм секущих плоскостей сходится к оптимальному решению двойственной задачи. Указание: используя упр. 7.19, убедитесь, что отображение С замкнуто. 7.22. В этом упражнении описывается алгоритм секущих плоскостей Кел- ли (Kelley [I960]) для решения задачи следующего вида: 1 ту где gi, i = 1, ..., m, — выпуклые функции. Алгоритм секущих плоскостей Келли Начальный этап. Взять многогранное множество Хи для которого XiZD{x: g/(x)<0, /=1, ..., m]. Взять Zi = Xi f] {x: Ax < b}, положить Ы1 и перейти к основному этапу. Основной этап. Шаг 1. Решить задачу линейного программирования: минимизировать сгх при условиях х е Zk. Пусть х* — оптимальное решение. Если gi(Xk)^0 для всех i, то остановиться; х* — оптимальное решение ис- исходной задачи. В противном случае перейти к шагу 2. Шаг 2. Положить gt(xk)= max gt (xk) и взять минимизировать при условиях Ах< 0, 1 ь, =h n {* Заменить k на ? + 1 и вернуться к шагу 1. Обычно Vg;(x*)#0, так как в противном случае g/M^?/(x*) + + ^g/(x*)r(x—-x*)> 0 для всех х, откуда следует, что условия задачи не- несовместны. а) Примените алгоритм для решения следующей задачи: минимизировать — 3*1 — х2 при условиях ^f -i- Л -f- 1 ^ 0, Х\ ~т" Х2 ^^ «3, хи х2 >0 б) Покажите, что алгоритм -Келли является частным случаем общего алгоритма секущих плоскостей из упр. 7.20. c) Покажите, что приведенный выше алгоритм сходится к оптимальному решению, используя теорему о сходимости из упр. 7.20. d) Рассмотрим задачу минимизации /(х) при условиях ?/(х)^!0, i = 1, ..., m, и Ах ^ b. Покажите, как можно переформулировать задачу с тем, чтобы к ней был применим описанный выше алгоритм Келли. Указание: рассмотрите дополнительное ограничение /(х) — г ^ 0.
КОММЕНТАРИИ 261 7.23. В этом упражнении описывается метод опорной гиперплоскости Вейнотта (Veinott [1967]) для решения задачи минимизировать с^х при условиях g( (х) ^ О, / = 1, ..., пг, Ах<Ь, где функции gi для всех / псевдовыпуклы и g/(x)< 0 для t = 1, ..., пг в некоторой точке х е Еп. Алгоритм опорной гиперплоскости Вейнотта Начальный этап. Взять многогранное множество Хи для которого Xi zd {x: gi(x) ^ О, / = 1, ..., пг}. Положить Zi = Xi Г) {x: Ax ^ b}, k = 1 и перейти к основному этапу. Основной этап. Шаг 1. Решить, задачу линейного программирования: ми- минимизировать сгх при условии х е Zk. Пусть xk — оптимальное решение. Если gi(Xk)^0 для всех /, то остановиться; Xk— оптимальное решение исходной задачи. В противном случае перейти к шагу 2. Шаг 2. Взять точку Xk на отрезке, соединяющем х* и х, и лежащую на границе области {х: gi(x) ^0, i = 1, ..., пг}. Пусть g/(xk) = 0. Положить Zk+1 = Zk П Iх : V8t (H)T (* - *k) < 0}. Заменить k на k + 1 и перейти к шагу 1. Заметим, что Vg/(x*)= 0, так как в противном случае из псевдовыпукло- псевдовыпуклости g{ и равенства gj{xk) = 0 следует, что gj(x) ^ 0 для всех х, что проти- противоречит неравенству gj(x) < 0. a) Примените этот алгоритм для решения задачи, сформулированной в п. „а" упр. 7.22. b) Покажите, что алгоритм Вейнотта является частным случаем общего алгоритма секущих плоскостей из упр. 7.20. c) Покажите, что алгоритм сходится к оптимальному решению, ис- используя теорему о сходимости из упр. 7.20. Заметим, что описанный выше алгоритм применим и в случае выпуклой целевой функции, если переформулировать задачу, как в п. „d" упр. 7.22. Комментарии Понятие замкнутых отображений связано с понятиями полунепрерывности отображений сверху и снизу. Для изучения этой тематики можно рекомендо- рекомендовать книги Berge [1963], Hausdorff [1962] и Meyer [1970, 1976]. В книге Hogan [1973d] дается достаточно полное описание свойств точечно-множе- точечно-множественных отображений с точки зрения математического программирования. Используя понятие замкнутого отображения, Зангвилл (Zangwill [1969]) предложил общий подход к доказательству сходимости алгоритмов нелиней- нелинейного программирования. Им предложена теорема 7.2.3, которая используется в этой книге для доказательства сходимости многих алгоритмов. В работах Polak [1970, 1971] доказаны некоторые теоремы сходимости, близкие к тео- теореме 7.2.3. Основная теорема Полака применима к большему числу алгорит- алгоритмов, так как в ней требуются более слабые предположения. Используя поня- понятие слабого замкнутого отображения, сходимость некоторых общих алгорит- алгоритмов нелинейного программирования установил также Хуард (Huard [1975]). В теоремах Полака и Зангвилла доказывается, что все предельные точки ге- генерируемой алгоритмом последовательности принадлежат множеству решений.
262 ГЛ. 7. ПОНЯТИЕ АЛГОРИТМА Однако сходимость полной последовательности в общем случае не гаранти- гарантируется. При более сильном предположении замкнутости алгоритмического отобра- отображения всюду Мейер (Meyer [1976]) с использованием теорем о неподвижной точке доказал сходимость всей последовательности к неподвижной точке. По- Полезность этого результата, однако, до некоторой степени ограниченна, по- поскольку многие алгоритмические отображения незамкнуты в оптимальных точках. Чтобы применить теорему 7.2.3 для доказательства сходимости некото- некоторого алгоритма, нужно показать замкнутость полного отображения. Для этого можно воспользоваться теоремой 7.3.2, в которой алгоритмическое отображе- отображение рассматривается как композиция отображений. Если полное отображение может оказаться незамкнутым, то к доказательству сходимости алгоритма необходим иной подход. В теоремах 7x3.4 и 7.3.5 устанавливается сходимость для двух классов таких алгоритмов. К 1ервому классу относятся алгоритмы, отображения котор„ых представимы в виде композиции двух отображений. При этом одно из них удовлетворяет условиям теоремы 7.2.3. В алгоритмах вторило класса поиск осуществляется вдоль линейно независимых направ- направлений. В § 7.4 обсуждается вопрос о скорости сходимости. Параметры р и р в определении 7.4.1 соответствуют порядку и коэффициенту сходимости к оп- оптимальному решению вблизи точки минимума. Важным является понятие сверхлинейной сходимости. Установлению скорости сходимости различных ал- алгоритмов нелинейного программирования посвящено большое количество ис- исследований. Помимо книги Leunberger [1973a] этот вопрос обсуждается во многих работах, приведенных в библиографии к гл. 8. Существует целый класс методов для решения задач нелинейного про- программирования, использующих секущие плоскости. Такая процедура описана, например, в § 6.4. В работе Zangwill [1969] представлена единообразная постановка алгоритмов секущих плоскостей. Общая теорема, устанавливаю- устанавливающая сходимость таких алгоритмов, сформулирована в упр. 7.20. В упр. 7.21, 7.22 и 7.23 приводится описание и обсуждается сходимость двойственного ме тода секущих плоскостей, алгоритма Келли (Kelley [I960]) и алгоритма опорной гиперплоскости Вейнотта (Veinott [1967]),
8 Безусловная оптимизация Задача безусловной оптимизации состоит в нахождении мини- минимума или максимума функции в отсутствие каких-либо ограни- ограничений. В этой главе обсуждается минимизация функций как одной переменной, так и нескольких. Несмотря на то что боль- большинство практических задач оптимизации содержит ограниче- ограничения, изучение методов безусловной оптимизации важно с не- нескольких точек зрения. Многие алгоритмы решения задачи с ограничениями предполагают сведение ее к последовательно- последовательности задач безусловной оптимизации с помощью множителей Лагранжа, как это показано в гл. 6, или с помощью штрафных и барьерных функций, как это будет более подробно обсуж- обсуждаться в гл. 9. Другой класс методов основан на поиске подхо- подходящего направления и последующей минимизации вдоль этого направления. Линейный поиск по направлению эквивалентен минимизации функции одной переменной без ограничений или с простыми ограничениями, такими, как двусторонние ограни- ограничения на переменную. Наконец, обоснование методов безуслов- безусловной оптимизации может быть естественным образом распростра- распространено на обоснование процедур решения задач с ограничениями. План главы § 8.1. Линейный поиск без использования производных. Об- Обсуждаются некоторые процедуры минимизации строго квази- квазивыпуклых функций одной переменной, не требующие вычисле- вычисления производной. Рассматриваются равномерный поиск, дихото- дихотомический поиск, метод золотого сечения и метод Фибоначчи. § 8.2. Линейный поиск с использованием производной. Де- Делаются соответствующие предположения и обсуждаются метод деления пополам и метод Ньютона. § 8.3. Замкнутость алгоритмических отображений линейного поиска. Показывается, что алгоритмическое отображение линей- линейного поиска замкнуто, т. е. обладает свойством, которое яв- является существенным при анализе сходимости. Читатели, не интересующиеся анализом сходимости, могут пропустить этот параграф.
264 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ § 8.4. Многомерный поиск без использования производных. Обсуждаются циклический покоординатный спуск, метод Хука и Дживса и метод Розенброка. Устанавливается сходимость этих методов. § 8.5. Многомерный поиск, использующий производные. Рас- Рассматривается метод наискорейшего спуска и метод Ньютона. Показывается их сходимость. § 8.6. Методы, использующие сопряженные направления. Вводится важное понятие сопряженности. Показано, что ме- методы, использующие сопряженные направления, сходятся за ко- конечное число шагов, если целевая функция задачи квадратична. Рассматриваются метод Дэвидона — Флетчера — Пауэлла, ме- метод сопряженных градиентов Флетчера и Ривса, метод Зангвил- ла и устанавливается их сходимость. 8.1. Линейный поиск без использования производных Одномерный поиск является основой многих алгоритмов для решения задач нелинейного программирования. Обычно алго- алгоритмы нелинейного программирования представляют собой сле- следующую процедуру. Задается точка х*, определяется вектор направления cU и подходящая длина шага %ь, после чего вы- вычисляется новая точка x&+i = Xa-f^dU. .Затем этот процесс повторяется. Определение длины шага Я* достигается решением задачи минимизации функции f(Xk + kdk), зависящей от пере- переменной %. Это — задача одномерного поиска. Минимизация мо- может проводиться при всех вещественных значениях К, неотри- неотрицательных X или таких Я, при которых точка Xk + Ык до- допустима. Рассмотрим задачу минимизации функции 0, зависящей от одной переменной %. Один из подходов к минимизации G заклю- заключается в том, чтобы взять производную 0', приравнять ее нулю и решить полученное уравнение относительно %. Заметим, од- однако, что 0 обычно определена неявно в терминах функции / нескольких переменных. В частности, при заданных векторах х и d имеем 9(^) = /(x + Xd). Если f недифференцируема, то и 0 недифференцируема. Если / дифференцируема, то 0/(Х) = = drV/(x + ^d). Следовательно, чтобы найти Я, для которого 9'(А,)=0, нужно решить уравнение drV/(x + Xd) = O, которое обычно нелинейно по X. Более того, значение Я, удовлетворяю- удовлетворяющее уравнению 6'(Х) = 0, не обязательно доставляет минимум функции 0(Я). Это может быть локальный минимум, локальный максимум или седловая точка. В связи с этим, кроме некоторых специальных случаев, обычно избегают минимизации 0 посред-
8.1. ЛИНЕЙНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 265 ством приравнивания нулю ее производной. Вместо этого при- бегают к некоторым численным процедурам для минимизации функции 9. В этом параграфе обсуждаются некоторые методы, не ис- использующие вычисления производных для минимизации функ- функции 0 одной переменной на замкнутом ограниченном интервале. Эти методы подпадают под категории методов одновременного (параллельного) и последовательного линейного поиска. В пер- первом случае исходные данные для всех вычислений известны a priori, в то время как в последовательном поиске значение функции на предыдущей итерации используется для определен ния последующих значений. Интервал неопределенности Рассмотрим задачу одномерной минимизации функции 9(Х) при условии а ^ % ^ Ь. Так как точный локальный минимум 9 на [а, Ь] неизвестен, то этот интервал называется интервалом неопределенности. Если в процессе поиска можно исключить из этого интервала какие-нибудь его части как не содержащие ми- минимума, то интервал неопределенности сокращается. Вообще [а, Ь] называется интервалом неопределенности, если точка минимума А, принадлежит [а, Ь], хотя ее точное значение неиз- неизвестно. В теореме 8.1.1 показывается, что если функция 9 строго квазивыпукла, то интервал неопределенности может быть со- сокращен с помощью вычисления значений функции 9 в двух точ- точках, принадлежащих интервалу. 8.1.1. ТЕОРЕМА. Пусть 9: Е\-*Е\ строго квазивыпукла в интервале [а, 6]. Пусть %> \л^[а, Ь], такие, что К < \х. Если 9(Я)>9([л), то 9(z)>e(|x) для всех zsB[a,V). Если 9(Х)< < 9(ц)> то 9(г)$* 9(Х) для всех z<=(jx, Ь\. Доказательство. Пусть 9(Я)>9(|ы) и ге[аД). Предполо- Предположим, что утверждение теоремы неверно, т. е. пусть 9(,г)< 9(ц). Так как точка X может быть представлена в виде выпуклой ком- комбинации точек z и fx, 9 — строго квазивыпукла, то 9(X)<max{9(z), Это противоречит предположению о том, что 9 (X) > 9 (ji). Сле- Следовательно, 9(г)^ 0 (fjt). Аналогично доказывается вторая часть теоремы. ¦ Как следует из теоремы, при условии строгой квазивыпукло- квазивыпуклости 9 из 9(А,)>9((ы) вытекает, что новым интервалом неопреде- неопределенности является [А,, Ь]. С другой стороны, если 9(X)^9()
266 ГЛ. 8- БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ ал /i ^ >. Новый интервал Новый интервал Рис. 8.1. Сокращение интервала неопределенности. я, \-8 л х •Рис. 8.2. Равномерный поиск то новым интервалом неопределенности будет [а, ц,]. Эти два случая проиллюстрированы на рис. 8.1. В литературе по нелинейному программированию часто ис- используется понятие унимодальности функции 0. В этой книге используется эквивалентное понятие строгой квазивыпуклости. В упр. 8.4 дано определение унимодальной функции и установ- установлена эквивалентность этого понятия понятию строгой квази- квазивыпуклости. Теперь рассмотрим несколько процедур минимизации строго квазивыпуклой функции на замкнутом ограниченном интервале посредством итеративного сокращения интервала неопределен- неопределенности. Пример одновременного поиска. Равномерный поиск Равномерный поиск является примером одновременного поиска, когда точки, в которых вычисляются значения функции, выби- выбираются заранее. Интервал неопределенности [аи Ь\] делится на подынтервалы сеткой из точек a\-\-kb для k=l, ..., п, где bi = ai+(n+lN, как показано на рис. 8.2. Функция 9 вы- вычисляется в каждой из п точек сетки. Пусть X — точка сетки с наименьшим значением 8. Если функция 0 строго квазивьшукла, то точка ее минимума принадлежит интервалу [I — б, Я+ 6].
8.1. ЛИНЕЙНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 267 Выбор величины ячейки сетки б После п вычислений функции интервал неопределенности сокращен до длины 26. Так как п = \(Ь\ — #i)/6]—1, то для дальнейшего сокращения интервала неопределенности необхо- необходимо увеличить число вычислений функции. Часто используемый метод сокращения вычислительной погрешности заключается в использовании в начале процедуры сетки с крупной ячейкой и в переходе затем к сетке с малым размером ячейки. Последовательный поиск Очевидно, что можно предложить более эффективную процеду- процедуру, которая использует информацию, полученную на предыду- предыдущих итерациях, для определения места последующих измерений. Рассмотрим следующие процедуры последовательного поиска: дихотомический поиск, метод золотого сечения и метод Фи- Фибоначчи. Дихотомический поиск Рассмотрим функцию 0: Е\-+Е\, которую требуется минимизи- минимизировать на интервале [аи Ь\\. Предположим, что 8 строго квази- выпукла. Очевидно, что наименьшее число вычислений значений функции, которые необходимы для сокращения интервала не- неопределенности, равно двум. На рис. 8.3 локализованы две точки Х\ и \х\. На рис. 8.3, a Q(%\) <. Q(\i\) для 0 = 0i, и, следо- следовательно, по теореме 8.1.1 новым интервалом неопределенности является [аи |uli]. Однако для 9 = 02 замечаем, что 0(Xi)> >0(^ii), и, следовательно, по теореме 8.1.1 новым интервалом неопределенности является [Х\, Ь\]. Таким образом, в зависи- зависимости от функции 0 длина нового интервала неопределенности равна juti — а\ или Ь\ — Х\. Заметим, что a priori не известно, будет ли в (Xi) <C в (juti) или 0(A,i)< O(pnI). Поэтому оптимальная стратегия выбора точек ii и fjii заключается в стремлении оградить себя от наи- наихудшего результата, т. е. минимизировать максимум из \i\ — а\ и Ь\ — Яь Это может быть достигнуто выбором в качестве %\ и M-i середины интервала [аи Ь\\. Однако в этом случае будем иметь только одну точку и не сможем сократить далее интер- интервал неопределенности. Поэтому, как показано на рис. 8.3, Ь, к\ и [i\ выбраны симметрично на расстоянии е > 0 от середины ин- интервала каждая. Здесь число е > О настолько мало, чтобы длина *) Если выполняется равенство 9(X-i)== 9(|Jti), то интервал неопределен- неопределенности можно сократить до [А*, |А±]. Следует, однако, заметить, что точное равенство крайне маловероятно в практической ситуации.
268 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ *i Я1 Возможные интервалы Возможные неопределенности "^ ^" интервалы неопределенности (а) . (Ь) Рис. 8.3. Возможные интервалы неопределенности. нового интервала неопределенности е + Fi — п\)/2 являлась достаточно близкой к теоретически оптимальному значению (f?1_ai)/2, и в то же время такое, чтобы значения функции в(К\) и О(рц) были различимы. В дихотомическом поиске место каждого из первых двух наблюдений, К\ и ць выбирается симметрично на расстоянии е от середины (Ь\— п\)/2. В зависимости от значений функции 0 в точках К\ и jii определяется новый интервал неопределенности. Затем процесс повторяется. Алгоритм дихотомического поиска Ниже приводится алгоритм дихотомического метода для ми- минимизации строго квазивыпуклой функции на интервале [а\9 Ь\\. Начальный этап. Выбрать константу различимости 2е > О и допустимую конечную длину интервала неопределенности / > 0. Пусть [п\9 Ь\] — начальный интервал неопределенности. Положить fc= 1 и перейти к основному этапу. Основной этап. Шаг 1. Если bk-+ak<U то остановиться; точка минимума принадлежит интервалу [a/г, bk]. В противном случае вычислить и перейти к шагу 2. Шаг 2. Если в(Я*)< 8(^), положить ak+\ = ak и bk+\ = №• В противном случае положить a*+i = X* и bk+\ = bk. Заменить k на А+ 1 и перейти к шагу 1.
Й.1. ЛИНЕЙНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 269 Заметим, что длина интервала неопределенности в начале (? _|_ 1)-й итерации равна (bk+i — ак+1) = —? F," Эта формула может быть использована для определения числа итераций, необходимых для достижения желаемой точности. Так как каждая итерация требует двух измерений, то эта фор- формула может быть также использована для определения числа вычислений функции 0. Метод золотого сечения Сравнение различных процедур линейного поиска естественно производить в соответствии со следующим коэффициентом сжатия: длина интервала неопределенности после у выполненных наблюдений длина интервала неопределенности до выполнения наблюдений Очевидно, что более эффективные схемы соответствуют мень- меньшим значениям коэффициента сжатия. В дихотомическом поиске значение этого коэффициента приблизительно равно @.5)v/2. Теперь опишем более эффективный метод золотого се- сечения, для которого значение коэффициента сжатия равно (O.eie)^1. Метод может быть использован для минимизации строго квазивыпуклых функций. Пусть на k-ft итерации метода золотого сечения интервал не- неопределенности равен [uk, Ъь\. По теореме 8.1.1 новый интер- интервал неопределенности [ak+\, bk+\] равен [kk, bk], если Q(kk)> >9(м-/г), и [ak, \xk], если 8(^)<0(Aл). Точки %k и \ik выби- выбираются, исходя из следующих условий: 1. Длина нового интервала неопределенности bk+\ — ak+\ не зависит от результата на k-и итерации, т. е. от того, выпол- выполняется ли неравенство 8(^)>0([х^) или 0(|Ый)^0(^). Кроме того, должно выполняться равенство bk — ^k = \^k — dk- Таким образом, если Я* = а*+ 0-*)(**-«*), (8Л) где ае@, 1), то для \ik должно быть И* = в*+ <*(**-а*), так что bk+i — ak+i = a (bk — ak). 2. Для новой итерации %k+i и \ik+\ выбираются так, что либо +i совпадает с |ы^, либо jju+i совпадает в Я&. Если этого
270 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ 1: ^ Хк§+) jIK+J Случай 2: дк+, хк+| рк+, 2>к+1 Рис. 8.4. Правило золотого сечения. добиться, то на (k + 1)-й итерации потребуется только одно но- новое вычисление функции. Чтобы показать это, рассмотрим рис. 8.4 и следующие два случая. Случай 1. Q(Xk)> Э({Лй). В этом случае ak+\ — Xk и bk+\ = bk. Воспользуемся (8.1) с заменой k на & + 1. При kk+i = (х* имеем \xk = ЯН1 = a*+i + A - а) Fл+1 — ak±{) = Я* + A — «) (ft* - Лл). Подставляя выражение для Я* и jut* из (8.1) и (8.2) в это равен- равенство, получим, что а2 + а — 1 =0. Случай 2, 0(ta)^ 0(ци). В этом случае a*+i = ak и bk+\ = |иц. Воспользуемся (8.2) с заменой & на &+ 1. При |лл+1 = имеем ak + a (fift — ak). Подставляя (8.1) и (8.2) в это равенство, получаем a2 + a— 1== = 0. Корнями уравнения а2 + а—1=0 являются а ^ 0.618 и а?*—1.618. Так как а должно быть из интервала @,1), то а ?ё 0.618. Таким образом, если на k-ft итерации \xk и %к выбра- выбраны в соответствии с (8.1) и (8.2), где а ?ё 0.618, то длина интер- интервала неопределенности сжимается с коэффициентом 0.618. На первой итерации необходимы два вычисления функции в точках %\ и (ii, но на каждой последующей требуется только одно вы- вычисление, так как либо А&+1 = !^> либо ^+1 = А*. Алгоритм метода золотого сечения Ниже приводится алгоритм метода золотого сечения для ми- минимизации строго квазивыпуклой функции на интервале [ab b\]. Начальный этап. Выбрать допустимую конечную длину ин- интервала неопределенности / > 0. Пусть [аи Ь\] — начальный ин- интервал неопределенности. Положить Я,1 = а\ +A —а) (Ь\ — а\) и in = ai + a(b\ — ai), где а а; 0.618. Вычислить 0(A,i) и 9(щ), положить к == 1 и перейти к основному этапу. Основной этап. Шаг 1. Если bk — ak<. l, то остановиться; оптимальная точка принадлежит интервалу [a*, bk]. В против-
8.1. ЛИНЕЙНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 271 ном случае если Э(Х^)>0((л^), то перейти к шагу 2, а если 8(W<fl(M. т0 к шагУ 3. Шаг 2. Положить ak+\ = Я$, Ьш = bk, ta+i = м<*» M*+i — ==а&+1 + aF/e+i — ak+\). Вычислить 0((jt^+i) и перейти к шагу 4. Шаг 3. Положить ak+\ = ak, bk+\ = \ik, m*+i = ta> ta+i = s=a*+i + 0 — a)F^+i — ал+i). Вычислить 0(^+0 и перейти к шагу 4. Я/ 4. Заменить k на &+ 1 и перейти к шагу 1. 8.1.2. ПРИМЕР. Рассмотрим следующую задачу: минимизировать X2 + 2к при условии —3 ^ Я <; 5. Очевидно, что минимизируемая функция 0 строго квази- выпукла и начальная длина интервала неопределенности рав- равна 8. Сократим этот интервал неопределенности до интервала, длина которого не больше че'м 0.2. Первые две точки опреде- определяются следующим образом: Х{ = _ з + 0.382 . 8 = 0.056, \х{ = - 3 + 0.618 -8=1.944. Заметим, что 9(Аа) < в (jlxi) - Следовательно, новый интервал неопределенности равен [—3, 1.944]. Этот процесс повторяется, результаты вычислений приведены в табл. 8.1. Значения функ- функции 0, вычисленные на каждой итерации, помечены звездочкой. Таблица 8Л Вычисления по методу золотого сечения к 1 2 3 4 5 ,6 ь а* -3.000 -3.000 -3.000 '-1.832 -1.832 -1.384 -1.384 -1.208 -1.112 ьк 5.000 1.944 0.056 0.056 -0.664 -0.664 -0.936 -0.936 -0.936 А* •0.6ft -1.112 -1.832 -1.112 -1.384 -1.112 -1.208 -1.112 1.944 0.056 -1.112 -0.664 -1.112 -0.936 -1.112 -1.032 е(К) 0.115* -0.987* -0.308* -0.987 -0.853* -0.987 -0.957* -0.987 7.667* 0.115 -0.987 -0.887* -0.987 -0.996* -0.987 -0,999* После восьми итераций, содержащих девять вычислений функ- функции, интервал неопределенности равен [—1.112, —0.936], так что в качестве точки минимума может быть взята, например, середина этого интервала —1.024. Заметим, что точкой точного минимума является —1.0т
272 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Метод Фибоначчи Метод Фибоначчи является процедурой линейного поиска для минимизации строго квазивыпуклой функции на замкнутом ог- ограниченном интервале. Подобно методу золотого сечения про- процедура поиска Фибоначчи требует два вычисления функции на первой итерации, а на каждой последующей — только по одному. Однако эта процедура отличается от метода золотого сечения тем, что сокращение интервала неопределенности меняется от итерации к итерации. Процедура основана на последовательности Фибоначчи {Fv}, которая определяется следующим образом: Fv+i = Fv + Fv_u v=l, 2, ..., Fo = Fi=l. (8'3) Таким образом, последовательность имеет вид 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, ... Предположим, что на ft-й ите- итерации интервал неопределенности равен [a*, bk]. Рассмотрим две точки Kk и р,*, определяемые следующим образом: h = ak+p^l(bk-ak), k=l, ..., /i-l, (8.4) г rn~k+\ где п — заданное общее число вычислений функции. По теореме 8.1.1 новый интервал неопределенности bk+\] равен [Xky bk], если 9(^)> в(|хл), и [aki |х*]> если Q(ik)^ Q(\ik). В первом случае, учитывая (8.4) и полагая v = = п — k в (8.3), получаем -bk — t^kz=zbji — пь —рп~ ~ (b^ — uk) = = 4JLz]L'(bk-ak). (8.6) Во втором случае, учитывая (8.5), имеем р bk±\ — ak+\ = \xk — ak = -тг-1111— F^ —- ak). (8.7) Таким образом, в обоих случаях длина интервала неопределен- неопределенности сжимается с коэффициентом Fn-kfFn-k+\. Теперь покажем, что на (k+ 1)-й итерации либо Xk+\ = №, либо |л*+1 = А,*, так что требуется только одно новое вычисле- вычисление функции. Предположим, что 6(?ц)> 6(|ха>). Тогда по тео-
8.1. ЛИНЕЙНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 273 реме 8.1.1 ak+\ = %k и bk+\ = bk. Таким образом, применяя (8.4) с заменой k на k+ 1, получаем F ~ Кк+г = ak+x + l~k~2 (bk+{ — ak+{) = n-A? n-fc Подставляя выражение для %k из (8.4), получаем я-А: Если положить v = n — k в (8.3), то 1 — (Fn_k_{/Fn__k+{) = = Fn-k/Pn-k+i- Подставляя это равенство в выражение для Xk+ь получаем """ Fnk2 \ (U л\ / n~k-2 ; Теперь положим в (8.3) v = n — k—1. Учитывая (8.5), имеем {bk - ak) = \ik. F Аналогично если 9(Я^)^ Э(^), то, как читатель легко проверит, [ib+i = Ха>. Таким образом, в обоих случаях на (k+ 1)-й итера- итерации требуется только одно вычисление функции. Итак, на первой итерации требуются два вычисления функ- функции, а на каждой последующей — только одно. Следовательно, в конце (п — 2)-й итерации будет выполнено (п—1) вычисле- вычислений функции. Далее, для k = n—1, как это следует из (8.4) и (8.5), Яп_! = fx^_j ===== -g- {an-\ + ft/z-i)- Следовательно, либо Кп__х=\хп_2у либо iin_i = Xn_2> T- е- теоретически не должно де- делаться новых вычислений функции на этой стадии. Однако что- чтобы обеспечить дальнейшее сокращение интервала неопределен- неопределенности, точка последнего вычисления слегка перемещается вправо или влево от средней точки %п~\ = \in-u так что 1/2F«-i — ап-\) есть длина конечного интервала неопределенности [аПу Ьп]. Выбор числа вычислений функции В отличие от дихотомического поиска и процедуры золотого сечения в методе Фибоначчи требуется, чтобы общее число п вычислений функции было выбрано заранее. Это объясняется тем, что точки, в которых производятся вычисления, опреде- определяются по формулам (8.4) и (8.5) и, следовательно, зависят
274 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ от п. Из (8.6) и (8.7) заключаем, что длина интервала неопре- неопределенности сжимается на k-й итерации с коэффициентом Fn-k/Fn-k+i- Следовательно, после п—1 итераций, где п — за- заданное общее число вычислений функции, длина интервала не- неопределенности сократится от Ь{ — а{ до Ьп — ап =(b\ — a\)/Fn. Отсюда п должно быть выбрано так, чтобы величина (b\ — a\)/Fn согласовывалась с требуемой точностью. Алгоритм метода Фибоначчи Ниже приводится алгоритм метода Фибоначчи для миними- минимизации строго квазивыпуклой функции на интервале [а\, Ь\]. Начальный этап. Выбрать допустимую конечную длину ин- интервала неопределенности / >> 0 и константу различимости е > 0. Задать начальный интервал неопределенности \а\, b\] и выбрать число п вычислений функции так, чтобы Fn > (b\ — а{) /I. Положить %\ = а\ + (Fn-2/Fn) {bi — ai)9 \ц = а\ + (Fn-\/Fn) X X(&i — 0i). Вычислить Q(Xi) и 0(рц), положить k= 1 и перейти к основному этапу. Основной этап. Шаг 1. Если 6 (Я^) > 8(|х^), то перейти к шагу 2, если 6 (Xk) <; 0 (\xk)y то к шагу 3. Шаг 2. Положить ak+i — Xk, bk+i = bk. Затем положить Xk+{ = = Pk> ^k+i = cik+l + (Fn^k^l/Fn_k),(bk+l — ak+l). Если k = n — 2, то перейти к шагу 5; в противном случае вычислить 6(|и,?+1) и перейти к шагу 4. Шаг 3. Положить ak+x = ak, bk+[ = \ik, ^+1 = ЯЬ Xk+l = = ak+i + (Fn-k-2/Fn+k)(bk+i — ak+\)- Если k = n — 2, то перейти к шагу 5; в противном случае вычислить 6(Я^+1) и перейти к шагу 4. Шаг 4. Заменить k на k + 1 и перейти к шагу 1. Шаг 5. Положить Хп = Хп_{ и \лп = %п + е. Если 8 (Хп) > 8(^w), то положить ап = Хп и bn — bn_i. В противном случае, т. е. если 6(ЛЯ)^0ОО, положить ап = ап^х и Ьп — Хп. Остановиться; оптимальное решение содержится в интервале [ап, Ьп]. 8.1.3. ПРИМЕР. Рассмотрим следующую задачу: минимизировать X2 + 2Х при условиях — з<;я<;5. Заметим, что целевая функция строго квазивыпукла на на- начальном интервале, а точка точного минимума равна Х = —1. Потребуем, чтобы длина конечного интервала неопределенности не превосходила 0.2. Следовательно, Fn > 8/0.2 = 40, так что ^ = 9. Выберем в качестве константы различимости 8 = 0.01.
8.1. ЛИНЕЙНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 275 Два первых вычисления значений функции проводятся в точках А, = ~ 3 + ¦?- (8) = 0.054545, >, = - 3 + ^ (8) = 1.945454. Заметим, что 0(A,i) < в(fJti). Следовательно, новый интервал неопределенности равен [—3.000000, 1.945454]. Процедура по- повторяется, результаты вычислений приведены в табл. 8.2. Зна- Значения функции 0, вычисленные на каждой итерации, помечены звездочкой. Заметим, что при k = 8 имеем %k = \ik = Xk-u так что на этом этапе нет необходимости вычислять функцию. Для k = 9, имеем %k = Xk-i = —0.963636 и^ = ^ + 8 = —0.953636. Таблица 8.2 Результаты вычислений по методу Фибоначчи к 1 2 3 4 ¦ 5 . 6 :7 "8 9 зк -3.000000 -3.000000 -3.000000 -1.836363 -1.836363 -1.399999 -1.109091 -1.109091 -1.109091 ьк 5.000000 1.945454 0.054545 0.054545 -0.672727 -0.672727 -0.672727 -0.818182 -0.963636 А* 0.054545 -1.109091 -1.836363 -1.109091 -1.399999 -1.109091 -0.963636 -0.963636 -0.963636 1.945454 0.054545 -1.109091 -0.672727 -1.109091 -0.963636 -0.818182 -0.963636 -0.953636 о(\к) 0.112065* -0.988099* -0.300497* -0.988099 -0.840001* -0.988099 -0.998677 -0.998677 -0.998677 7.675699* 0.112065 -0.988099 -0.892892* -0:988099 -0.998677* -0.966942* -0.998677 -0.997850* Поскольку О(м*)>0(А,*), конечный интервал неопределенно- неопределенности [а9, 69] равен [—1.109091, —0.963636], длина которого / =ч = 0.145455. В качестве приближенного значения точки мини- минимума выберем середину этого отрезка —1.036364. Напомним, что в примере 8.1.2 после такого же числа вычислений функции п = 9 длина интервала неопределенности была равна 0.176. Сравнение методов линейного поиска без вычисления производной Очевидно, что при заданной строго квазивыпуклой на интервале [аи Ь\] функции 9 каждый из рассмотренных в этом параграфе методов дает за конечное число шагов такую точку Я, что |А, — Х\ ^ /, где / — длина конечного интервала неопределенно- неопределенности, а I —точка минимума на заданном интервале. В частности, при заданной длине конечного интервала неопределенности,
276 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ которая удовлетворяет требуемой степени точности, необходимое число вычислений функции п может быть определено как наи- наименьшее положительное целое, удовлетворяющее следующим соотношениям: Метод равномерного поиска п^ * t~g"— ^ дихотомический поиск f-g-j метод золотого сечения @.618)/г~1> Ь\ — ах ' метод Фибоначчи Fn^—l~ul . Из приведенных выражений видно, что требуемое число вы- вычислений является функцией отношения (Ь\ — а{)/1. Для фик- фиксированного значения {Ь\— а{)/1 наименьшее число требуемых вычислений функции отвечает более эффективному алгоритму. Ясно, что с этой точки зрения наиболее эффективным алгорит- алгоритмом является метод Фибоначчи, далее — метод золотого сече- сечения, дихотомический поиск и, наконец, метод равномерного поиска. Заметим, что для достаточно больших п значения \/Fn стре- стремится к @.618) п~1, так что методы Фибоначчи и золотого се- сечения являются почти идентичными. Стоит подчеркнуть, что среди методов без использования производной для минимизации строго квазивыпуклых функций на замкнутом ограниченном интервале метод Фибоначчи яв- является наиболее эффективным в том смысле, что требует наи- наименьшего числа вычислений функции при заданных требованиях к коэффициенту сжатия длины интервала неопределенности. Общий случай Приведенные характеристики всех рассмотренных выше про- процедур основываются на предположении о строгой квазивыпукло- квазивыпуклости минимизируемой функции. Во многих задачах это предпо- предположение не выполняется или, во всяком случае, не может быть достаточно легко проверено. Одним из путей преодоления этой трудности, главным образом если начальный интервал неопреде- неопределенности большой, является разделение его на маленькие ин- интервалы, нахождение минимума на каждом из подынтервалов и последующий выбор наименьшего значения из минимумов на подынтервалах.
8.2 ЛИНЕЙНЫЙ ПОИСК С ИСПОЛЬЗОВАНИЕМ ПРОИЗВОДНОЙ 277 8.2. Линейный поиск с использованием производной В предыдущем параграфе рассмотрено несколько процедур ли- линейного поиска, использующих вычисления только значений функции. В этом параграфе будут рассмотрены метод деления пополам и метод Ньютона, которые требуют информацию о производной минимизируемой функции. Метод деления пополам Предположим, что требуется минимизировать функцию 0 на замкнутом и ограниченном интервале. Кроме того, предполо- предположим, что функция 0 псевдовыпукла и, следовательно, дифферен- дифференцируема. Пусть на k-и итерации интервал неопределенности ра- равен [<2k, bk]. Предположим, что производная 6'(А,*) известна и рассмотрим следующие три возможных случая: 1. Если Q'Ckk) = O, то из псевдовыпуклости 0 следует, что %k — точка минимума. 2. Если 6'(А,*)>0, то для %>%к имеем 0'(А,*) (А, —А,*) >0 и в силу псевдовыпуклости 0 это означает, что Q(X)^Q(Xk). Иными словами, минимум лежит слева от Xk, так что новым ин- интервалом неопределенности [а*+ь bk+\] будет отрезок [а*, А,*]. 3. Если 0'(А,*) < 0, то 0'(ta) (А — А,*) > 0 для А, < %k, так что 0(Я)^0(^). Таким образом, минимум лежит справа от %к и новым интервалом неопределенности [а*+ь bk+\) будет отрезок Положение А,* на интервале [а*>, bk] должно быть выбрано так, чтобы минимизировать максимальную возможную длину нового интервала неопределенности, т. е. чтобы минимизировать большую из величин %k — #& и bk — А,*. Очевидно, что оптималь- оптимальным положением %k является середина отрезка 72(а* + &*)- Таким образом, на любой итерации k производная 0х вычис- вычисляется в средней точке интервала неопределенности. В зависи- зависимости от значения 0' процесс либо останавливается, либо строится новый интервал неопределенности, длина которого равна половине длины предыдущего интервала. Заметим, что эта процедура очень похожа на метод дихотомического поиска, за исключением того, что на каждой итерации требуется только одно вычисление производной, в то время как в методе дихото- дихотомического поиска необходимы два вычисления функции. Сходимость метода деления пополам Заметим, что длина интервала неопределенности после п ша- шагов равна (]/2)n(b\ — ai), так что метод сходится к точке мини- минимума с любой требуемой степенью точности. В частности, если
278 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ зафиксирована длина I конечного интервала неопределенности, то п должно быть выбрано наименьшим целым, удовлетворяю- удовлетворяющим неравенству G2)" ^ l/(b\ — а\). Алгоритм метода деления пополам Теперь приведем алгоритм метода деления пополам для ми- минимизации псевдовыпуклой функции 0 на замкнутом и ограни- ограниченном интервале. Начальный этап. Пусть [аи Ь\] — начальный интервал не- неопределенности, а / — требуемая длина конечного интервала. Положить п равным наименьшему положительному целому, для которого О/г)" ^ 1/(Ь\ — а\). Положить &=1 и перейти к ос- основному этапу. Основной этап. Шаг L Положить Xk = l/2(ak + bk) и вычис- вычислить В'(Xk). Если 9/(Я^) = 0, то остановиться; %k — оптимальное решение. В противном случае перейти к шагу 2, если Э'(А,Л) > О, и к шагу 3, если 6' (Хк) < 0. Шаг 2. Положить ak+i = ak, bk+{ — Xk. Перейти к шагу 4. Шаг 3. Положить ak+\ = Я*, bk+i = 6*. Перейти к шагу 4. Шаг 4. Если k = n, то остановиться. Максимум содержится в интервале [ап+и &«+i]. В противном случае заменить k на k-\- 1 и вернуться к шагу 1. 8.2.1. ПРИМЕР. Рассмотрим следующую задачу: минимизировать X2 + 2Х при условии —3 ^ X ^ 6. Предположим, что требуется сократить интервал неопреде- неопределенности до интервала, длина которого не превосходит 0.2. Сле- Следовательно, число шагов алгоритма п, удовлетворяющее нера- неравенству G2)л^ 1/(Ь\ — а\) = 0 0222, равно п = 6. Результаты вычислений методом деления пополам приведены в табл. 8.3. Таблица 8.3 Результаты вычислений методом деления пополам к 1 2 3 4 5 6 7 -3.0000 -3.0000 -3.0000 -1.8750 -1.3125 -1.0313 -1.0313 ь* 6.0000 1.5000 -0.7500 -0.7500 -0.7500 -0.7500 -0.8907 К 1.5000 -0.7500 -1.8750 -1.3125 -1.0313 -0.8907 5.0000 0.5000 -1.7500 -0.6250 -0.0625 0.2186 •-
8.2. ЛИНЕЙНЫЙ ПОИСК С ИСПОЛЬЗОВАНИЕМ ПРОИЗВОДНОЙ 279 Заметим, что конечный интервал неопределенности равен [— 1.0313, —0.8907], так что в качестве точки минимума можно взять середину этого отрезка, т. е, —0.961. Метод Ньютона Метод Ньютона основывается на использовании квадратичной аппроксимации функции 0 в заданной точке Я*. Квадратичная аппроксимация q задается равенством <7 (Я) = 0 (Я,) + 0' (Я,) (Я - Xk) + у В" (h) (Я ~ Я,J. В качестве Я/г+1 берется точка, в которой производная функции q равна нулю, т.е. 0'(Я*) + 0"(^) (Я — %k) = 0. Таким образом, (8.8) Процесс останавливается, когда | Хк^\—Хк |<е или когда | §'{Хк) |< < е, где е > 0 — заранее заданное малое число. Заметим, что приведенная выше процедура может быть ис- использована только для дважды дифференцируемых функций. Более того, процедура определена только в том случае, если 8" (А*) Ф 0 для каждого k. 8.2.2. ПРИМЕР. Рассмотрим функцию 0, определенную сле- следующим образом: Г4Я3-ЗЯ4, если Я>0, 9 (Я) = t 4Я3 + ЗЯ4, если Я< 0. Заметим, что 0 всюду дважды дифференцируема. Применим метод Ньютона для минимизации 0(Я), начиная из двух раз- различных точек. В первом случае возьмем Я1 = 0.40. Как показано в табл. 8.4, процедура приводит в точку 0.002807 после шести итераций. Таблица 8.4 Результаты вычислений методом Ньютона при %\ = 0.40 к 1 2 3 4 5 6 0.400000 0.100000 0.047059 0.022934 0.011331 0.005634 0'(Ak) 1.152000 0.108000 0.025324 0.006167 0.001523 0.000379 6'Uk) 3.840000 2.040000 1.049692 0.531481 0.267322 0.134073 Ak+i 0.100000 0.047059 0.022934 0.011331 0.005634 0.002807
280 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Читатель может легко проверить, что процесс в самом деле схо- сходится к стационарной точке Я = 0. Во втором случае возьмем Х\ — 0.60. Генерируемые точки, как показано в табл. 8.5, попеременно принимают значения 0.60 и -0.60. Таблица 8.5 Результаты вычислений методом Ньютона при к\ = 0.60 Ak 1 2 #3 4 0.600 -0.600 0.600 -0.600 1.728 1.728 1.728 1.728 1.440 -1.440 1.440 -1.440 -0.600 0.600 -0.600 0.600 Сходимость метода Ньютона В общем случае метод Ньютона не сходится к стационарной точке при произвольной начальной точке. Объясняется это сле- следующим. В общем случае теорема 7.2.3 неприменима в силу невозможности построения функции спуска. Однако, как пока- показано в теореме 8.2.3, если начальная точка достаточно близка к стационарной точке, то можно построить подходящую функцию спуска, так что метод будет сходиться. 8.2.3. ТЕОРЕМА. Пусть 0: Ех -> Ех дважды непрерывно диф- дифференцируема. Рассмотрим алгоритм Ньютона, определяемый отображением А (Я) = Я — 8' (Я)/0" (Я). Пусть точка X такова, что в'{Х) = О и 0"(Я)^О. Предположим, что начальная точка Х{ достаточно близка к X, так что существуют kb k2 > 0, такие, что k\k2 < 1 и 1 —±—>k 1' |в"(Л)| ^ ь 2 для всех X, удовлетворяющих неравенству \Х — Х\^\Х\ — А,|. Тогда алгоритм сходится к X. Доказательство. Пусть множество решений Q = {^} и Х = = {Х: | Я — Я |^| Х{ — Я |. Докажем сходимость метода, исполь- используя теорему 7.2.3. Заметим, что X является компактом и ото- отображение А замкнуто на X. Теперь покажем, что а(Я) = | Я—-Я |— подходящая функция спуска. Возьмем ^еХ и предположим.
8.3. ЗАМКНУТОСТЬ АЛГОРИТМИЧЕСКИХ ОТОБРАЖЕНИЙ 281 что Я=^Х. Пусть XeA(i). Тогда по определению А и из того, что 0' (А) = 0, получаем х - я = (я -1) - -—^ [в'(л) - Из A) и B) следует, что Следовательно, а — подходящая функция спуска и утвержде- утверждение теоремы непосредственно вытекает из следствия к теоре- теореме 7.2.3. ¦ 8.3. Замкнутость алгоритмических отображений линейного поиска В двух предыдущих параграфах рассматривалось несколько про- процедур минимизации функции одного переменного. Одномерный поиск является составной частью большинства алгоритмов нели- нелинейного программирования. Поэтому важно показать, что про- процедуры линейного поиска определяют замкнутые отображения. Рассмотрим задачу минимизации функции одного перемен- переменного 6(Я) при условии ^gL, где 0(Я) = f(x + Xd) и L — зам- замкнутый интервал в Е\. Эта задача линейного поиска может быть определена алгоритмическим отображением М (х, d) = {у: у — х + Я<1 для некоторого X е L и f(y)</(x+^d) Для всех ieL}. Заметим, что в общем случае М является точечно-множест- точечно-множественным отображением, поскольку точек минимума у может быть более чем одна. В теореме 8.3.1 показывается, что отображение М замкнуто. Таким образом, если отображение D, определяю- определяющее направление d, также замкнуто, то по теореме 7.3.2 полное алгоритмическое отображение А = MD замкнуто. 8.3.1. ТЕОРЕМА. Пусть /: Еп-+Ех и L — замкнутый интер* вал в Е\. Рассмотрим отображение линейного поиска М: ЕпХЕп-+Еп М(х, d) = {y: y==x+Xd для некоторого iei и f(y)</(x+Xd) для всех AgL}, Если / непрерывна в точке х и d ф 0, то М замкнуто в (х, d).
282 r^. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Доказательство. Предположим, что (xki <^)->(х, d), y^->y, где yftGM (хь dk). Нужно показать, что у е М (х, d). Прежде всего заметим, что Уа = хл + Ял<1л, где %k^L. Так как d=^0, то d/^О для достаточно больших & и, следовательно, Я^ = = II У* — *k ll/ll d* ||. Переходя к пределу при &->оо, получаем, что \k->%, где А, = || у —- х ll/ll d || и, следовательно, y = x + A,d. Более того, так как ^gL для всех k и L замкнуто, то AgL, Пусть теперь AgL. Заметим, что / (у^) ^ f (\k -f* ^d^). Переходя к пределу при &->оо и учитывая непрерывность функции /, получаем, что f(у)^f(х + Id). Таким образом, уеМ(х, d). ¦ Обычно в нелинейном программировании линейный поиск осуществляется на интервале L одного из следующих видов: В каждом из указанных случаев L замкнут, и, следовательно, теорема применима. В условиях теоремы требуется, чтобы вектор d не был нуле- нулевым. В примере 8.3.2 рассматривается случай, когда М незамк- незамкнуто, если d = 0. В большинстве случаев вектор направления d ф 0 всюду вне множества решений Й. Таким образом, М замк- замкнуто вне Q и для доказательства сходимости можно использо- использовать теорему 7.2.3. 8.3.2. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (х — 2L. Здесь f(x)= (x — 2L. Теперь рассмотрим последователь- последовательность (xk, dk) — (\/k, l/k). Ясно, что Xk сходится кх = 0и^ сходится к <i = 0. Рассмотрим отображение линейного поиска М, определенное в теореме 8.3.1, где L = {X: Я^О}. Точка tjk получается из решения задачи минимизации f(Xk + Xdk) при % ^ 0. Читатель может проверить, что уъ, = 2. Заметим, однако, что М@, 0)= {0}, так что уф!Л(х, d), т. е. отображение М незамкнуто. 8.4. Многомерный поиск без использования производных В этом параграфе рассматриваются методы решения минимиза- минимизации функции нескольких переменных f, не использующие вы- вычисление производных. Описанные здесь методы заключаются в следующем. При заданном векторе х определяется допусти-
8.4. МНОГОМЕРНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 283 мое направление d. Затем, отправляясь из точки х, функция / минимизируется вдоль направления d одним из обсуждавшихся в этой главе ранее методом. Всюду в этой книге предполагается, что задача линейного поиска заключается в минимизации f(x-\-kd) при условии, что k^L, где L обычно задается в форме L = E\, L = {к: к^О} или L = {к: а <; к ^ Ь). В формулировках алгоритмов для простоты будем предполагать, что точка минимума к суще- существует. Однако в реальных задачах это предположение может не выполняться. Оптимальное значение целевой функции в задаче линейного поиска может быть неограниченным или оптимальное значение функции конечное, но не достигается ни при каком к. В первом случае целевая функция исходной задачи неограни- неограниченна и вычисления прекращаются. Во втором случае можно выбрать такое к, что /(x + Xd) будет достаточно близким к inf{/(x + Xd): k^L). Метод циклического покоординатного спуска В этом методе в качестве направлений поиска используются координатные векторы. Точнее, метод осуществляет поиск вдоль направлений di, ..., dn, где d/ — вектор, все компоненты кото- которого, за исключением /-й, равны нулю. Таким образом, при поиске по направлению d/ меняется только переменная xj, в то время как все остальные переменные остаются зафиксирован- зафиксированными. Схематически этот метод проиллюстрирован на рис. 8.5 применительно к задаче из примера 8.4.1. Алгоритм циклического покоординатного спуска Ниже приводится алгоритм метода циклического покоорди- покоординатного спуска для минимизации функции нескольких перемен- переменных, не требующий использования производных. Кратко пока- показывается, что если функция дифференцируема, то метод схо- сходится к стационарной точке. Как отмечалось в § 7.2, для остановки алгоритма могут быть использованы несколько критериев. В приведенном ниже алго- алгоритме процесс останавливается, если ||x*+i— х*|| < е. Ясно, что можно применить и любой другой критерий остановки. Начальный этап. Выбрать число г > О, которое будет ис- использоваться для остановки алгоритма, и взять в качестве di, ..., dn координатные направления. Выбрать начальную точ- точку хь положить yi = xi, k = j= 1 и перейти к основному этапу. Основной этап. Шаг 1. Положить Я/ равным оптимальному решению задачи минимизации f(y/ + Ady) при условии isfj,
284 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ 3f 0 12 3 Рис. 8.5. Иллюстрация к методу циклического покоординатного спуска. Положить у/4-i = У/ + A,yd/. Если / < п, то заменить / на /+1 и вернуться к шагу 1. Если / = л, то перейти к шагу 2. Шаг 2. Положить x*+1 = yft+1. Если ||хл+1 — х*|| < е, то оста- остановиться. В противном случае положить У1 = хй+Ь /=1, заме- заменить k на k + 1 и перейти к шагу 1. 8.4.1. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (хх — 2L + (хх — 2х2J. Заметим, что оптимальным решением этой задачи является точка B, 1), в которой значение функции равно нулю. В табл. 8.6 приведены результаты вычислений по методу циклического по- покоординатного спуска для начальной точки @, 3). Заметим, что на каждой итерации векторы у2 и у3 получены посредством одно- одномерной минимизации по направлениям A,0) и @, 1) соответ- соответственно. Заметим также, что заметное убывание функции по- получено в течение первых нескольких итераций, тогда как на последних итерациях процесс явно замедляется. После семи
8А. МНОГОМЕРНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 285 Таблица 8.6 Результаты вычислений по методу циклического покоординатного спуска к f(xk) / d, у, А, у/+1 1 @.00,3.00) 1 A.0,0.0) @.00,3.00) 3.13 C.13,3.00) 52.00 2 @.0,1.0) C.13,3.00) -1.44 C.13,1.56) 2 C.13,1.56) 1 A.0,0.0) C.13,1.56) -0.50 B.63,1.56) 1.63 2 @.0,1.0) B.63,1.56) -0.25 B.63,1.31) 3 B.63,1.31) 1 A.0,0.0) B.63,1.31) -0.19 B.44,1.31) 0.16 2 @.0,1.0) B.44,1.31) -0.09 B.44,1.22) 4 B.44,1.22) 1 A.0,0.0) B.44,1.22) -0.09 B.35,1.22) 0.04 2 @.0,1.0) B.35,1.22) -0.05 B.35,1.17) 5 B.35,1.17) 1 A.0,0.0) B.35,1.17) -0.06 B.29,1.17) 0.015 2 @.0,1.0) B.29,1.17) -0.03 B.29,1.14) 6 B.29,1.14) 1 A.0,0.0) B.29,1.14) -0.04 B.25,1.14) 0.007 2 @.0,1.0) B.25,1.14) -0.02 B.25,1.12) 7 B.25,1.12) 1 A.0,0.0) B.25,1.12) -0.03 B.22,1.12) 0.004 2 @.0,1.0) B.22,1.12) -0.01 B.22,1.11) итераций получена точка B.22, 1.11), значение функции в кото- которой равно 0.0023. На рис. 8.5 показаны лишь линии уровня целевой функции и точки, полученные методом циклического покоординатного спуска. Замедление на последних итерациях объясняется тем, что вдоль оврага, показанного пунктирной линией, делаются очень маленькие шаги по ортогональным направлениям. Сходимость циклического покоординатного спуска Сходимость метода циклического покоординатного спуска к стационарной точке следует непосредственно из теоремы 7.3.5 при следующих предположениях: 1. Минимум / вдоль любого направления в Еп единствен. 2. Последовательность точек, генерируемых алгоритмом, со- содержится в компактном множестве пространства Еп. ^Заметим, что направлениями поиска, используемыми на каж- каждой итерации, являются координатные векторы, так что матрица
286 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ га) (Ь) Рис. 8.6. Эффект овражности. а—-остановка в точке х2) Ь — поиск продол- продолжается вдоль направления х2 —хь направлений D = I. Очевидно, что предположение A) теоремы 7.3.5 выполняется. В качестве другого подхода можно воспользоваться для до- доказательства сходимости теоремой 7.2.3. Для этого надо пока- показать, что полное алгоритмическое отображение замкнуто в каж- каждой точке х, удовлетворяющей условию V/(x)=^0. В этом слу- случае в качестве функции спуска а берется сама /, а множество решений Q — {х: V/(х) = 0}. Ускоряющий шаг Мы установили, что метод циклического покоординатного спуска при минимизации дифференцируемой функции сходится к точке с нулевым значением градиента. В отсутствие диффе- ренцируемости метод может остановиться в неоптимальной точке. Как показано на рис. 8.6, а, поиск вдоль любой коорди- координатной оси в точке х2 не приводит к улучшению целевой функ- функции и в результате метод преждевременно останавливается. Это объясняется наличием оврага, вызванного недифференцируемо- недифференцируемостью /. Как показано на рис. 8.6, fc, эта трудность может быть преодолена поиском вдоль направления хг—хь Поиск вдоль направления x^+i — х*> часто используется в процедурах циклического покоординатного спуска, даже если функция дифференцируема. Обычно эмпирическим путем уста- устанавливается, что такой шаг делается на каждой р-й итерации. Эта модификация метода циклического покоординатного спуска часто ускоряет сходимость, в частности когда последователь- последовательность точек образует зигзагообразную траекторию вдоль дна оврага. Такой шаг обычно называют ускоряющим шагом.
8,4. МНОГОМЕРНЫЙ ПОИСК ВЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 287 У Рис. 8.7. Метод Хука и Дживса. / — поиск по образцу; 2 — исследующий поиск вдоль координатных осей. Метод Хука и Дживса Метод Хука и Дживса осуществляет два типа поиска — иссле- исследующий поиск и поиск по образцу. Первые две итерации про- процедуры показаны на рис. 8.7. При заданном начальном векторе Xi исследующий поиск по координатным направлениям приво- приводит в точку х2. Последующий поиск по образцу в направлении х2 — Xi приводит в точку у. Затем исследующий поиск, начи- начинающийся из точки у, дает точку х3. Следующий этап поиска по образцу вдоль направления х3 — х2 дает у'. Затем процесс повторяется. Алгоритм Хука и Дживса с использованием одномерной минимизации Хук и Дживс предложили метод, не содержащий одномерной минимизации, а использующий постоянные шаги по направле- направлениям поиска. Этот вариант метода будет обсуждаться позднее. Здесь рассмотрим непрерывный вариант метода, использующий одномерную минимизацию вдоль координатных направлений db ..., dn и направлений поиска по образцу. Начальный этап. Выбрать число 8 > 0 для остановки алго- алгоритма. Выбрать начальную точку хь положить yi = xi, k *= /= 1 и перейти к основному этапу. Основной этап. Шаг 1. Вычислить Я/ — оптимальное реше- решение задачи минимизации f (у/ + Яd/) при условии Я е ?\ и положить У/+1 = У/ +A/d/. Если / < п, то заменить / на /+1 и повторить шаг 1. Если ] = п, то положить х*+1 = уя+1- Если ||х*+1— Xk\\ < e, то остановиться; в противном случае перейти к шагу 2. Шаг 2. Положить d = xA+i —хл и найти Я — оптимальное решение задачи минимизации /(x^4.l + Яd) при условии Ag^.
288 IVI. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Положить yi = Xfc+1 + Ad, /= 1, заменить k на k + 1 и перейти к шагу 1. 8.4.2. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (х{ — 2L + (хх — 2х2J. Заметим, что оптимальным решением является точка B.00, 1.00), в которой значение функции равно нулю. В табл. 8.7 Таблица 8.7 Результаты вычислений по методу Хука и Дживса с использованием одномерной минимизации Ц**) J У/ <*/ Ау y/+i d A Уз+Ad @.00,3.00) 1 @.00,3.00) A.0,0.0) 3.13 C.13,3.00) — — — f 52.00 2C.13,3.00) @.0,1.0) -1.44 C.13,1.56) C.13,-1,44)-0.10 B.82,1.70) C.13*1.56) l B.82,1.70) A.0,0.0) -0.12 B.70,1.70)- — — _ U3 2 B.70,1.70) @.0,1.0) -0.35 B.70,1.35) (-0,43,-0.21) 1.50 B.06,1.04) B.70AL35) 1 B.06,1.04) A.0, p.0) -0.02 B.04,1.04)' — — — 0.24 2 B.04,1.04) @,0,1.0) -0'.02 B.04,1.02) (-!),66,-0.33) 0-06 B.00,1.00) B.64,1,02) 1 B.00,1.00) A.0,0.0) 0.0Q B.00,1.00) ~ — - O.OO0OQ3 I B.00,1.00) @.0,1.0) 0.00 B.00,1.00) B.0(У.ОР) \ Ш показаны результаты вычислений по методу Хука и Дживса, где в качестве начальной взята точка @.00, 3.00). На каждой ите- итерации исследующий поиск по координатным направлениям дает точки у2 и уз, а поиск по образцу в направлении d = x*+i —х* дает точку уь Исключение представляет первая итерация, где У! = хь Заметим, что потребовались четыре итерации для пе- перехода из начальной точки к оптимальной B.00, 1.00), в кото- которой значение целевой функции равно нулю. В этой точке ||х5 — х4|| — 0.002 и процедура остановлена. На рис. 8.8 показаны точки, полученные методом Хука и Дживса, использующим одномерную минимизацию. Заметим, что поиск по образцу улучшает сходимость в результате движе-
8.4. МНОГОМЕРНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 28& Рис. 8.8. Иллюстрация к методу Хука и Дживса с использованием одномер- одномерной минимизации. ния вдоль направления, которое почти параллельно дну оврага, показанному пунктирной линией. Сходимость метода Хука и Дживса Предположим, что функция / дифференцируема и пусть мно- множество решений Q={x: V/(x)=0}. Заметим, что каждая ите- итерация метода Хука и Дживса заключается в применении ци- циклического покоординатного спуска с добавлением поиска по образцу. Обозначим отображение, определяющее метод цикли- циклического покоординатного спуска, через В, а отображение поиска, определяющее алгоритм поиска по образцу, через С. Из теоре- теоремы 7.3.5 следует, что В замкнуто. Пусть а = f. Если минимум функции f вдоль любого направления единствен, то <х(у)< а(х) для x^Q. По определению С имеем a(z)^ а (у) для zeC(y). Если предположить, что Л={х: f(x)< f(*\)} —компакт, где Xi — начальная точка, то сходимость процедуры следует из тео- теоремы 7.3.4. 10 М Базара, К- Шетти
290 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Метод Хука и Дживса с дискретным шагом Первоначально в методе Хука и Дживса не предполагалась одномерная минимизация. Одномерный поиск заменялся простой схемой, включающей вычисления функции. Приведем этот алго- алгоритм метода. Начальный этап. Задать в качестве db • • •, dn координатные направления. Выбрать число е > 0 для остановки алгоритма, начальный шаг Д^еи ускоряющий множитель а > 0. Выбрать начальную точку хь положить yi = xi, k = j=l и перейти к основному этапу. Основной этап. Шаг L Если f (уу + Ad;)< f (yy), то шаг считается успешным; положить y/+i=y/+Ad/ и перейти к шагу 2. Если / (у/ + Ad/) ^ / (уу), то шаг считается неудачным. В этом случае если f(y/ — Ad/) <f(y/), то положить у/+1 = у/ — Ad/ и перейти к шагу 2, если же / (у/ — Ad/) :> / (у/), то положить / и перейти к шагу 2. 2. Если / < пу то заменить / на / + 1 и вернуться к шагу 1. В противном случае перейти к шагу 3, если /(у/ж)< <f(xk), и к шагу 4, если /(y«+i)^/(x*). ШагЗ. Положить x*+i = y«+i> Yi = xft+I + а(х*+1 — xk). Заме- Заменить k на ?+ 1, положить /=1 и перейти к шагу 1. Шаг 4. Если А^е, то остановиться; xk — решение. В про- противном случае заменить А на А/2. Положить yi = х*, xk+\ = х*, заменить k на А + 1, положить / = 1 и вернуться к шагу 1. Легко видеть, что описанные выше шаги 1 и 2 осуществляют исследующий поиск, а шаг 3 является ускоряющим шагом по направлению x^+i — х*. Заметим, что решение относительно того, делать ускоряющий шаг или нет, не принимается до тех пор, пока не будет выполнен исследующий поиск. На шаге 4 длина шага А сокращается. Процедура может быть легко модифици- модифицирована так, что по разным направлениям будут использоваться различные шаги. Эта модификация иногда используется с целью масштабирования. 8.4.3. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (х{ — 2L + (х{ — 2лг2J. Для решения задачи воспользуемся методом Хука и Дживса с дискретным шагом. В качестве параметров а и А выберем 1.0 и 0.2 соответственно. На рис. 8.9 показана траектория, полу- полученная алгоритмом из начальной точки @.0, 3.0). Построенные точки пронумерованы последовательно, а неудачные шаги пои- поиска по образцу показаны пунктирной линией. Для этой конкрет- конкретной начальной точки метод приводит к оптимальному решению.
Таблица 8.8 Результаты вычислений по методу Хука и Дживса с дискретным шагом к 1 2 3 4 « 6 8 9 10 Л 0.2 0.2 0.2 йл 0.2 0.2 ол 0.2 ОД 0,1 fM <2.00,3.00) 16.00 B.20,2.80) 11.56 B.60,2.40) 4:97 B.80,1.80) 1.05 B.80.1.40) $60,1.20J" 0.17 |2.20,1.00) 6.04 A.60,0.80) Ю.ОЗ A.60,0.80) 0.03 A.70,0.80) 0.02 / 1. 2 1 2 1 2 1 2 1 - 2 V 1 1 2 1 2 1 2 1 2 У/ «У/) B.00,3.00) 16.00 B.20,3.00) 14.44 B.40,2.60) 7.87 B.60,2.60) 6.89 C.00,2.00) 2.00 B.80,2.00) 1.85 C.00,1.20) 1.36 B.80,1.20) 0.57 B.80,1.00) 1.05 B.60,1.00) 0.49 B.40,1.00) 0.19 B.20,1.00) 0.04 A.80,0.80) 0.04 A.60,0.80) 0.03 A.00,0.60) 0.67 A.20,0.60) 0.41 A.60,0.80) 0.03 A.70,0.80) 0.02 A.80,0.80) 0.04 A.70,0.80) 0.02 AAQ.0) @,0,1.0) A.0,0.0) @.0,1.0) A.0,0.0) @.0,1.0) A.0,0.0) @.0,1.0) A.0,0.0) @.0,1.0) A.0,0.0) @.0,1.0) A.0,0.0) @.0,1.0) A.0,0.0) @.0,1.0) A.0,0.0) @.0,1.0) A.0,0.0) @.0,1.0) Yi+Ad/ f(y/+Ad/) B.20,3.00) 14.44(S) B.20,3.20) 17.64(F) B.60,2.60) 6.89(S) B.60,2.80) 9.13(F) C.20,2.00) 2.71(F) B.80,2.20) 2.97(F) C.20,1.20) 2.71(F) B.80,1.40) 0.41(S) C.00,1.00) 2.00(F) B.60,1.20) 0.17(S) B.60,1.00) 0.49(F) B.20,1.20) 0.04(F) B.00,0.80) 0.16(F) A.60,1.00) 0.19(F) A.20,0.60) 0.41(S) A.20,0.80) 0.57(F) A.70,0.80) 0.02(S) A.70,0.90) 0.02(F) A.90,0.80) 0.09(F) A.70,0.90) 0.02(F) Yi-Ad/ %,-Ady) x B.20,2.80) 11.56(S) — B.60,2.40) 4.97(S) B.80,2.00) 1.85(S) B.80,1.80) 1.05(S) B.80,1.20) 0.57(S) — B.60,1.00) 0.49(S) — B.20,1.00) 0.04(S) ' B.20,0.80) 0.36(F) A.60,0.80) 0.03(S) - A.60,0.60) 0.19(F) _ A.20,0.40) 0.57(F) A.70,0.70) O.1O(F) A.70,0.80) 0.02(S) A.70,0.70) 0.10(F) ' 10*
292 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ • 15 0.05 0.26 Рис. 8.9. Иллюстрация использования метода Хука и Дживса с дискретным шагом при начальной точке @.0,3.0) (числа обозначают порядок построения точек). Чтобы дать более исчерпывающую иллюстрацию, в табл. 8.8 приведены результаты вычислений для новой начальной точки B.0, 3.0). Здесь символом (S) обозначен удачный шаг, а симво- символом (F) — неудачный. На первой и последующих итерациях вся- всякий раз, когда /(уз)^/(х^), в качестве вектора yi берется х*. В противном случае yi = 2xk+\ — х*. В конце десятой итерации получена точка A.70, 0.80), в которой значение функции равно 0.02. Если требуется большая точность, то следует уменьшить значение А до 0.05. На рис. 8.10 показана траектория, полученная этим мето- методом. Вычисленные точки пронумерованы последовательно, а пунктирная линия соответствует неудачным шагам поиска по образцу.
8,4. МНОГОМЕРНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 293 • 3 Рис. 8.10. Иллюстрация использования метода Хука и Дживса с дискретным шагом при начальной точке B.0, 3.0) (числа обозначают порядок построения точек). Метод Розенброка В первоначальном варианте метода Розенброка не использова- использовалась одномерная минимизация по направлению, а применялись дискретные шаги вдоль направлений поиска. Здесь приводится непрерывный вариант метода с применением одномерной мини- минимизации. На каждой итерации процедура осуществляет итера- итеративный поиск вдоль п линейно независимых и ортогональных на- направлений. Когда получена новая точка в конце итерации, строится новое множество ортогональных векторов. На рис. 8.11у новые направления обозначены через di и d2. Построение направлений поиска Пусть di, ..., An — линейно независимые векторы, по норме равные единице. Предположим, что эти векторы взаимно орто- ортогональны, т. е. dJd/ = O для 1ф\. Начиная из текущей точки xki
294 гл- 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Рис. 8.П. Построение новых направлений поиска в методе Розенброка. целевая функция последовательно минимизируется вдоль ка- каждого из направлений, в результате чего получается точка В частности, хА+1 — xk = ? Xfdf, где Я/ — длина шага по направ- направлению d/. Новый набор направлений db ..., dn строится с по- мошью процедуры Грама — Шмидта следующим образом: если Я/ = О, если Я/ Ф О, при /=1, ау — g (aj'd,) d4 при />2, (8.9) Лемма 8.4.4 показывает, что новые направления линейно не- зависимы и ортогональны. 8.4.4. ЛЕММА. Предположим, что векторы di, ..., йп ли- линейно независимы и взаимно ортогональны. Тогда направления di, ..., dn, определенные соотношениями (8.9), также линейно независимы и взаимно ортогональны ^для любого множества Яь ..., Я„. Кроме того, если Я/ = 0, то d/ = d/. Доказательство. Прежде всего покажем, что аь .. •, а„ линей- п но независимы. Предположим, что 2 |*/а/=0. Пусть /= {/: Я/=0} 2 |
8.4. МНОГОМЕРНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 296 и /(/) = {': *Ф1, i>i}. Из (8.9) получаем, что Поскольку db ..., dn линейно независимы, имеем [Х/=^=0 для /е/ и!» 2 И* = 0 для }ф1. Но Я/^0 для \ф1 и, следо- *е/(/) ' вательно, 2 ^/ = 0. Таким образом, fXj = ... = fA/г = 0> и, fe/(/) значит, al9 ..., art линейно независимы. Докажем по индукции, что bi, ...» Ь„ линейно независимы. Так как bi = ai Ф 0, то достаточно показать, что если bi, ..., b& линейно независимы, то Ьь ..., bk, bk+\ также линейно незави- симы. Предположим, что 2^а/Ь/=зЕ0. Из определения Ь*+1 в (8.9) получаем, что 0 -1 «Ь + «"¦ *w -1 [Of - ,CY] У (8.10) Из (8.9) следует, что вектор Ь/ является линейной комбинацией векторов а}, ..., ау. Поскольку аь ..., SLk+i линейно независимы, то из (8.10) следует что afe+1 = 0. Так как Ьь ..., Ь^ по пред- предположению индукции линейно независимы, то из (8.10) полу- получаем, что а/ — ал+1ал+1^//|Ь/|| = 0' / = 1, ..., k. Отсюда следует, что если a*+i = 0, то щ =« 0 для всех /. Это означает, что bi, .», ..., b^+i линейно независимы. Из определения d/ сразу же сле- следует их линейная независимость. Теперь покажем ортогональность blf ¦.., Ьп и, следовательно, ортогональность Аь .,., d^. Из (8.9) очевидно, что bfЬа == 0 и, таким образом, достаточно показать, что если взаимно орто- ортогональны bi, ••¦> Ьл, то и bi, ..., bk, bfc+i тоже взаимно орто- ортогональны. Учитывая, что b/d* = O для i^j, из (8.10) следует, что ) ^ 0. Таким образом, bi, ..., b^+i взаимно ортогональны. Завершая доказательство, покажем, что dy = d/, если А/ = 0. Если Лу=5=0, то из (8.9) получаем, что
296 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Заметим, что bt является линейной комбинацией векторов i аь ..., а/, так что bz=?prrar. Таким образом, из (8.9) сле- следует, что b,-= ? P/A+ ? Р/гГ ? МЛ (8.12) где R = {r: г</, Д = 0}, /? = {г: г</, Яг=^0}. Рассмотрим i < j и заметим, что d[dv = 0 для v=^=/. Для г е /? очевидно, что г^/</, и, следовательно, d[dr = O. Для rtfcR имеем d/1 ? ksds) = kjdTjdj = X]. По предположению Яу = О, в силу чего, умножая (8.12) на d/, получаем, что d[bi = O для / </. Из (8.11) следует, что b/ = d/ и, значит, d/ = d/. ¦ Из этой леммы следует, что новое направление d/ совпадает со старым d/, если Я/ = 0. Следовательно, необходимо вычислять новые направления только для тех индексов, для которых Я/ ф 0. Алгоритм метода Розенброка с минимизацией по направлению Приведем теперь алгоритм Розенброка, использующий ли- линейный поиск по направлению для минимизации функции не- нескольких переменных. Покажем, что если / дифференцируема, то метод сходится к точке, в которой градиент равен нулю. Начальный этап. Пусть е > 0 — скаляр, используемый в кри- критерии остановки. Выбрать в качестве du ..., dn координатные направления, начальную точку хь положить yi = Xi, k = j=\ и перейти к основному этапу. Основной этап. Шаг 1. Найти Я/ — оптимальное решение задачи минимизации f (у/ + Яd/•) при условии Я е Ех и положить У/+1 = У/ + Я/d/. Если j < п, то заменить / на /+ 1 и вернуться к* шагу 1. В противном случае перейти к шагу 2. Шаг 2. Положить xk+l = yn+l. Если ||хЛ+1 —x^||<e, то остановиться; в противном случае положить у1 = хЛ+1, заме- заменить k на k + 1, положить / = 1 и перейти к шагу 3. Шаг 3. Построить новое множество линейно независимых и взаимно ортогональных направлений в соответствии с (8.9). Обозначить новые направления через di, ..., dn и вернуться к шагу 1.
8.4. МНОГОМЕРНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 297 8.4.5. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (хг — 2L + (*i — 2х2J. Решим эту задачу методом Розенброка, использующим одно- одномерную минимизацию по направлению. В табл. 8.9 приведены результаты вычислений для начальной точки @.00, 3.00). Точка у2 получена минимизацией функции вдоль направления, di при начальной точке уь а у3 получена минимизацией / по направле- направлению d2 при начальной точке уг. После первой итерации имеем Я! = 3.13 и Я2 = —1.44. Используя (8.9), в качестве новых на- направлений поиска получаем @.91, —0.42) и (—0.42, —0.91). После четырех итераций получена точка B.21, 1.10), в которой значение целевой функции равно 0.002. При этом ||Х4 — х3||= 0.15 и процедура остановлена. v Таблица 8.9 Результаты вычислений по методу Розенброка с использованием одномерной минимизации к 1 2 3 4 f(xfc) @.00,3.00) 52.00 C.13,1.56) 1.63 B.61,1.24) 0.16 B.24,1.13) 0.004 ' / 1 2 1 2 1 2 1 2 «?/) @.00,3.00) 52.00 C.13,3.00) 9.87 C.13,1.56) 1.63 B.82,1.70) 0.79 B.61,1.24) 0.16 B.29, 1.04) 0.05 B.24, 1.13) 0.004 B.20,1.12) 0.003 A.00,0.00) @.00,1.00) @.91,-0.42) (-0.42,-0.91) (-0.85, -0.52) @.52, -0.85) (-0.96, -0.28) @.28, -0.96) А/ 3.13 -1.14 1-0.34 0.51 0.38 -0.10 0.04 0.02 Y/+i «Y/-i> C.13,3.00) 9.87 C.13,1.56) 1.63 B.82,1.70) 0.79 B.61,1.24) 0.16 B.29,1.04) 0.05 B.24,1.13) 0.004 B.20,1.12) 0.003 B.21,1.10? • 0.002 На рис. 8.12 показан процесс минимизации. Интересно срав- сравнить этот рисунок с рис. 8.13, на котором показан процесс ми- минимизации методом Розенброка с дискретным шагом. Сходимость метода Розенброка Заметим, что в соответствии с леммой 8.4.4 направления поиска, используемые методом, линейно независимы, взаимно ортогональны и норма каждого из них равна единице. Таким
298 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ 1 2 3 Рис. 8.12. Метод Розенброка с минимизацией по направлению. образом, на любой итерации матрица D направлений поиска удовлетворяет равенству DrD = I. Это означает, что det[D] = 1, и, следовательно, предположение 1 теоремы 7.3.5 выполняется. Из этой теоремы следует, что метод Розенброка, использующий одномерную минимизацию по направлению, сходится к стацио- стационарной точке, если выполнены следующие условия: 1. Минимум функции / по любому направлению в Еп един- единствен. 2. Последовательность точек, генерируемая алгоритмом, со- содержится в компактном множестве пространства Еп. Метод Розенброка с дискретным шагом Как уже отмечалось, предложенный Розенброком метод не использует одномерную минимизацию. Вместо этого по ортого- ортогональным направлениям делаются дискретные шаги, длина ко- которых изменяется в зависимости от значения функции в вычис- вычисленной точке. Приведем алгоритм этого варианта метода.
8.4. МНОГОМЕРНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 299 Рис. 8.13. Метод Розенброка с дискретным шагом (числа обозначают поря- порядок построения точек). Начальный этап. Выбрать число е > 0 для остановки алго- алгоритма, коэффициент растяжения а > 1 и коэффициент сжатия ре(-1,0). Взять в качестве di, ..., dn координатные направ- направления и выбрать Ai, ..., А* > 0 — начальную длину шага вдоль каждого из направлений. Выбрать начальную точку хь положить У1 = хь k = j=l9 А/ = А/ для всех / и перейти к основному этапу. Основной этап. Шаг 1. Если / (у7 + A/dy) < / (уу), то шаг по /-му направлению считается успешным. Положить yy+i = = y/ + A/d/ и заменить А/ на аДу. Если же / (у; + Aydy) > / (у/), то шаг считается неудачным. Положить yy+i = у/ и А/ заменить на 0АУ. Если j <п, то заменить / на /+ 1 и повторить шаг 1. В противном случае, т. е. при j — ny перейти к шагу 2. Шаг 2. Если f(y«+i) < / (уО. т- е- если хотя бы °&ш СПУСК по направлению на шаге 1 оказался успешным, положить
300 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ yi =У*и. 1 = 1 и повторить шаг 1. Пусть f(yn+i) = f(yi), т. е. каждый из п последних спусков по направлению на шаге 1 был неудачным. Если f(yn+i)< f(xk), т. е. по крайней мере один удачный спуск встретился в течение k-й итерации на шаге 1, то перейти к шагу 3. Если f(yn+i) = f (**), т. е. не было ни одного удачного спуска по направлению, то остано- остановиться. При этом xk является приближенным оптимальным решением, если |Д/|< е для всех /. В противном случае поло- положить у1 = ул+ь /=1 и перейти к шагу 1. Шаг 3. Положить хй+1 = ул+1. Если ||х*+1 —х*||< е, то оста- остановиться; Х/е-и — приближенное оптимальное решение. В про- противном случае вычислить Аь ..., Кп из соотношения xk+l — xk = Таблица 8.10 Результаты вычислений по методу Розенброка с дискретным шагом Yi @.00,3.00) 1 52.00 2 1 2 1 2 I 2 I 2 1 2 1 2 @.00,3.00) 52.00 @.10,3.00) 47.84 @.10,3.00) 47.84 @.30, 3.00) 40.84 @.30, 2.95) 39.71 @.70, 2.95) 29.90 @.70,2.85) 27.86 A.50,2.85) 17.70 A.50,2.65) 14.50 C.10,2.65) 6.30 C.10,2.25) 3.42 C.10,2.25) 3.42 C.10,1.45) 1.50 C.10,1.45) 1.5.0 * 0.10 0.10 0.20 -0.05 0.40 -0.10 0.80 -0.20 1.60 -0.40 3.20 -0.89 -1.60 -1.69 A.00,0.00) @.00,1.00) A.00,0.00) @.00,1.00) A.00,0.00) @.00,1.00) A.00,0.00) @.00,1.00) A.00,0.00) @.00,1.00) A.00,0.00) @.00,1.00) a A.00,0.00) @.10,3.00> 47.84(S) @.10,3.10) 50.24(F) @.30,3.00) 40.84(S) . @.30,2.95) 39.71(S) @.70,2.95) 29.90(S) @.70,2.85) 27.86(S) A.50,2.85) 17.70(S) A.50,2.65) 14.50(S) C.10,2.65) 6.30(S) C.10,2.25) 3.42(S) F.30,2.25) 345.12(F) C.10,1.45) 1.50(S) A.50,1.45) 2.02(F) ^.10,-0.15) ШИП
8.4- МНОГОМЕРНЫЙ ПОИСК БЕЗ ИСПОЛЬЗОВАНИЯ ПРОИЗВОДНЫХ 301 X* Yj 2 (ЗЛО; 1.45) 1 C.10,1.45) ОЛО @.89,-0.45) (ЗЛ9,1.41) 1.50 2 1 2 1 2 1 2 1.50 (ЗЛО, 1.45) 1.50 C.06,1.36) 1.38 C.02,1.38) 1.15 B.93,1.20) 1.03 B.84,1.25) 0.61 B.84,1.25) 0.61 B.66,1.34) 0Л9 ОЛО -0.05 0.20 -ОЛО 0.40 -0.20 -0.20 (-0.45, -0.89) @.89, -0.45) (-0.45,-0.89) @.89, -0.45) (-0.45, -0.89) @.89,-0.45) (-0.45,-0.89) 2.14(F) C.06,1.36) 1.38(S) C.0'2,1.38) 1.15(S) B.93,1.20) 1.03(S) B.84,1.25) 0.61 (S) B.66,0.89) 0.96(F) B.66,1.34) 0.19(S) B.75,1.52) , 0.40(F) X //> построить новые направления в соответствии с (8.9), обозначить их через db ..., dft, положить A/ = Ay для всех /, положить У1 = Ха+1, заменить k на &+1, положить /=1 и перейти к шагу 1. Заметим, что дискретные шаги выбираются вдоль п направ- направлений поиска на шаге 1. Если движение вдоль dj оказалось успешным, то А/ заменяется на аД/, если же на этом направле- направлении постигла неудача, то А/ заменяется на рД/. Так как {$ < 0, то неудача приводит к сдвигу в обратном направлении вдоль /-го вектора на следующей реализации шага 1. Заметим, что шаг 1 повторяется до тех пор, пока неудача будет иметь место при спуске по каждому из направлений поиска. В этом случае строятся новые направления поиска в соответствии с процедурой Грама —Шмидта. 8.4.6. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (х{ — 2L + (х{ — 2х2J. Решим эту ^задачу методом Розенброка с дискретным ша- шагом, положив Ai == А2 = 0Л, а = 2.0 и р = —0.5. В табл. 8.10 приведены результаты вычислений для начальной точки @.00, 3.00), где символом (S) отмечены успешные, а символом (F) неудачные шаги по направлению. Заметим, что в пределах
302 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ каждой итерации направления di и сЬ фиксированы. После семи реализаций шага 1 из точки х[==@.00, 3.00) получена х? = = C.10, 1.45). В этой точке потребовалось изменение направле- направлений. В частности, (хг — Xi) = Xidi + ЯгсЬ, где Xi*=*3.10, %2 = = —1.55. Читатель может легко проверить, что новыми направ- направлениями поиска являются @.89, —0.45) и (—0.45, —0.89). Эти направления использованы на второй итерации, на которой про- процедура остановлена. На рис. 8.13 показан процесс минимизации методом Розен- брока (полученные точки пронумерованы последовательно). 8-5. Многомерный поиск, использующий производные В предыдущем параграфе было описано несколько процедур, которые в процессе оптимизации используют только вычисление функции. Теперь обсудим некоторые методы, использующие про- производные при определении направлений поиска. В частности, рассмотрим метод наискорейшего спуска и метод Ньютона. Метод наискорейшего спуска Метод наискорейшего спуска является одной из наиболее фун- фундаментальных процедур минимизации дифференцируемой функ- функции нескольких переменных. Напомним, что вектор d называ- называется направлением спуска для функции / в точке х, если су- существует такое б > 0, что f(x + Xd)< f(x) для всех Хе@, б). В частности, если lim ) ~ / W < о, то d — направление спуска. В методе наискорейшего спуска осуществляется движе- движение вдоль направления d, для которого ||d|| = 1 и которое мини- минимизирует приведенный выше предел. Лемма 8.5.1 показывает, что если функция / дифференцируема в точке х и V/(x)=t^ 0, то —Vf (х:) /|| Vf (х) П является направлением наискорейшего спуска. В связи с этим метод наискорейшего спуска иногда называют градиентным методом. 8.5.1. ЛЕММА. Предположим, что f: En->E{ дифференци- дифференцируема в точке х, и пусть vf(x)=^0. Тогда оптимальным реше- решением задачи минимизации f(x; d) при условии ||d||<; 1 является вектор d==— ?f(x)/||V/(x)||, т. е. — V/(x)/||V/(x)j| является на- направлением наибольшего убывания функции / в точке х. Доказательство. Из дифференцируемое™ / в точке х следует, что Г (х; d)= lim
8.5. МНОГОМЕРНЫЙ ПОИСК, ИСПОЛЬЗУЮЩИЙ ПРОИЗВОДНЫЕ 303 Таким образом, задача сводится к минимизации yf{x)Td при условии ||d|| < 1. В силу неравенства Шварца для ||d|| < 1 имеем: V/ (х)т d > -1| V/ (х) || || d || > -1| V/ (х) ||. для d = — v/ (x)/ll V/ (х) II выполняется равенство \f (x)r d = = ||V/(x)||. Таким образом, d является оптимальным решением задачи минимизации \f(x)Td при условии ||d||=l. ¦ ' Алгоритм наискорейшего спуска При заданной точке х алгоритм наискорейшего спуска за- заключается в реализации линейного поиска вдоль направления —V/(x)/||V/(x)|| или, что то же самое, вдоль направления —Vf(x). Рассмотрим алгоритм метода. Начальный этап. Пусть g > 0 — константа остановки. Вы- Выбрать начальную точку хь положить 4=1 и перейти к основ- основному этапу. Основной этап. Если ||у/(хл)||<в, то остановиться; в про- противном случае положить d^ = — v/ (х*) и найти Xk — оптималь- оптимальное решение задачи минимизации f(xk-\-Xdk) при Л^О. Поло- Положить Xfc+i = Xfc +A*db заменить k на &+1 и повторить основ- основной этап. Таблица 8.11 Результаты вычислений по методу наискорейшего спуска х* к f(xk) • Vf(xk) ||W(xk)|| dk = -W{xk)< Ak * xk^ 1 @.00,3.00) (-44.00,24.00) 50.12 D4.00,-24.00) 0.062 B.70,1.51) 52.00 2 B.70,1.51) @.73,1.28) 1.47 (-0.73,-1.28) 0.24 B.52,1.20) 0.34 3 B.52,1.20) @.80,-0.48) 0.93 (-0.80,0.48) 0.H B.43,1.25) 0.09 4 B.43,1.25) @.18,0.28) 0.33 (-0.18,-0.28) 631 B.37,1.16) 0.04 " ч 5 B.37,1.16) @.30,-0.20) 0.36 (-0.30,0.20) 0 12 B.33,1.18) 0.02 6 B.33,1.18) @.08,0.12) 0.14 (-0.08,-0.12) 0.36 B.30,1.14) 0.01 -*«* 7 B.30,1.14) @.15,-0.08) 0.17 (-0.15,0.08) 0.13 B.28,1.15) 0.009 8 B.28,1.15) @.05,0.08) 0.09 0.007
304 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ 1 2 Рис. 8.14. Метод наискорейшего спуска. 8.5.2. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (х{ — 2L + (*i — 2лг2J. Решим эту задачу, используя метод наискорейшего спуска при начальной точке @.00, 3.00). В табл. 8.11 приведены ре- результаты вычислений. После семи итераций получена точка х8 = B.28, 1.15)т. Алгоритм остановлен, так как норма l|Vf(x8)|| =0.09 достаточно мала. На рис. 8.14 показан процесс минимизации этим методом. Заметим, что точкой минимума для этой задачи является точка B.00, \Ш)Т. Сходимость метода наискорейшего спуска Пусть Q={x: V/(x)=0}, a f — функция спуска. Алго- Алгоритмическое отображение A = MD, где D(x) = [x, V/(x)], a M есть отображение линейного поиска на замкнутом интервале [0, оо). Предположим, что функция f непрерывно дифференци- дифференцируема. Тогда отображение D непрерывно. Кроме того, М замк- замкнуто по теореме 8.3.1. Следовательно, алгоритмическое отобра-
8.5. МНОГОМЕРНЫЙ ПОИСК, ИСПОЛЬЗУЮЩИЙ ПРОИЗВОДНЫЕ 305 жение А замкнуто по следствию 2 из теоремы 7.3.2. Наконец, если х^О, то V/(x)rd<0, где d = — V/(x). По теореме 4.1.2 вектор d является направлением спуска и, следовательно, /(у)< </(х) для уеА(х). Предположим, что генерируемая алгорит- алгоритмом последовательность содержится в компактном множестве. Тогда по теореме 7.2.3 алгоритм наискорейшего спуска сходится к точке, в которой V/(x) = 0. Явление зигзага в методе наискорейшего спуска Метод наискорейшего спуска обычно работает довольно хо- хорошо на начальной стадии процесса минимизации. Однако вблизи стационарной точки метод часто работает плохо, потому что делаются маленькие шаги по направлениям. Такой эффект зигзага встречался в примере 8.5.2 и показан на рис. 8.14, где зигзаг происходит вдоль ложбины, показанной пунктирной ли- линией. Явление зигзага и плохую сходимость алгоритма наиско- наискорейшего спуска на последних итерациях можно объяснить, если рассмотреть следующее выражение для функции /: f (xk + M) = f (xk) + XVf (x}if d + Я || d || a (x,; где a(x*; A,d)->0 при A,d->-0 и d = — Vf(x*). Если точка xk близка к стационарной точке с нулевым градиентом и если / непрерывно дифференцируема, то II V/(x^)|| будет мала, при этом слагаемое XVf(xk)Td = — Я|| V/(x*)||2 становится величиной меньшего порядка. Так как метод наискорейшего спуска исполь- использует линейную аппроксимацию функции f для нахождения на- направления спуска, где член X||d||a(x&; Xd), по существу, игнори- игнорируется, то естественно ожидать, что направления, генерируемые на последних шагах, не будут достаточно эффективными. Как будет показано далее в этой главе, имеется несколько путей к преодолению трудностей, связанных с появлением зиг- зигзага посредством отклонения от направления градиента. Вместо того чтобы двигаться вдоль d = —Vf(xk), делается спуск вдоль вектора d = —DVf(x*) или вдоль d = —Vf(xfc) + g, где D — подходящая матрица, а g — подходящий вектор. Эта процедура коррекции далее будет обсуждаться более подробно. Метод Ньютона В § 8.2 обсуждался метод Ньютона для минимизации функции одного переменного. В случае функции нескольких переменных метод Ньютона является процедурой, которая отклоняет на- направление наискорейшего спуска умножением его на матрицу, обратную к матрице Гессе. Эта операция мотивируется на- нахождением подходящего направления для квадратичной
306 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ аппроксимации функции, в то время как в градиентном поиске выбор направления связан с минимизацией линейной аппрокси- аппроксимации функции. В связи с этим рассмотрим квадратичную ап- аппроксимацию q функции / в заданной точке х*: Я (х) = / (х,) + V/ (х,)т (х - Хл) + j (х - xkf Н (х,) (х - х,), где Н (xk) — матрица Гессе функции / в точке xk. Необходимым условием минимума квадратичной аппроксимации q является равенство \q (х) = 0 или \f (xk) + Н (хк) (х — xk) = 0. Предпола- Предполагая, что матрица, обратная к матрице Н (хл), существует, цолучаем = Хй — Н (xk)~l Vf (xk). Это равенство дает рекуррентную форму для точек, генерируе- генерируемых методом Ньютона в многомерном случае. Предполагая, что Vf(x) = 0, H(x) положительно определена в точке локального минимума х и функция f дважды непрерывно дифференцируема, получаем, что Н(х^) положительно определена в точках, близ- близких к х, и, следовательно, точка x*+i является точкой минимума квадратичной аппроксимации. 8.5.3. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (хх — 2L + {хх — 2х2J. Результаты вычислений, использующих метод Ньютона, при- приведены в табл. 8.12. На каждой итерации x*+i определяется по формуле l После шести итераций получена точка Х7 = A.83, 0.91)г. В этой точке ||V/(x7)||=0.04 и процедура остановлена. Точки, построен- построенные методом, показаны на рис. 8.15. В приведенном примере значение целевой функции убывает на каждой итерации. Однако в общем случае это не так, по- поэтому функцию / нельзя использовать в качестве функции спу- спуска. Теорема 8.5.4, приведенная ниже, показывает, что метод Ньютона сходится при условии, что процесс начинается из точки, достаточно близкой к оптимальной. Сходимость метода Ньютона В общем случае метод Ньютона может не сходиться. Это объясняется тем, что Н(х*) может быть сингулярной, так что xk+i не определена. Даже если Щх*)-1 существует, /(x*+i) не обязательно меньше, чем ((хь). Однако если начальная точка
Таблица 8.12 Результаты вычислений по методу Ньютона f(xk) Vf(xk) H(xk) ЩхкГ [50.0 -4.01 1 Г8.0 4.61 -4.0 8.о] Ш[л.* 50.0J ,2 3 4 5 6 7< @67*0.33) 3.13 A.11,0.56) 0.63 A.41,0.70) 0.12 A.61,0.80) 0.02 0.005 (U3,0.^1) 0.0009 (-9.39, -0.04") Г-2.84, -0.04) (-0.80, -0.04) (-0.22, -0Л4) (-0ДГ7,0.00) @.0003, -0.04) [523 -JJ] ^[j; ^] @.44,0.23) A.11,0.56) @.30.0.14, d.4.,0.70) JJ] ^[JJ «gJ №20.6.10) A.61,0.80) @.13.0.07). A.74,0.87) (oo9oo4)
308» ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ 31 1 2 3 Рис. 8.15. Метод Ньютона. достаточно близка к точке х, в которой V/(x) = 0 и Н(х) —ма- —матрица полного ранга, то метод Ньютона сходится к х. Это до- доказывается в теореме 8.5.4, где показывается, что все предполо- предположения теоремы 7.2.3 выполняются, а функция спуска а опре- определяется в виде а(х)=||х — х||. 8.5.4. ТЕОРЕМА. Пусть функция /: Еп^>Е\ дважды непре- непрерывно дифференцируема. Рассмотрим алгоритм Ньютона, опре^ деленный отображением А (х) = х — Н (х)" \f (x). Пусть точка х такова, что \f (х) = 0 и Н (х)" существует. Предположим, что начальная точка X! достаточно близка к х, так что существуют k\9 k2 > 0, для которых kh k2 < 1, такие, что 1. |Н(ХГ! !<*!,¦) || Vf (х) - VI (х) ~ Н (х) (х - х) || < к Их — х || "** 2. *) Пусть А — матрица порядка п определяется следующим образом: 1|х||-1 для любого вектора z справедливо неравенство II Az II ^ И А || || z ||. п. Норма А, обозначаемая через II А II, || max || Ах||/||х||. Таким образом, 1|||1
8.5. МНОГОМЕРНЫЙ ПОИСК, ИСПОЛЬЗУЮЩИЙ ПРОИЗВОДНЫЕ 309 для каждого х, удовлетворяющего неравенству Их —х||^С ^ ||xi — х||. Тогда алгоритм сходится к х. Доказательство. Пусть множество решений Q={x} и Х = =={х: ||х —x||^||xi — х||}. Докажем сходимость, используя теорему 7.2.3. Заметим, что X — компакт и отображение А замк- замкнуто на X. Теперь покажем, что а(х)= ||х — х|| является функ- функцией спуска. Пусть xgX, и предположим, что х^=х. Рассмот- Рассмотрим уЕА(х). Тогда по определению Айв силу того, что уДх) = 0, получаем = H(xr1[V/(x)-Vf(x)-H(x)(x-x)]. Учитывая A) и B), приходим к выводу, что ey-xlHlHtxr^v/W-v/txj-HtxXl-xMK <| Н (х)-11| Vf (х) - Vf (х) - Н (х) (х - х) Ц< Таким образом показано, что а действительно является функ- функцией спуска. По следствию из теоремы 7.2.3 метод сходится. ¦ Модификация метода Ньютона Обсудим теперь модификацию метода Ньютона, которая га- гарантирует сходимость независимо от начальной точки. Рассмо- Рассмотрим при заданном х направление d = —BVf(x), где В — сим- симметрическая положительно определенная матрица, которая бу- будет определена позже. Построим точку у = х +Id, где X— опти- оптимальное решение задачи минимизации f(\ + Xd) при Х^О. Возьмем в качестве матрицы В матрицу (е! + Н), где Н = = Н(х). Скаляр 8^0 определяется следующим образом. За- Зафиксируем б > 0 и пусть е^О — наименьшее число, при кото- котором все собственные значения матрицы (el + Н) больше или равны б. Так как все собственные значения матрицы е/+ Н по- положительны, то el + Н положительно определена и имеет об- обратную. В частности, В = (el + Н)-1 также положительно опре- определена. Так как собственные значения матрицы непрерывно за- зависят от ее элементов, то е является непрерывной функцией от х> и, следовательно, точечно-точечное отображение D: Еп-+ЕпХ ХЕп вида D(x) = (x, d) непрерывно. Таким образом, алгоритми- алгоритмическое отображение А = MD, где М — обычное отображение ли- линейного поиска на {X: X > 0}.
310 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Пусть Q*= {x: Vf(x) = O} их^О. Так как В положительно определена, то d = —BVf(x)#=O и из теоремы 8.3.1 следует, что М замкнуто в (х, d). Поскольку, кроме того, D — непрерывная функция, то по следствию 2 из теоремы 7.3.2 отображение А = MD замкнуто на дополнении к Q. Чтобы воспользоваться теоремой 7.2.3, нужно установить не- непрерывность функции спуска. Предположим, что х ф Q, и пусть уеА(х). Заметим, что Vf(x)rd = — Vf(x)rBV/(x)< 0, по- скольку В положительно определена и V/(x)=7^=0. Таким обра- образом, d является направлением спуска для функции f в точке х, и по теореме 4.1.2 справедливо неравенство /Чу)</(х). Следова- Следовательно, / является функцией спуска. Предполагая, что генери- генерируемая алгоритмом последовательность содержится в компакт- компактном множестве, из теоремы 7.2.3 получаем, что алгоритм схо- сходится. Необходимо заметить, что если наименьшее собственное зна- значение Н(х) больше или равно б, то как только точки {х*}, гене- генерируемые алгоритмом, достигнут х, значение г*, должно быть равно нулю. Таким образом, &k =*—W(Xk)~xVf(xk) и алгоритм становится методом Ньютона. 8.6. Методы, использующие сопряженные направления В этом параграфе обсуждается несколько процедур, основанных на важном понятии сопряженности. Некоторые из этих процедур используют производные, другие — только значения функции. Определенное ниже понятие сопряженности очень важно в зада- задачах безусловной минимизации. В частности, если целевая функ- функция квадратична, то поиском вдоль сопряженных направлений можно получить точку минимума не более чем за п шагов. 8.6.1. ОПРЕДЕЛЕНИЕ. Пусть Н — симметрическая матрица порядка яХя- Векторы di, ..., dk называются Н-сопряженны- ми, или просто сопряженными, вели они линейно независимы и d[Hdy = O при 1Ф1 На следующем примере иллюстрируется понятие сопряжен- сопряженности и подчеркивается значение сопряженных направлений для оптимизации квадратичных функций. 8.6.2. ПРИМЕР. Рассмотрим следующую задачу: минимизировать — 12лг2 + 4х\ + Ах\ — 4ххх2. Заметим, что матрицей Гессе заданной функции является 8 -4
8.6, МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ СОПРЯЖЕННЫЕ НАПРАВЛЕНИЯ 311 Рис. 8.16. Сопряженные направления. Теперь построим два сопряженных направления di и ch- Пред- Предположим, что в качестве первого из них выбран вектор df = (l,O). Тогда dj = (a, b) должен удовлетворять равенству 0 = d[Hd2=8a — 4b. В частности, можно выбрать а = 1 и Ь = 2, так что d2=(l,2). Можно заметить, что сопряженные направления определяются неоднозначно. Если минимизация целевой функции f начинается из точки x[ = f — -г-» 0 вдоль направления di, то получим точку х?=Гу, 1). Теперь, минимизируя / из точки х2 по направле- направлению d2, получим х? = A, 2), которая является точкой минимума. Линии уровня целевой функции и путь к оптимальной точке показаны на рис. 8.16. Читатель легко может проверить, что, на- начиная из любой точки и минимизируя значение функции вдоль di и d2, оптимальную точку можно получить не более чем за два шага. Оптимизация квадратичных функций. Конечная сходимость В приведенном выше примере показано, что минимум квадра- квадратичной функции может быть найден не более чем за п шагов при условии, что поиск ведется вдоль сопряженных относитель- относительно матрицы Гессе направлений. Как показано в теореме 8.6.3, этот результат справедлив для всех квадратичных функций. По- Поскольку произвольная функция может быть достаточно хорошо представлена в окрестности оптимальной точки ее квадратич- квадратичной аппроксимацией, понятие сопряженности становится очень
312 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ удобным для оптимизации как квадратичных, так и неквадра- неквадратичных функций. 8.6.3. ТЕОРЕМА. Пусть/(х) = сгх + ухгНх, где Н —сим- —симметрическая матрица порядка п X ^ Рассмотрим Н-сопряжен- ные векторы di, .,., dn и произвольную точку хь Пусть %k для k = 1, ..., п — оптимальное решение задачи минимизации f(xk + Xdk) при X^Ei и xk+i=Xk + hkdk. Тогда для k=lt ... ..., п справедливы следующие утверждения: 1. V/(x*+iL=0, / = 1 Л; 2. Vf(XlOd*= \f(xk)Tdk\ 3. Xfc+i является оптимальным решением задачи минимиза- минимизации /(х) при условии х —xi eL(di, ..., d*), где L(db ...,d*) — линейное подпространство, натянутое на векторы di, ..., d*, т. е. L(db ..., d^)== < X \ijdf: \ij e Eh для всех />. В частности, хя+! — точка минимума функции / на Еп. Доказательство. Для доказательства утверждения 1 заметим прежде всего, что /(ху + Xd/) достигает минимума в точке Я/ только в том случае, если V/(x/ + A,/d/)rd/ = 0, так что Vf(x/+iOd/ = 0. Таким образом, утверждение 1 справедливо для / = k. Для / < k заметим, что = с+ Нх/+1 + Н ( t^ М/) = V/ (х/+1) + Н ^ В силу сопряженности имеет место равенство dfHd/ = O для ; = /+1, ..., k. Таким образом, из (8.13) следует, что V/(xfc+i)rdy = 0 и утверждение 1 доказано. Заменяя k на k— 1 и полагая / = 0 в (8.13), получаем ^S») Для Умножая на d[ и учитывая, что dj Hdi = 0 для i=l, ...,fe—1, покажем, что утверждение 2 справедливо для k^2. Справед- Справедливость утверждения 2 для k = 1 очевидна. Так как d/Hd/ = 0 для / Ф /, то получаем (8.14)
8.6. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ СОПРЯЖЕННЫЕ НАПРАВЛЕНИЯ 313 Теперь предположим, что х —xi^L(di, ..., d*), так что век- k тор х может быть представлен в виде Xi + 2 M'/d/. Как и в 2 (8.14), получаем / (х) = / (Xl) + V/ (х[) (? *А + ± ? »W™r (8.15) Для завершения доказательства нужно показать, что ^f(xjfe+i). Предположим противное, т. е. пусть /(х)< Тогда из (8.14) и (8.15) имеем По определению X/ для всех / выполняется неравенство /(х/ + Xjdj) < f (x/ + |i/d/). Следовательно, В силу справедливости утверждения 2 Vf(xf)Tdf = Vf(xi)rd/. Подставляя это в последнее неравенство, получаем Л, V/ (Xl)r dy +1 ^Hd; < |i;Vf (xxy dy + 1 |iJd[Hd/e (8.17) Просуммировав (8.17) no /=1, ..., k> получим противоречие с (8.16), Таким образом, хш является точкой минимума / на множестве xi + L(di, ..., dk). В частности, так как db ..., dn линейно независимы, то L(db ..., йп) = Еп, и, следовательно, — точка минимума функции / на Еп. Ш Построение сопряженных направлений В оставшейся части этого параграфа будет описано несколько методов построения сопряженных относительно квадратичной формы направлений. Эти методы, как и следовало ожидать, приводят к эффективным алгоритмам минимизации как квадра- квадратичных, так и неквадратичных функций. В частности, обсужда- обсуждаются метод Дэвидона — Флетчера — Пауэлла, метод сопряжен- сопряженных градиентов Флетчера и Ривса и метод Зангвилла.
314 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Метод Дэвидона — Флетчера — Пауэлла Первоначально метод был предложен Дэвидоном (Davidon [1959]) и затем развит Флетчером и Пауэллом (Fletcher, Powell [1963]). Метод Дэвидона — Флетчера — Пауэлла называют так- также и методом переменной метрики. Он попадает в общий класс квазиньютоновских процедур, в которых направления поиска задаются в виде —D/V/(y). Направление градиента является, таким образом, отклоненным в результате умножения на —D/, где D/ — положительно определенная симметрическая матрица порядка пУ^п, аппроксимирующая обратную матрицу Гессе. На следующем шаге матрица D/+i представляется в виде суммы D/ и двух симметрических матриц ранга один каждая. В связи с этим схема иногда называется схемой коррекции ранга два. Алгоритм Дэвидона — Флетчера — Пауэлла Рассмотрим алгоритм Дэвидона— Флетчера — Пауэлла ми- минимизации дифференцируемой функции нескольких переменных. В частности, если функция квадратичная, то, как будет показано позднее, метод вырабатывает сопряженные направления и оста- останавливается после выполнения одной итерации, т. е. после поиска вдоль каждого из сопряженных направлений. Начальный этап. Пусть е > 0 — константа для остановки. Выбрать точку xi и начальную симметрическую положительно определенную матрицу Dj. Положить yi = хь k = j = \ и пе- перейти к основному этапу. Основной этап. Шаг 1. Если l|Vf(y/)|| < e, то остановиться; в противном случае положить d/ = —D/V/(у,) и взять в каче- качестве Я/ оптимальное решение задачи минимизации f(y/ + A,d/) при X ^ 0. Положить у/4-i = у/ + Я/d/. Если / <С п, то перейти к шагу 2. Если / = п, то положить yi = x^+i = Ул+ь заменить k на k + 1, положить / = 1 и повторить шаг 1. Шаг 2. Построить D/+i следующим образом: Р/Р/ где P/ = M/, (8.19) (8.20) Заменить / на /+ 1 и перейти к шагу 1. 8.6.4. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (хх — 2L + (х{ — 2х2J. Результаты вычислений методом Дэвидона — Флетчера — Пау- Пауэлла приведены в табл. 8.13. На каждой итерации вектор d/ для
Таблица 8.13 Результаты вычислений по методу Дэвидона — Флетчера — Пауэлла X* У/ / /(У/) 1 3 4 @.00,3.00) E2.00) B.55,1.22) @.1036) B.27,1.11) @.008) B.12,1.05) @.0005** 1 2 1 2 1 2 1 2 @.00,3.00) § E2.00) B.70,1.51) @.34) B.55,1.22) ! @.1036) B.45,1.27) @.0490) B:27,1.11) @.008) B.25,1.13) @.004) B.12, 1.05) @.0005) B.115,14M8) @.0002) (-44.00,24.00) @-89, -&44) {(Ш,СГ.36) (ОД^-0.20} @.05, -0.08) 50.12 1.47 0.99 0.40 в-27 0.09 Г0.25 [0.38 в (.65 Ь.45 с Г0.80 10.38' а 0.38] 0.81J 3 0.45] 0.4б] 3 0.38] 0.31J 5] D4.00, -24.00) (-0.67,-1.31) (-0.89,0.44) (-0.28; -0.25) (-0.18,0.20) (-0.05,-<*03) (-0.05,0.08) 0.062 0.22 0.11 0.64 0.1Q 2.64 B.70,1.51) B.55,1.22) B.45,1.27) A27,1.11> B.25,1.13) BГ.12,1.05> 0.10BЛ15>1.058> -
316 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ 34 Рис. 8.17. Метод Дэвидона — Флетчера — Пауэлла. /=1, 2 определяется в виде — D/V/(yy), где Di —единичная матрица, a D2 вычисляется по формулам (8.18) — (8.20). При k=\ имеем pi = B.7, —1.49)^ 4l =D4.73, —22,72)г. На вто- второй итерации pi=(—0.1, 0.05)г, qi = (—0.7, 0.8O" и, наконец, на третьей итерации pi = (—0.02, 0.02)г, qi = (—0.14, 0.24O. Точка У/+1 вычисляется оптимизацией вдоль направления d, при на- начальной точке у/ для j = 1, 2. Процедура остановлена в точке у2 ===== B.115, 1.058)т на четвертой итерации, так как норма ||Vf(y2)|| ==0.006 достаточно мала. Траектория движения, полу- полученная методом, показана на рис. 8.17. Лемма 8.6.5 показывает, что каждая матрица D/ положи- положительно определена и d/ является направлением спуска. 8.6.5. ЛЕММА. Пусть у\^ЕПу a Di — начальная положи- положительно определенная симметрическая матрица. Для / = 1, ..., п положим у/+1 = у/ + Я/d/, где d/= —D/Vf(y/), a X/ является оптимальным решением задачи минимизации /(у/ -f Xdj) при X ^ 0. Пусть, кроме того, для /=1, ..., п—1 матрица D/+i определяется по формулам (8.18) —(8.20). Если Vf(y/)=^=O для
8.6. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ СОПРЯЖЕННЫЕ НАПРАВЛЕНИЯ 317 ]= 1, ..., п, то матрицы Di, ..., Dn симметрические и поло- положительно определенные, так что dj, ..., dn — направления спуска. Доказательство. Проведем доказательство по индукции. При / = 1 матрица Di симметрическая и положительно опре- определенная по условию леммы. Кроме того, Vf(yi)Td\ = = —V/(yiO'DiV/(y1)< 0, так как Di положительно определена. Тогда по теореме 4.2.1 вектор di определяет направление спуска. Предположим, что утверждение леммы справедливо для неко- некоторого j^n — 1, и покажем, что оно справедливо для /+1. Пусть х — ненулевой вектор из ЕП9 тогда из (8.18) имеем (8.21) Так как D/ — симметрическая положительно определенная ма- матрица, то существует положительно определенная матрица D//2, такая, что Dy = D}/2d}/2. Пусть а = DJ/2х и b = D}/2qr Тогда xTDjX = ага, qjО^^ЫЪ и xrD/q/ = arb. Подставляя эти выра- выражения в (8.21), получаем (822) По неравенству Шварца имеем (ага) (brb) ^ (аЛЬJ. Таким образом, чтобы доказать, что xrD/+ix ^ 0, достаточно показать, что pjqy >0 и ЬГЬ>О. Из (8.19) и (8.20) следует, что Заметим, что d[v/(y/+1) = 0, и по определению d/ = — D/Vf (у/). Подставим эти выражения в полученное выше равенство. Тогда (8.23) По предположению V/(y;)=H=0, и D/ положительно определена, так что V/(y/OD/V/(y/) > 0. Кроме того, d/ — направление спу- спуска, и, следовательно, Я/ > 0. Тогда из (8.23) следует, что Р/ГЧ/ > 0- Кроме того, q/ Ф 0, и, следовательно, brb=q[D/.q/ > 0. Покажем теперь, что xrD/+iX > 0. Предположим, что xrD/+iX = 0. Это возможно только в том случае, если (ага) (b7b) = (arbJ и р/х = 0. Прежде всего заметим, что (a3ra)(b7b) = (arbJ только при а = ЯЬ, т. е. D)/2x = AD)/2q.. Та- Таким образом, х = taj/. Так как х Ф 0, то К Ф 0. Далее, 0 = = pTx = Xpyq/ противоречит тому, что p[qy > 0 и Я^=0. Следова- Следовательно, xrDy+iX > 0, т.е. матрица D/+i положительно определена.
318 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Поскольку V/(y/+i)=5^0 и D/+i положительно определена, имеем Vf(y/4-,)rd/+i = -~V/r(y/+i)rDH.iV/(y/+i)<0. Отсюда по теореме 4.2.1 следует, что d/+i — направление спуска. ¦ Квадратичный случай Если целевая функция / квадратичная, то в соответствии со сформулированной ниже теоремой 8.6.6 направления di, ..., dn, генерируемые методом Дэвидона — Флетчера — Пауэлла, яв- являются сопряженными. Следовательно, в соответствии с утверж- утверждением 3 теоремы 8.6.3 метод останавливается после завершения одной итерации в оптимальной точке. Кроме того, матрица Dn+u полученная в конце итерации, совпадает с обратной к ма- матрице Гессе Н. 8.6.6. ТЕОРЕМА. Пусть Н — симметрическая положительно определенная матрица порядка п'Хп. Рассмотрим задачу мини- минимизации / (х) = с7х + -j хгНх при условии х е Еп. Предполо- Предположим, что задача решена методом Дэвидона — Флетчера — Пау- Пауэлла при начальной точке yi и начальной положительно опре- определенной матрице Di. В частности, пусть Я/, /=1, ..., п,— оптимальное решение задачи минимизации f (у/ + Ы/) при X ^ О и У/+1 = У/ + М/. гДе d/==— D/V/(y/), a D/ определяется по формулам (8.18) — (8.20). Если V/(y;)=^= 0 для всех /, то направ- направления di, ..., Ап являются Н-сопряженными и Drt+i = Н. Кроме того, уя+1 является оптимальным решением задачи. Доказательство. Прежде всего покажем, что для /, такого, что 1 ^ / ^ п, справедливы следующие утверждения: 1. di, ..., d; линейно независимы. 2. d[Hd^ = 0 для / Ф k\ /, k ^ /. 3. D/+iHpfc = p?, или, что эквивалентно, D/+iHd^ = d^ для 1 < k < /, pk = U&k. Проведем доказательство по индукции. Для / = 1 утвержде- утверждения 1 и 2 очевидны. Чтобы доказать утверждение 3, заметим прежде всего, что для любого k справедливы равенства Ир* = Н (М*) = Н (ум - у,) = V/ (ул+1) - V/ (у,) = q,. (8.24) В частности, Hpi = qle Таким образом, полагая / = 1 в (8.18), получаем т. е. утверждение 3 справедливо при /= 1.
8.6. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ СОПРЯЖЕННЫЕ НАПРАВЛЕНИЯ 319 Теперь предположим, что утверждения 1, 2 и 3 справедливы для j^n—1. Покажем, что они также справедливы и для /+!• Напомним, что по утверждению 1 теоремы 8.6.3 d[v/(y/+1) = 0 для I ^ /. По индуктивному предположению di = Dy+iHd/, I ^ /. Таким образом, для i ^ / имеем О = dJV/(У/+1) = d[HD/+lVf (У/+1) = - d[Hd/+1. Ввиду предположения индукции это равенство показывает, что утверждение 2 также справедливо для /+ 1. Теперь покажем, что утверждение 3 справедливо для j + I. Полагая k ^ / + 1, имеем п Нп — Гп о- рЖр/+* P/-nq/+iq/+ip/+i 1 „ (R 9-v и/+2Пр/г — IJ/+1 Н f f— Пр/fe. (O.^Dj L P/+1Q/+1 q/+iD/+iq/+i J Учитывая (8.24) и полагая ? = /+1 в (8.25), получим, что D/+2Hp/+i = р/+ь Теперь пусть k ^ /. Так как утверждение 2 справедливо для /+ 1, то p[+1HP, = V/+1dJ+lHd, = 0. (8.26) По предположению индукции из (8.24) и вследствие того, что утверждение 2 справедливо для /+ 1» получаем qJ+1D/+1Hp, - qj+1p, = p[+1Hpft = X/+I^dJ+IHd4 - 0. (8.27) Подставляя (8.26) и (8.27) в (8.25) и учитывая предположение индукции, получаем Таким образом, утверждение 3 справедливо для / + I. Осталось показать, что утверждение 1 справедливо для /+ 1. Предположим, что ? ct^d, = 0. Умножаяэто равенство Hady+1H и учитывая, что утверждение 2 справедливо для /+ 1, получаем, что a/+1d[+1Hd/+1 = 0. По условию теоремы V/(y/+i)^0, а по лемме 8.6.5 матрица D/+i положительно определена, так что d/+i = —D/+i Vf(y/+i) =7^ 0. Так как Н положительно определена, то d[+1Hd/+1^=0 и, следовательно, a/+i = 0. Отсюда следует, что X) a^d/^О, и так как di, ..., d/ линейно независимы по предположению индукции, то а,- = 0 для i=l, ..., /. Таким образом, di, ..., d/+i линейно независимы и утверждение 1 справедливо для /+ 1. Следовательно, утверждения 1, 2 и 3 вы- выполняются. В частности, сопряженность db ..., dn следует из утверждений 1 и 2, если положить / = п. Пусть теперь / = л в утверждении 3. Тогда D^+iHdA; = d/fe для &=¦!, ..., п. Если в качестве D взять матрицу, столбцами
320 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ которой являются векторы di, ..., dn, то Drt+iHD = D. Так как D имеет обратную, то Dn+iH = I, что возможно только в том случае, если D^+i = Н. Наконец, уп+\ является оптимальным решением по теореме 8.6.3. В Метод сопряженных градиентов Флетчера и Ривса Метод сопряженных градиентов, предложенный Флетчером и Ривсом (Fletcher, Reevs [1964]), отклоняет направление наиско- наискорейшего спуска путем добавления к нему с положительным коэффициентом направления, используемого на предыдущем шаге. Для квадратичного случая, как это будет показано позд- позднее, такое отклонение направления наискорейшего спуска по- порождает множество сопряженных направлений. Алгоритм метода сопряженных градиентов Рассмотрим алгоритм метода сопряженных градиентов для минимизации дифференцируемой функции. Начальный этап. Выбрать число г > 0 для остановки алго- алгоритма и начальную точку хь Положить yi = xi, di = —V/(xi), k = j = 1 и перейти к основному этапу. Основной этап. Шаг 1. Если l|V/(y/)|| < е, то остановиться. В противном случае взять в качестве А,/ оптимальное решение задачи минимизации /(y/-f-A,d/) при ^0 и положить уж = = у; + X/d/. Если / < я, то перейти к шагу 2; в противном слу- случае перейти к шагу 3. Шаг 2. Положить d/+i=— v/(Y/+i)+«/d/> гДе q/= * Заменить / на /+ 1 и перейти к шагу 1. Шаг 3. Положить yi —хл+1 = уя+ь d1 = — v/(Yi)> l=h за- заменить k на k+ 1 и перейти к шагу 1. Заметим, что d/+,= — [|i2d/ ~ HiV/ (Y/+i)L гДе 1X1 ~ II ^/ (У/) IP + II vf (У/4-i) II2 ' ^ ~ IIv^" (У/) II2 + II vf (У/+0II2 ' так что d/+i, по существу, является выпуклой комбинацией те- текущего направления наискорейшего спуска и направления, ис- используемого на предыдущей итерации. 8.6.7. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (х\ — 2L + (*i — 2х2J. Результаты вычислений методом Флетчера и Ривса приведены в табл. 8.14. На каждой итерации di равно —Vf(y\)y a d2 == = -Vf(y2) + aidi, где сы = l|V/(y2)||2/llV/(yi)||2. Кроме того,
Таблица 8.14 Результаты вычислений по методу Флетчера — Ривса —«_ — . . х* У/ f(xk) j f(y,} Vf(Vj) ||Vf(y,)|| a, d; л. yl+1 @.00,3.00) 1 @.00,3.00) (-44.00,24.Щ S0.12 — D4.00,-24.00) 0.062B.70,1.51) 52.00 52.00 2 B.70,1.51) @.73,1.2S) 1.47 0.0009 (-0.69,-1.30) 0.23 B.54,1.21) 0.34 B.54,1-21) 1 B.54,1.21) @.87,-0.4$) .UJ3& — (-0.87,0.4&) 0.11 B.44,1.26) 0.10 0.10 2B.44,1.26) @.18,0.32) 0.37 0.14 (-0.30,-0.25) 0.63 B.25,1.10) 0.04 B.25,1.10) 1 B.25,1.10) @.16,-0.20) 0.32 — (-0.16,0.20) 0.10 B.23,1.12) 0.008 0.008 2 B.23,1.12) @.03,0.04) 0.05 0.04 (-0.036,-0.032) 1.02 B.19,1.09) 0.003 B.19,1-09) 1 B.19,1.09) @.05,-0.04) 0.06 — (-0.05,0.04) 0.11 B.185,1.094) 0.0017 0.0017 2 B.185,1.094) @.02,0.01) 0.02 0.0012
322 гл. s. Безусловная оптимизация 1 2 Рис. 8.18. Метод Флетчера и Ривса. У/+1 получен оптимизацией вдоль d/ с начальной точкой у/. На четвертой итерации получена точка у2 = B.185, 1.094)г, которая достаточно близка к оптимальной точке B.00, 1.00). Так как норма градиента в этой точке, равная 0.02, достаточно мала, то процедура была остановлена. На рис. 8.18 показан процесс ре- решения задачи методом сопряженных градиентов. Квадратичный случай Если функция f квадратичная, то, как показано в приведен- приведенной ниже теореме 8.6.8, генерируемые направления d1, ..., dn оказываются сопряженными и, следовательно, по теореме 8.6.3 алгоритм сопряженных градиентов приводит к оптимальному решению за одно полное применение основного этапа, т. е. не более чем за п выполненных линейных поисков. 8.6.8. ТЕОРЕМА. Рассмотрим задачу минимизации /(х) = = сгх + -к хгНх при условии х е Еп. Предположим, что она решается методом сопряженных градиентов с начальной точкой
8.6. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ СОПРЯЖЕННЫЕ НАПРАВЛЕНИЯ 323 yi и di =—V/(yi). Пусть Я/, /= 1, ..., /г, — оптимальное реше- решение задачи минимизации fiyj + kdj) при А,^0. Пусть У/+1 = Если v/(y/)?=0 для /=1, ...,/г, то справедливы следующие утверждения: 1. Векторы di, ..., d/ являются Н-сопряженными. 2. Векторы di, ..., d/ являются направлениями спуска. II v/(уу) ||2 ft. Доказательство. Предположим, что утверждения 1, 2 и 3 справедливы для /. Покажем, что они также справедливы для /+1- Прежде всего убедимся, что dlHd/+i = 0 для k < /. Так как d/+i = —V/(y/+i) + a/d/, в силу предположения индукции относительно утверждения 3 при k = / получаем dfHd,tl - dJH [- Vf (y,+1) + ''"^ i] - 0. (8.28) Пусть теперь k<j. Так как d/+i =—Vf(y/+1) + a/d/ и по- поскольку d[Hd/ = 0, то по предположению индукции относитель- относительно утверждения 1 имеем Л (8.29) Так как v/ (У*+0 == с + Hyft+b yk+1 = yk + Mt. то d*+1 = - V/ (yft По предположению индукции относительно утверждения 2 век- вектор &k является направлением спуска и, следовательно, Хм > 0. Поэтому *)r«ft-.dLl]- (8-30) Из (8.29) и (8.30) следует, что По утверждению 1 теоремы 8.6.3 и в силу того, что db ... ..., dy предполагаются сопряженными, имеем d?+1v/(y/+1) = Уж) = dl-iVf (Уу+О = 0# Таким образом, из приведен- п*
324 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ ного выше равенства вытекает, что d?Hd/+1 = 0 для Вместе с (8.28) это означает, что d?Hd/+1 = 0 для всех Для того чтобы доказать, что векторы db ..., d/+1 являются Н-сопряженными, достаточно показать, что они линейно неза- /+1 / висимы. Предположим, что ?vjd/ = O. Тогда Х[— V/(y/+i) + a/d/] = 0. Умножая это равенство на v/(y/+i)r и учитывая утверждение 1 теоремы 8.6.3, получаем, что Y/+illv/(y/+i)!l2 = 0- Так как \f(yJ+i)?=Ot то Y/+i = °- Отсюда следует, что 2y^/ = 0. Ввиду сопряженности db ..., d/ это означает, что Yi= ••• =Y/==0- Таким образом, db ..., d/+1 линейно независимы и Н-сопряженные, так что утверждение 1 справедливо для /+ 1. Теперь покажем, что для /+1 справедливо утверждение 2, т. е. d/+i является направлением спуска. Заметим, что V/(y/+i)=?^ Ф О по предположению и Vf(y/+i)rd/ = 0 в силу утверждения 1 теоремы 8.6.3. Тогда V/(y/+iL+i = - IIV/ (у/+1) ||2 + a,V/ (y/+i)rd; = ~|| V/ (У/+1) |р < 0. Следовательно, по теореме 4.1.2 вектор d/+i является направле- направлением спуска. Теперь покажем, что утверждение 3 справедливо для /+ 1. Полагая k ==/4-1 в (8.30) и умножая на V/(y/+2), получаем Так как db ..., d/+1 являются Н-сопряженными, то по утвер- утверждению 1 теоремы 8.6.3 d/+iV/(y/+2) = d/V/(y/+2) = 0- Тогда полученное выше равенство влечет за собой f 2> (8.31) Умножая обе части равенства v/(y/+i)== V/(Y/+2) — ^/+1Hd/+, на v/(y/+i)r и учитывая, что d[Hd/+1==d[+1v/(y/+2)=d[v/(y/+2)= = 0, получаем IIV/(у/+,) f = V/ (у/+1)г[Vf (y/+2) - A/+IHd/+1] = = a./+1d[+1Hd/+1. (8.32) Из (8.31) и (8.32) следует, что утверждение 3 справедливо для /+1
8.6. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ СОПРЯЖЕННЫЕ НАПРАВЛЕНИЯ 325 Таким образом показано, что если утверждения 1, 2 и 3 спра- справедливы для /, то они также справедливы и для / + 1. Заметим, что утверждения 1 и 2 тривиальны для / = 1. С помощью эле- элементарных рассуждений, использованных при доказательстве справедливости утверждения 3 для / + 1, можно легко показать, что оно справедливо и для /==1.1 Метод Зангвилла Рассмотрим теперь метод, предложенный Зангвиллом (Zangwill [1967]) для минимизации функции нескольких переменных. Предположим, что на /-м шаге получены направления di, ..., d/. В методе Зангвилла новое направление d/+i строится следую- следующим образом. Пусть точки yi и Zi — такие, что ъ\ — у\фЬ(di,... ..., dy), где L(db ..., d/) — линейное подпространство, натяну- натянутое на векторы db ..., d/. Пусть y/+i и z/+i получены миними- минимизацией функции f последовательно по направлениям di, ..., d/ с начальными точками yi и ъ\ соответственно. Тогда d/+i опре- определяется из равенства d/+i = z/+i— у/+ь Алгоритм метода Зангвилла Ниже приводится алгоритм метода Зангвилла минимизации функции f нескольких переменных. Как будет показано позднее, если функция f дифференцируема, то метод сходится к точке с нулевым значением градиента. Начальный этап. Выбрать константу остановки г > О и на- начальную точку хь Положить yi = xi, di = —V/(yO» k = j = I и перейти к основному этапу. Основной этап. Шаг 1. Взять в качестве Я/ оптимальное ре- решение задачи минимизации f(y/ + ^d/) при ^g?i и положить у/+1 = у/ -f- Я/d/. Если / = п, то перейти к шагу 4; в противном случае перейти к шагу 2. Шаг 2. Положить d = —Vf (yy+i) и взять в качестве ft опти- оптимальное решение задачи минимизации f(y/+i + HxI) при jui^sO. Положить zi = у/+1 +Ad, i = 1 и перейти к шагу 3. Шаг 3. Если l|Vf(z/)|| < е, то остановиться; zi — оптималь- оптимальное решение. В противном случае взять в качестве щ оптималь- оптимальное решение задачи минимизации f(z, + |id«) при \х^Е\. По- Положить z/+i = z/ + M*d/. Если i < /, то заменить /• на i + 1 и повторить шаг 3. В противном случае положить d/+i = = z/+i — у/+ь заменить / на / + 1 и перейти к шагу 1. Шаг 4. Положить yi = x*+i = Уя+ь di = — V/(yi), заменить k на k+ 1, положить /= 1 и перейти к шагу 1.
Таблица 8.15 Результаты вычислений по методу Зангвилла i г 2 1 Y/ @.00,3.00) B.70,1.51) к^2 Yi B.34,1.09) x1 = @.00,3.00jr <*i D4.00, -24.00) (-0.24, -0.28) x2 = B.34f1.09f <*J (-0.48,0.64) fix,) = 52.00 *, Y,+i 0.062 B.70,1.51) 1.50 B.34,1.09) f(x2) = 0.039 */ Yj+i 0.10 B.29,115) d (-0.73,-1.28) d (-0.08, -0.04) A 0.25 A 3.60 fM B.52,1.20) 0.090 2! B.00,1.01) 0.004 -0.0013 Hi — 22 fB2) B.46,1.23) 0.045 22 fB2) —
8.6. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ СОПРЯЖЕННЫЕ НАПРАВЛЕНИЯ 327 Рис. 8.19. Метод Зангвилла* Заметим, что шаг по методу наискорейшего спуска на шаге 2 используется для того, чтобы z\ — yi^=L(di, •••> dy) для ква- квадратичного случая, так что гарантируется конечная сходимость. 8.6.9. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (хх — 2L + (х\ — 2х2J. Решим эту задачу, используя метод Зангвилла, при начальной точке @.0, 3.0). Результаты вычислений приведены в табл. 8.15. Заметим, что на каждой итерации уг получается из yi миними* задней по направлению di = —V/(yi), a zi получается из уг оптимизацией по направлению d = —^/(у2). Чтобы получить z2 из zi, проводится оптимизация по направлению di, а для по- получения уз из уг — оптимизация по направлению d2 = (z2 — У2). Алгоритм остановлен на второй итерации, когда получена точка Z] =B.00, 1.01O, поскольку норма ||V/(zi)l|=0.09 доста- достаточно мала. Полученная алгоритмом траектория показана на рис. 8.19.
328 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Рис. 8.20. Построение сопряженных направлений в методе Зангвилла. Квадратичный случай Если функция / квадратичная, то метод Зангвилла генери- генерирует сопряженные направления и по теореме 8.6.3 приводит к оптимальному решению за одну итерацию алгоритма. Процесс построения нового направления показан на рис. 8.20. При за- заданном di векторы у2 и z2 получаются минимизацией f по на- направлению di, начиная из точек yi и z\ соответственно, где yi — zi ф A,di для любого ^е?ь Полагая d2 = z2 — у2, заме- заметим, что di и d2 являются сопряженными. В частности, как пред- предполагалось по теореме 8.6.3, минимизация / вдоль d2 при началь- начальной точке у2 или z2 приводит к оптимальному решению х. Заме- Заметим, что если yi — zi = A,di для некоторого X, т. е. если zi лежит на прямой, проходящей через yi по направлению di, то у2 = z2 и d2 = 0. Тогда di и d2 линейно зависимы и, следовательно, не являются сопряженными. Сформулированная ниже лемма 8.6.10 показывает, что описанный выше метод построения нового на- направления приводит к множеству сопряженных направлений. 8.6.10. ЛЕММА. Пусть Н — симметрическая матрица поряд- порядка пу^п и f(x) = cTx-{-^xTHx. Предположим, что / < п и на- направления di, ..., d/ являются Н-сопряженными. Пусть yi — произвольный вектор в Еп, a z\ такой, что z\ — У\фЬ (di,..., d/). Предположим, что числа щ и fa для i= 1, ..., / являются оп- оптимальными решениями задач минимизации f(zi-\-\kdt) при HEfj и минимизации /(y< + Xd,) при X&Ei соответственно.
8.6. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ СОПРЯЖЕННЫЕ НАПРАВЛЕНИЯ 329 Положим у/+1 = у,- + Kidi и z/+i = z/ + fJL/d/. Пусть d/+i = = z/+i — у/+ь Тогда векторы di, ..., d/+i являются Н-сопря- женными. Доказательство. Так как di, ..., d/ являются Н-сопряжен- ными, то по утверждению 1 теоремы 8.6.3 для i ^ / имеем 0 - Ввиду последнего равенства для доказательства достаточно убе- убедиться, что di, ..., d/+i линейно независимы. Предположим противное, т. е. что вектор d/+i можно представить в виде X Y/d/. Следовательно, z/+1 — у/+1 = ? у^ и так как У/+1 = / «I — yi = Z (V* — М^ + А*) d/ е= L (db ..., dy). Это противоречит предположению. Итак, di, ..., d/+i линейно независимы. ¦ Сходимость методов сопряженных направлений Как показано в теореме 8.6.3, при квадратичной целевой функ- функции любой алгоритм сопряженных направлений приводит к оп- оптимальному решению за конечное число шагов. Обсудим теперь сходимость этих методов для функции, которая не обязательно квадратична. В теореме 7.3.4 показано, что алгоритм, отвечающий отобра- отображению А = СВ, сходится к точке из множества решений Q, если выполняются следующие условия: 1. В замкнуто в точках, не принадлежащих Q. 2. Если yGB(x), то f(y)<f(x) для хфQ. 3. Если zeC(у), то /(z)</(у). 4. Множество А= {х: f(x)</(xi)} —компакт, где Xi —на- —начальная точка. Для алгоритмов сопряженных направлений, обсуждавшихся в этой главе, отображение В представляется следующим обра- образом. При заданном х вектор у принадлежит В(х), если он полу- получен минимизацией / при начальной точке х вдоль направления d = —DV/(х), где D — положительно определенная матрица, вид которой зависит от метода. В частности, для метода сопря- сопряженных градиентов и для метода Зангвилла D = I. Для метода Дэвидона — Флетчера — Пауэлла D — произвольная положи-
330 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ тельно определенная матрица. Кроме того, отображение С опре- определено минимизацией функции / вдоль направлений, устанавли- устанавливаемых конкретным алгоритмом, из начальной точки, получен- полученной применением отображения В. Таким образом, отображение С удовлетворяет приведенному выше условию 3. Полагая й= {х: Vf(x)=O}, покажем, что отображение В удовлетворяет условиям 1 и 2. Пусть x^=Q, и пусть х*->х. Пусть, кроме того, у* е В (xk) и у* -> у. Нужно показать, что уЕВ(х). По определению у* = х* — A,&DVf(xfc) для Х*^0, та- такого, что ///] для всех Я>0. (8.33) Так как V/(x)#0, то U сходятся к i= ||y —x||/||DVf(x)|| > 0. Следовательно, у = х — XDVf(x). Переходя в (8.33) к пределу при ft-»-oo, получаем, что /(у) ^ f[x — XDVf(x)] для всех Я ^ 0, так что у действительно получен минимизацией f при начальной точке х в направлении —DVf(x). Таким образом, уеВ(х) и В замкнуто. Учитывая неравенство —V/(x)rDVf(x) < 0, получаем, что —DV/(x) является направлением спуска, т. е. условие 2 выполнено. Предположим, что множество, определенное в усло- условии 4, компактно. Тогда алгоритмы сопряженных направлений, рассмотренные в этом параграфе, сходятся к точке с нулевым градиентом. Некоторые алгоритмы, естественно, не могут быть разделены на отображения В и С, удовлетворяющие перечисленным выше условиям. Трудность заключается в отсутствии замкнутого ото- отображения, которое гарантирует строгое приближение точек вне множества решений. В этом случае сходимость всюду не га- гарантируется, так как отображение С не обязательно замкнуто. Чтобы преодолеть эту трудность, на каждой итерации приме- применяется так называемое обновление метода, т. е. делается шаг в соответствии с отображением В, удовлетворяющим условиям 1 и 2. Обычно обновление сводится к шагу вдоль направления антиградиента. Упражнения 8.1. Для метода равномерного поиска, дихотомического поиска, метода золотого сечения и метода Фибоначчи определите количество вычислений функции, необходимое для а = 0.1, 0.01, 0.001 и 0.0001, где а — отношение длины конечного интервала неопределенности к длине начального интервала. 8.2. Предположим, что функция 9 дифференцируема, и пусть |9'| ^ а. Кроме того, предположим, что для минимизации 9 используется метод равно- равномерного поиска. Пусть Я—такой узел сетки, что 0(Я)—9(Я) ^ 8 > 0 для каждого узла ХФ%. Если длина ячейки сетки такова, что ab ^ е, то пока- покажите без предположения строгой квазивыпуклости, что нет точки вне интер- интервала [Я—б, к + б], в которой значение функции меньше 9(Я),
УПРАЖНЕНИЯ 331 8.3. Покажите, что метод золотого сечения приближается к методу Фи- Фибоначчи, когда число вычислений функции п стремится к бесконечности. 8.4. Приведем следующие определения. Говорят, что функция 9: ?i->?i строго унимодальна на интервале [а, Ь]> если существует Я, который минимизирует 0 на интервале, и для ^ Я2&[а, 6], таких, что Xi < Я2, имеем > в (я2) при <е(я2) при Говорят, что функция 0: Ei->Ei унимодальна на интервале [а, Ь], если существует Я, который минимизирует 0 на интервале, и для Я4, Яге [а, Ь], таких, что 0(ЯО Ф 0(Я), 0(Я2) ф 0(Я) и Xi < Я2, имеем е (я2) > е (я2) при я2<я, 0(Я1)<0(Я2) при a) Покажите, что если 0 строго унимодальна на [а, Ь], то она строго квазивыпукла на [а, Ь]. Обратно, покажите, что если 0 строго квазивыпукла на [а, Ь] и имеет на этом интервале минимум, то она строго унимодальна на [а, Ь]. b) Покажите, что если 0 унимодальна и непрерывна на [а, Ь], то она строго квазивыпукла на [а, Ь]. Обратно, покажите, что если 0 строго квази- квазивыпукла на [а, Ь] и имеет на этом интервале минимум, то она унимодальна на [а, Ь]. 8.5. Рассмотрим функцию f (х) = (х\ + х2J + 2 (х2 — хх — 4L. Зададим точку xi и ненулевой вектор направления d. Пусть 0(Я) = /(xl + Яd). a) Получите явное выражение для 0(Я). b) Для xi = (Q, 0)г и d = A, 1)г, используя метод Фибоначчи, найди- найдите Я, являющийся решением задачи минимизации 0(Я) при условии Я е Е±. c) Для Xi = D, 5)r и d = A, —2)г, используя метод золотого сечения, найдите Я, являющийся решением задачи минимизации 0(Я) при условии Яе?ь d) Повторите задания пп. „Ь" и „с", используя метод деления пополам. 8.6. Найдите минимум функции е" + Я2 с помощью каждой из следую- следующих процедур: a) метода золотого сечения, b) дихотомического поиска, c) метода Ньютона, d) метода деления пополам. 8.7. Рассмотрим задачу минимизации /(x + Яd) при условии 1g?i. По- Покажите, что равенство dTVf{y) = O является необходимым условием мини- минимума в точке Я, где у = х + Xd. При каких предположениях это условие яв- является достаточным для оптимальности? 8.8. Рассмотрим задачу минимизации /(x-j-^d) при условиях х + Яd е 5 и Я ^ 0, где 5 — компактное выпуклое множество, а / — выпуклая функция. Предположим, что d — направление спуска. Покажите, что оптимальное ре- решение Я определяется соотношениями Я = min^i, Я2}, где Я1 удовлетворяет уравнению dT V f(\ + X{d) = 0, а Я2 = max {Я: х + Ые S}. 8.9. Рассмотрим задачу минимизации функции ЗЯ — 2Я2 + Я8 + 2Я4 при условии Я ^5 0. а) Выпишите необходимое условие минимума. Можете ли вы воспользо- воспользоваться этим условием для нахождения глобального минимума? Ь), Является ли функция строго квазивыпуклой на множестве {Я: Я ^ 0}? Примените метод Фибоначчи для нахождения минимума.
332 ?Л. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ с) Примените метод деления пополам и метод Ньютона для данной за- задачи при начальной точке Х\ = 6. 8.10. В § 8.2 обсуждался метод Ньютона для нахождения точки, в кото- которой производная функции обращается в нуль. a) Покажите, как можно использовать метод для нахождения точки, в которой значение непрерывно дифференцируемой функции равно нулю. Про- Продемонстрируйте метод для функции 0(Я) = Я3— Я и начальной точки Xi = 5. b) Будет ли метод сходиться при любой начальной точке? Докажите или приведите контрпример. 8.11. Покажите, как процедуры линейного поиска из § 8.1 могут быть использованы для нахождения точки, в которой заданная функция принимает нулевое значение. Продемонстрируйте использование процедур на функции 0(Я) Я2ЗЯ + 2 Указание: рассмотрите функцию 0 = |9|. 8.12. В § 8.2 обсуждался метод деления пополам для нахождения точки, в которой производная псевдовыпуклой функции обращается в нуль. Пока- Покажите, как может быть использован метод для нахождения точки, в которой значение функции равно нулю. Сформулируйте явно предположения, которым функция должна удовлетворять. Продемонстрируйте это на функции 9 (X) = = Xs — X, определенной на отрезке [0.5, 10.0]. 8ЛЗ. Можно проверить, что в примере 9.2.3. для заданного значения \х при Хц= (#i, Хг)т переменная Xi должна удовлетворять уравнению \лх{ (8*? — 6*, + 0 2K+ "'* 1 ^ '-о Используя соответствующую процедуру для jjl = O.I, 1.0, 10.0 и 100.0, най- найдите значение Хи удовлетворяющее этому уравнению. 8.14. Пусть 0: Е{-+Е{<.Рассмотрим три точки (Хи 90, (Я2, 92) и (Я3, 03), где 0/ = 6(А,/), / = 1, 2, 3. Покажите, что парабола q,- проходящая через эти точки, определяется соотношением „ч 01(Я-Я2)(Я-Я3) , 02(Я-Я0(Я-Я3) , Оз (Я - Хг) (X - Х2) ЯК }~~ (^-ЯзММ-Лз) "Г (Я2 - Я0 (Я2 - Я3) "*" (Я3 - Хх) (Я3 - Я2) ' Кроме того, покажите, что производная функции q обращается в нуль в точке г 1 — 2 2 assGi + «3102 + где ац == Xt — Я/, а Ьц = Я^ — Яу. Найдите параболу, проходящую через точки (I, 3), B, I) и D, 6), и вычислите Я. 8.15. Пусть 9: Ex-+Ev Рассмотрим три точки (Хи 90, (Я2, йг) и (Я3, 0з), где 0/ = 0(Я;). Предположим, что Х{ < Я2 < Я3, 0i > 02 и92^ 03. Основы- Основываясь на упр. 8.14, вычислите точку минимума Я квадратичной формы, прохо- проходящей через точки (Яь 0i), (Я2, 02) и (Я3, 03). Если 0 (Я) > 0 (Я2), положите Я, =Яь Я2 = Я2 и Я3 = Я.. Если, напротив, 0(Я)^0 (Я2), то положите Я) = Я2, Я2= Я и Яа = Я3. Повторите процесс, полагая Я] = Яь Х2 — Х2 и Я3 = Я3 и подбирая новую квадратичную форму по точкам (Яь 0i), (Я2, 02), (Я3, 03). a) Предложите метод для нахождения таких Яь Я2, Я3, что Хх < Я2 < Я3, 01 > 92 и 92 < 93. b) Покажите, что если 9 строго квазивыпукла, то новый интервал не- неопределенности обязательно содержит точку минимума. c) Используйте процедуру, описанную в упражнении, для минимизаций функции ЗЯ — 2Я2 + Я3 + 2Я4 при Я ^ 0.
УПРАЖНЕНИЯ 333 (В упр. 8.14 и 8.15 описан метод квадратичной аппроксимации для ли- линейного поиска без использования производной.) 4 8.16. Рассмотрим задачу минимизации функции (х{ — х2) + 2 (х2 — х\) • Решите задачу, используя каждый из следующих методов. Сходятся ли ме- методы к некоторой точке? Если нет, то объясните почему. a) Метод циклического покоординатного спуска. b) Метод Хука и Дживса. c) Метод Розенброка. d) Метод Зангвилла. e) Метод наискорейшего спуска. f) Метод Флетчера и Ривса. g) Метод Дэвидона — Флетчера — Пауэлла. 2 ^ 2 8.17. Рассмотрим задачу минимизации функции A — х{) + 5 (*2 — *i) • При начальной точке B, 0) решите эту задачу следующими методами: a) методом циклического покоординатного спуска, b) методом Хука и Дживса, c) методом Розенброка, d) методом Дэвидона — Флетчера — Пауэлла, e) методом Зангвилла. 2 2 8.18. Решите задачу максимизации хх + 2х2 + Ъх{х2 — хх + Зх2 методом Хука и Дживса. 8.19. Рассмотрим модель у = а + р* + ух2 + е, где * —независимая пе- переменная, у — наблюдаемая зависимая переменная, р и у — неизвестные пара- параметры, а е — случайная составляющая, представляющая собой ошибку экспе- эксперимента. В таблице приведены значения х и соответствующие им значения у. Сформулируйте задачу нахождения наилучших оценок для а, 0 и у как за- задачу безусловной минимизации: а) суммы квадратов ошибок; ^^ у дда ITi Jb/Д л т. *_д v» f^ ^ •"* • ^^ "» — —- — — — — — 7 bj суммы абсолютных значений ошибок; с) ^, - АТ* Л.ТМ. Л*ГМ vm ¦**¦ -*г -*-г - — — — — w максимума абсолютного значения ошибки. Для каждого случая найдите а, р и Y соответствующим методом. X У 0 2 1 2 2 -12 3 -27 4 -60 5 -90 8.20. Пусть функция /: Еп-+Ех дифференцируема в точке х, а векторы di dn из Еп линейно независимы. Предположим, что минимум f(x + M,) npVi'e- ?i достигается при Х = 0 для / = 1, ..., п. Покажите, что V/(x) — 0. Означает ли это, что функция / имеет локальный минимум в точке х? 8.21. Предположим, что \k и Xk+i — две последовательные точки, полу- полученные методом наискорейшего спуска. Покажите, что v/(x*) v7(x*+i) 8.22. Рассмотрим следующую задачу: у минимизировать при условиях Х\ + Х2 — 2*1 — х2 < 4. a) Сформулируйте двойственную по Лагранжу задачу, объединяя оба ограничения с целевой функцией с помощью множителей Лагранжа и{ и и2. b) Используя подходящий метод безусловной минимизации, вычислите градиент двойственной функции 0 в точке A, 2).
334 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ с) Из начальной точки и = A, 2)т выполните одну итерацию метода наи- наискорейшего спуска для двойственной задачи. Решите следующую задачу: максимизировать 6 (и + Ы) при условиях п2 + Ы2 ^ О, где d = 70(u). 8.23. Предположим, что функция / дважды непрерывно дифференцируема и матрица Гессе всюду имеет обратную. Задайте х*, положите xk+t = = Xk + hkdk, где dk = —H(x^)-1V/(xa), a Я*— оптимальное решение задачи минимизации f(Xk-{-kdk) при iefj. Покажите, что эта модификация метода Ньютона сходится к точке из множества решений Q = {x: V/(x)rH(x)-17/(x) = = 0}. Продемонстрируйте это, минимизируя функцию (*i — 2L+(jCi — 2х2J при начальной точке (—2, 3). 8.24. Пусть Н — симметрическая матрица порядка nX«, a di, ..., dn — собственные Векторы матрицы Н. Покажите, что векторы dt, ..., dn являются Н-сопряженными. 8.25. Пусть ai, ..., ап — множество линейно независимых векторов из Е„ и Н — симметрическая положительно определенная матрица порядка пХ«. а) Покажите, что определенные ниже векторы di, ..., dn являются Н-со- Н-сопряженными: если d*= если b) Предположим, что ai, ..., a« — единичные векторы из Еп, и пусть D — матрица, столбцами которой являются векторы di, ..., dn из п. „а". Пока- Покажите, что D является верхней треугольной матрицей, все диагональные эле- элементы которой равны единице. c) Проиллюстрируйте результат п. „а", полагая а4=A, 0, 0)г, аг = = A,-1, 4)', аз -B,-1; 6)' и -Г Г ' ° Н= О 3 I -1 4 d) Проиллюстрируйте результат п. „Ь", полагая ai, аг, и аз единичными векторами из ?з, а в качестве Н взяв матрицу из п. „с". 8.26. Рассмотрим квадратичную форму /(х)= сгх+~хгНх, где Н — сим- симметрическая матрица порядка п X п. Во многих приложениях желательно по- получить разделение переменных исключением перекрестных членов. Это можно сделать с помощью поворота осей. Пусть D — матрица порядка пХ«, столб- столбцы которой di, ..., dn являются Н-сопряженными. Полагая х = Dy, про- проверьте, что квадратичная форма эквивалентна следующей: где (а{9 ..., an) = crD, а ру = dy'Hdy для /«1, ..., п. Кроме того, сдвиг и поворот осей могут быть осуществлены преобразованием х = Dy + z, где г— любой вектор, удовлетворяющий равенству Hz + c = 0, т. е. v/(z)=0.
УПРАЖНЕНИЯ 336 В этих условиях покажите, что квадратичная форма эквивалентна п tcTz -_ zTHzj + -у У Ру#у. Используйте результат этого упражнения для построения линий уровня квадратичной формы 2jct —• 4х2 + х\ -f 2x±x2 + 8.27. Рассмотрим задачу минимизации — х\ — х\ + ххх2 — jc^ ~Ь* 2х2. На* чиная из начала координат, решите эту задачу методом Дэвидона — Флетче- ра — Пауэлла при D4 = I. Решите также задачу методом сопряженных гра- градиентов. Убедитесь, что обе эти процедуры порождают одинаковое множество направлений. Покажите, что в общем случае если D4 = I, то оба метода идентичны для квадратичных функций. 8.28. Рассмотрим задачу минимизации х\ + х\ при условии х{ + х2 — 2 = 0. a) Найдите оптимальное решение этой задачи и проверьте выполнение условий оптимальности Куна — Таккера. b) Одним из подходов к решению задачи является ее преобразование в задачу следующего вида: минимизировать х\ + х\ + |х (xi -f- x2 — 2J, где \i > 0 —- большое число. Решите задачу безусловной минимизации при \i = 10, используя метод сопряженных градиентов с начальной точкой в начале координат. 8.29. Решите задачу минимизации х{+2х2+ е , начиная из точки A, 0) и используя метод сопряженных градиентов и метод Зангвилла. 8.30. Рассмотрим следующую задачу: минимизировать х\ + 1ххх2 + 2х\ + х\ — х2хъ + х{ + Ъх2 — лс3. Используя упр. 8.25 или другой метод, постройте три сопряженных направле- направления. Начиная из начала координат, решите задачу, минимизируя д(Х) вдоль этих направлений. 8.31. Рассмотрим совместную систему уравнений a) Покажите, как можно решить эту систему методами безусловной опти- оптимизации. Указание\ рассмотрите задачу минимизации У \hi(x)\p, где р —поло- жительное целое. b) Решите следующую систему: х\ — х2 = 0." 8.32. Рассмотрим задачу минимизации f(x) при условиях ft/(x) = 0, *= 1, ...,/. Точка х называется точкой Куна —Таккера, если существует такой вектор v e Et, что 2
336 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ a) Покажите, как решить эту систему, используя методы безусловной оптимизации. Указание: см. упр. 8.31. b) Найдите точку Куна — Таккера для следующей задачи: минимизировать (х{ — 2L + (хх — 2х2J при условии х\ — *2 = 0. 8.33. Рассмотрим задачу минимизации f(x) при условиях gi(x) ^ О, i = 1, ..., т. а) Покажите, что условия Куна — Таккера выполняются в точке х, если для i = 1, ..., т существуют такие щ и s/, что gi (x) + s] = 0, / == 1, ..., m, u.st = 0, /= 1, ..., w. b) Покажите, что для нахождения решения этой системы можно ис- использовать методы безусловной оптимизации. Указание: см. упр. 8.31. c) Воспользуйтесь подходящим методом безусловной оптимизации для нахождения точки Куна — Таккера следующей задачи: минимизировать 2х\ + х\ — 2ххх2 + 2хх + 6 при условии — 2х\ — х2 + 3 ^ 0. 8.34. Задача следующей структуры часто появляется в ситуациях, связан- связанных с решением более общей задачи нелинейного программирования: минимизировать f(x) при условиях щ ^ Xi ^ bt, i = 1, ..., т. a) Модифицируйте методы безусловной оптимизации, рассмотренные в этой главе, так, чтобы удовлетворялись двусторонние ограничения на пере- переменные. b) Используя результаты п. „а", решите следующую задачу: минимизировать (*i — 2L + (xi — 2х2J при условиях 8.35. Рассмотрим следующий метод параллельных касательных, предло- предложенный Шахом, Бехлером и Кемпторном (Shah, Buehler and Kempthorne [1964]) для минимизации дифференцируемой функции нескольких переменных. Начальный этап. Выбрать константу остановки е>0 и начальную точ- точку xi. Положить уо = Xi, k = j = 1 и перейти к основному этапу Основной этап. Шаг 1. Положить d = — V/(x*) и взять в качествр Л оп- оптимальное решение задачи минимизации }(Хк + Ы) при X ^ 0. Положить yt «г Xk + Я,<1 Перейти к шагу 2. Шаг 2. Положить d = —V/(y/) и взять в качестве Я/ оптимальное реше- решение задачи минимизации f(y/ + Xd) при X ^ 0. Положить Z/ = у/ + ^/d и перейти к шагу 3. Шаг 3. Положить d = z/ — y;_i и взять в качестве \ij оптимальное реше- решение задачи минимизации f(z7 + |jtd) при |ie?i. Положить y/+i = z/ + M-/d. Если / < n, то заменить / на / + 1 и перейти к шагу 2. Если / = п, то пе- перейти к шагу 4.
УПРАЖНЕНИЯ 337 Шаг 4. Положить x*+i = у„+1. Если II x*+i — хк II < е, то остановиться. В противном случае положить у0 = Хк+i, заменить k на k + 1, положить / = 1 и перейти к шагу 1. Используя теорему 7.3.4, покажите, что метод сходится. С помощью ме- метода параллельных касательных решите следующие задачи: a) минимизировать х\ + х\ + 2ххх2 — 2хх — 6х2, b) минимизировать х\ + х\ — 2ххх2 — 2хх — х2 (заметим, что оптимальное решение этой задачи неограниченно), с) минимизировать (Х\— 2J + (*i — 2*2J. 8.36. Пусть функция /: En-+Ei дифференцируема. Рассмотрим следую- следующую процедуру минимизации f(x). Начальный этап. Выбрать константу остановки г > 0, длину начального шага А>0 и положительное целое число /п, означающее число допустимых неудач до сокращения длины шага. Выбрать начальную точку xi и текущую верхнюю границу значений целевой функции UB = /(х4). Положить v = О, k = 1 и перейти к основному этапу. Основной этап Шаг 1. Положить d* = —Vf(xk) njLk+i = х* + Adft. Если f(xk+i)< UB, то положить v = 0, х = х*+1, UB = /(х) и перейти к шагу 2. Если f(xk+\) ^ UB, то заменить v на v + 1. Если v = m, то перейти к шагу 3, если v < m, то перейти к шагу 2. Шаг 2. Заменить k на k + 1 и повторить шаг 1. Шаг 3. Заменить k на ?+ 1. Если А < 8, то остановиться, приняв х в качестве оценки оптимального решения. В противном случае заменить Л на Д/2, положить v = 0, ха = х и перейти к шагу 1. a) Можете ли вы доказать сходимость этого алгоритма для 8 = 0? b) Примените этот алгоритм для решения трех задач из упр. 8.35. 8.37. Пусть Н — симметрическая матрица порядка п X п и / (х) = стх + + -^"-хгНх. Рассмотрим следующий алгоритм коррекции ранга один для минимизации f. Пусть D! — положительно определенная матрица порядка «Х« и Xi — заданный вектор. Для / = 1, ..., п возьмем в качестве Я,/ опти- оптимальное решение задачи минимизации f(xf + Xdf) при Ae?i. Пусть х{+± = = х/+ X/d/, где d/ = — D/V/(x/), a D/+i определяется по формулам (р, — Dfq,)(p, — D a) Проверьте, что ранг матрицы, добавляемой к D,- при определении D/+i, равен единице. b) Покажите, что р/ = D/+iqf для i ^ /, / = 1, ..., п. c) Если Н имеет обратную, то справедливо ли равенство Dn+i = Н-1? d) Покажите, что D/+i не обязательно положительно определена, даже если D/ является положительно определенной. Это объясняет, почему исполь- используется линейный поиск на всей вещественной прямой. e) Обязательно ли направления di, ..., dn сопряженные? f) Примените алгоритм для минимизации функции 12*j — Qx2 + x\ + ^ + 1 g) Предположим, что q/ заменено на V7(x/+i) — V/(x/). Изложите про- процедуру подобно тому, как изложен метод Дэвидона — Флетчера — Пауэлла для минимизации неквадратичпых функций, используя приведенную выше схему вычисления D; Примените эту процедуру для минизации функции (* 2L +By
338 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ 8.38. Рассмотрим задачу минимизации f (х) при х е Еп и следующий ал- алгоритм, предложенный Пауэллом (Powell [1964]). Начальный этап. Выбрать константу остановки 8 > 0, начальную точку Xi и взять в качестве db ..., dn координатные направления. Положить к = / = в i = 1, z4 = yi = xi и перейти к основному этапу. Основной этап. Шаг 1. Взять в качестве h оптимальное решение задачи минимизации f(zi + kdi) при к е Е\ и положить zi+i = zt + A,*d/. Если / < пу то заменить t на i + 1 и повторить шаг 1. В противном случае перейти к шагу 2. Шаг 2. Положить d = z«+i — z4 и взять в качестве Я оптимальное реше- решение задачи минимизации f(zn+i + Xd) при ^e?i. Положить y/+i = zn+i + АД Если / < я, то заменить d/ на d/+i для / = 1, ..., я—-1, положить dn = d, zi = у/+1, J ss 1, заменить / на / + 1 и повторить шаг 1. В против- противном случае, т. е. при / = /г, перейти к шагу 3. Шаг 3. Положить x*+i = yn+i. Если II x*+i—х* || < е, то остановиться. В противном случае положить i == / = 1, zi = yi = х*+1, заменить k на k + 1 и повторить шаг 1. a) Предположим, что / (х) = с х + — х Нх, где Н — симметрическая матрица порядка п\п. Покажите, что если dt, ..., dn линейно независимы после одного выполнения основного этапа, то они также и Н-сопряженны, так что по теореме 8.6.3 оптимальное решение достигается за одну итерацию. b) Рассмотрим следующую задачу, предложенную Зангвиллом (Zangwill [1967]): минимизировать (х\ — х2 + #зJ + (— Х\ + Хъ + х$J + (#i + #2 — #зJ« Примените метод Пауэлла с начальной точкой ("о-» h ~2~J* Заметим, что процедура порождает множество зависимых направлений и, следователь- следовательно, не приведет к оптимальному решению @, 0, 0). c) Зангвилл (Zangwill [1967]) предложил модификацию метода Пауэлла, чтобы гарантировать линейную независимость направлений. В частности, на шаге 2 точка Zi получается из y/+i применением одной итерации циклического покоординатного спуска. Покажите, что эта модификация гарантирует линей- линейную незавимимость и, следовательно, по п. „а" обеспечивается конечная схо- сходимость для квадратичной функции. d) Примените модификацию Зангвилла для решения задачи из п. „Ь". e) Если функция не квадратична, то рассмотрите модификацию, при ко- которой на шаге 3 равенство г\ = у4 получается применением одной итерации циклического покоординатного спуска при начальной точке x*+i. Используйте теорему 7.3.4 для доказательства сходимости. 8.39. Метод Розенброка может быть описан следующим отображением: А: ЕпХ U X Еп-+ EnXU X Еп. Здесь U = {D: D — матрица порядка /iX«, удовлетворяющая равенству DrD = I}. Алгоритмическое отображение А дей- действует на тройку (х, D, X), где « — текущий вектор, D — матрица порядка «Х«, столбцами которой являются направления предыдущей итерации, а X — вектор, компоненты Хь ..., Хп которого равны величине сдвига по на- направлениям di, ..., dn. Отображение А = А3А2А1 является сложным отобра- отображением со следующими составляющими: 1. Ai—точечно-точечное^ отображение, определяемое соотношением Ai(x, D, к) = (х, D), где D — матрица, столбцами которой являются новые направления, определенные в (8.9). 2. Точечно-множественное отображение Аг определяется соотношением (х, у, 1Х][еА2(х, D), если минимизация / из точки х по направлениям Ни ..., dn приводит в точку у. По теореме 7.3.5 отображение Аг замкнухР-
УПРАЖНЕНИЯ 339 3. А^-— точечно-точечное_ отображение, определяемое соотношением д3(х, у, D) = (у, D, X), где к = D-^y —х). a) Покажите, что отображение Ai замкнуто в (х, D, к), если К}- ф О для / = 1, ..., п. b) Является ли отображение А4 замкнутым, если А,/ = 0 для некото- некоторого /? Указание: рассмотрите последовательности D& = I I и %k = I * I. c) Покажите, что Аз замкнуто. d) Проверьте, что функция f может быть использована как функция спуска e) Возможно ли применить теорему 7.2.3 для доказательства сходимо- сходимости метода Розенброка. Из этого упражнения видно, что при рассмотрении алгоритмических ото- отображений как композиции нескольких отображений возникают некоторые трудности. В § 8.4 доказательство сходимости было проведено без декомпози- декомпозиции отображения А. 8.40. В этом упражнении описывается модификация симплексного метода Спендли, Хекста и Химсворта (Spendley, Hext and Himsworth [1962]) для решения задачи минимизации f(x) при xs?n, Здесь описывается вариант метода, предложенный Нелдером и Мидом (Nelder and Mead [1965]). Начальный этап. Выбрать точки Xi, ..., xn+i, образующие симплекс в Еп, коэффициент растяжения y > 1» положительный коэффициент сжатия Р > 1 и коэффициент отражения а > 0. Перейти к основному этапу. Основной этап. Шаг 1. Положить хг, xs e {хь ..., xrt+i} такими, что f(x)= min f(xX f(xe)= max f (xX n+i 1 V* Положить x = — > x/ и перейти к шагу 2. Шаг 2, Положить х = х + а (х — х5). Если f (хг) > f (x), то положить х/ = х + у (х — х) и перейти к шагу 3. В противном случае перейти к шагу 4. Шаг 3. Точку xs заменить на х/, если f (х) > f (х/), и на х, если /(х) ^ (/х/), что дает новое множество из п + 1 точек. Перейти к шагу 1. Шаг 4. Если max {f (x/): / Ф 5}>/ (х), то xs заменить на х", полу- 1</<+1 </<+ чить новое множество из п + 1 точек и перейти к шагу 1. В противном слу- случае перейти к шагу 5. Шаг 5. Взять х', для которого /(x') = min {f (x), f (xs)}, и положить х" = х + р (хг — х). Если f (х") > f (xr), то заменить х/ на х/ + — (хг — х/) для /=1, ..., п+1 и перейти к шагу 1. Если f (x") < f (x'), то заменить xs на х", получить новое множество из п + 1 точек и перейти к шагу 1. а) Пусть d/ есть я-мерный вектор, у которого /-я компонента равна а, а все остальные равны 6, где Ь ?_(VS+T-1), пл/2 а с — положительное число. Покажите, что в качестве вершин начального симплекса {хь ..., xn+i] можно выбрать точки x/+i = xi + d/, где х^ —
340 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ произвольная точка из Еп. В частности, покажите, что векторы X/+i— xi для / = 1, ..., п линейно независимы. Как интерпретируется с? Ь) Решите задачу минимизации х\ + 2х{х2 + х\ + х2 — 10#3, используя симплексный метод, описанный в этом упражнении. Комментарии В этой главе были рассмотрены различные итеративные процедуры для решения задачи безусловной оптимизации. Большинство из них включают ли- линейный поиск, и, вообще говоря, эффективность метода линейного поиска сильно влияет на эффективность всего метода решения. Процедура поиска Фибоначчи, рассмотренная в § 8.1, предложена Кифером (Kiefer [1953]). Некоторые другие процедуры поиска, включая метод золотого сечения, изло- изложены в книгах Wilde [1964] и Wilde and Beightler [1967]. В этих книгах также показано, что процедура поиска Фибоначчи является наилучшей для унимодальной функции в том смысле, что максимально сокращает интервал неопределенности с наименьшим числом вычислений функции. Другой класс процедур использует аппроксимацию кривыми, что и пока- показано в упр. 8.14 и 8.15. Если должна минимизироваться функция одной пере- переменной, то такие процедуры включают нахождение аппроксимирующей квадратичной или кубической функции q. В квадратичном случае функция вы- выбирается таким образом, что в заданных трех точках xit х2 и хг значения функций f и q совпадают. В случае кубической аппроксимации задаются две точки Xt и Хг и q выбирается так, чтобы в этих точках совпадали значения функций и их производных. В обоих случаях находится точка минимума q и ею заменяют одну из начальных точек. Для более подробного ознакомления с этими методами можно рекомендовать книги Davidon [1959], Fletcher and Powell [1963], Kowalik and Osborne [1968], Luenberger [1973], Pierre [1969], Powell [1964], Swann [1964]. Численные исследования эффективности этого подхода можно найти в книгах Himmelblau [1972], Murtagh and Sargent [1970]. Среди методов, не использующих вычисление градиента, при общем рас- рассмотрении наиболее эффективными оказываются рассмотренные в § 8.4 метод Розенброка (Rosenbrock [I960]) и в § 8.6 метод Зангвилла (Zangwill [1967]). В оригинальной формулировке методы Розенброка и Хука — Дживса (Нооке and Jeeves [1961]) не использовали одномерную оптимизацию, а применяли вместо этого дискретные шаги по направлению поиска. Объединение линей- линейного поиска с процедурой Розенброка было предложено Девисом, Свеном и Кемпи и изложено в работе Swann [1964]. Оценка этой модификации приве- приведена в работах Fletcher [1965] и Box [1966]. Существуют и другие методы решения задач безусловной минимизации, не использующие вычисления производных. Процедура, которая существенно отличается от рассмотренных, называемая методом последовательного сим- симплексного поиска, описана в упр. 8.40. Метод был предложен Спендли, Хек- стом и Химсвортом (Spendley, Hext and Himsworth [1962]) и модифицирован в работе Nelder and Mead [1965]. Он основан на анализе значений функции в угловых точках симплекса. Наихудшая вершина признается негодной и за- заменяется новой точкой, лежащей на прямой, соединяющей худшую точку и центроид оставшихся точек. Процесс повторяется до тех пор, пока не удовле- удовлетворится подходящий критерий остановки. В работах Box [1966], Jacoby, Ko- Kowalik and Pizzo [1972], Kowalik and Osborne [1968], Parkinson and Hutchin- son [1972] этот метод сравнивается с другими методами, обсуждавшимися ранее. В книге Parkinson and Hutchinson [1972] дан детальный анализ эффек- эффективности симплексного метода и его вариантов. Отмечено, что эффективность симплексного метода падает с ростом размерности задачи.
Комментарий 341 Метод наискорейшего спуска, предложенный Коши в середине девятна- девятнадцатого столетия, продолжает оставаться основным среди методов, базирую- базирующихся на вычислении градиента. Он использует аппроксимацию функции пер- первого порядка и обычно вблизи оптимума работает плохо. Метод Ньютона использует аппроксимацию второго порядка и обычно работает хорошо в точках, близких к оптимуму. Однако в общем случае сходимость гаранти- гарантируется только, если начальная точка достаточно близка к точке оптимума. Среди схем безусловной оптимизации методы, использующие сопряженные направления, считаются эффективными. Для квадратичных функций* эти ме- методы приводят к оптимуму не более чем за п шагов. К методам этого типа, не использующим производные, относятся метод Зангвилла, рассмотренный в § 8.6, метод Пауэлла, изложенный в упр. 8.38, и ПАРТАН — метод, предло- предложенный Шахом, Бейхлером и Кемпторном и описанный в упр. 8.35. Соренсон (Sorenson [1969]) показал, что для квадратичных функций ПАРТАН —метод гораздо менее эффективный, чем метод сопряженных градиентов, обсуждав- обсуждавшийся в § 8.6. К методам сопряженных направлений, использующим информацию о гра- градиенте, относится метод Флетчера и Ривса, который строит сопряженные направления, выбирая соответствующую выпуклую комбинацию текущего гра- градиента и направления, использованного на предыдущей итерации. Оригиналь- Оригинальная идея, предложенная в работе Hestenes and Stiefel [1952], приводит к раз- развитию как этого метода, так и алгоритмов, сопряженных градиентов Поляка [1969] и Соренсона (Sorenson [1969]). Разные авторы исследовали влияние использования неточного линейного поиска на сходимость алгоритмов сопря- сопряженных градиентов. По этому поводу читатель может обратиться к работам Kawamura and Volz [1973], Klessig and Polak [1972], Lenard [1976] и McCormick and Ritter [1974]. В другом классе методов направление движения d определяется как —DV/(x), где D — положительно определенная матрица, аппроксимирующая обратную к матрице Гессе. Этот класс обычно называют квазиньютоновскими методами. Одним из первых методов минимизации нелинейных функций, ис- использующих этот подход, является метод Дэвидона (Davidon [1959]), кото- который был упрощен, переформулирован и назван методом переменной метрики в работе Fletcher and Powell [1963]. Полезное обобщение метода Дэвидона — Флетчера — Пауэлла было предложено Бройденом (Broyden [1967]). В сущ- сущности Бройден ввел степень свободы при задании матрицы D. Конкретный выбор этой степени свободы был затем предложен в работах Broyden [1970], Fletcher [1970], Goldfarb [1970] и Shanno [1970]. В работе Gill, Murray and Pitfield [1972] показано, что для некоторых задач эта модификация эффек- эффективнее, чем исходный метод. В 1972 г. Пауэлл показал, что если целевая функция выпукла, вторые производные непрерывны и одномерная минимизация проводится точно, то метод Дэвидона — Флетчера — Пауэлла сходится к оптимальному решению. Им же ранее (Powell [1971]) при более сильных предположениях было пока- показано, что метод сходится со сверхлинейной скоростью. В 1973 г. Бройден, Деннис и Море привели результаты о локальной сходимости метода для слу- случая, когда длина шага фиксирована и равна единице, и доказали при опре- определенных условиях сверхлинейную сходимость. При соответствующих пред- предположениях Пауэлл [Powell [1976]) показал, что вариант метода перемен- переменной метрики без точного линейного поиска сходится к оптимальному решению, если целевая функция выпукла. Кроме того, там же показано, что если матрица Гессе положительно определена в оптимальной точке, то скорость сходимости суперлинейная. Для дальнейшего изучения методов переменной метрики см. Dixon [1972], Gill and Murray [1974], Greenstadt [1970] и Huang [1970]. Методы переменной метрики, обсуждавшиеся выше, переопределяют мат- матрицу D добавлением к ней двух матриц, каждая из которых имеет ранг 1.
342 ГЛ. 8. БЕЗУСЛОВНАЯ ОПТИМИЗАЦИЯ Этот класс методов называют также процедурами коррекции ранга 2. Не- Незначительным изменением стратегии для оценки вторых производных явля- является переопределение матрицы D добавлением к ней одной матрицы ранга 1. Этот метод коррекции ранга 1 был введен в упр. 8.37. Для дальнейшего изу- изучения этой процедуры см. Broyden [1967], Davidon [1968], Fiacco and McCor- mick [1968] и Powell [1970]. Некоторые авторы пытались использовать методы безусловной оптимиза- оптимизации для решения нелинейных задач с ограничениями. Заметим, что если ис- использовать схему безусловной оптимизации для решения задачи с ограниче- ограничениями и просто отбрасывать недопустимые точки в ходе процедуры поиска, то это приведет к преждевременной остановке. Удачным и часто используе- используемым подходом является построение вспомогательной задачи безусловной оптимизации, такой, что ее решение дает решение задачи с ограничениями. Этот подход подробно обсуждается в гл. 9. Второй подход, заключается в использовании методов безусловной оптимизации, когда мы находимся внутри допустимой области, и одного из подходящих методов условной оптимиза- оптимизации, обсуждаемых в гл. 10, когда мы оказываемся на границе допустимой об- области. Ряд авторов модифицировали методы безусловной оптимизации для решения задач с ограничениями. В работе Goldfarb [1969] метод Дэвидона— Флетчера — Пауэлла распространен на задачи с линейными ограничениями с помощью идеи проекции градиента. На случай нелинейных ограничений метод был обобщен Девисом (Davies [1970]). В работе KHngman and Himmelblau [1964] направление поиска из метода Хука и Дживса проектируется на мно- множество, порождаемое активными ограничениями, что приводит к варианту алгоритма Хука и Дживса для задач с ограничениями. Другой вариант алго- ритм-а Хука и Дживса для задач с ограничениями предложили Гласе и Купер (Glass and Cooper [1965]). Метод Розенброка был распространен Девисом и Свеном (Davies and Swann [1969]) на случай линейных ограничений. В упр. 8.40 обсуждался симплексный метод для решения задач безусловной оптимизации. В 1965 г. Бокс применил эту идею к задачам с ограничениями. Другие версии применения симплексного метода можно найти в работах Dixon [1973], Friedman and Pinder [1972], Ghani [1972], Guin [1968], Reefer [1973], Mitchell and Kaplan [1968], Paviani and Himmelblau [1969] и Umida and Ichikawa [1971]. Исчерпывающий обзор различных алгоритмов решения задач безусловной оптимизации имеется в книгах Fletcher [1969], Powell [1970], Reklaitis and Phillips [1975] и Zoutendijk [1970]. Кроме того, существуют многочисленные учебники, описывающие вычислительный опыт, накопленный при использова- использовании разных алгоритмов. В большинстве из них изучается эффективность ме- методов с помощью решения тестовых задач относительно небольшой размер- размерности и различной степени сложности. Обсуждение эффективности различных алгоритмов безусловной минимизации приведено в работах Bard [1970], Cragg and Levy [1969], Fiacco and McCormick [1968], Himmelblau [1972], Huang and Levy [1970], Murtagh and Sargent [1970] и Sargent and Se- Sebastian [1972]. Тексты машинных программ некоторых алгоритмов можно найти в книгах Brent [1973] и Himmelblau [1972]. The Computer Journal так- также время от времени публикует тексты машинных программ, реализующих алгоритмы нелинейного программирования.
9 Штрафные и барьерные функции В этой главе рассматриваются задачи нелинейного программи- программирования с ограничениями в форме равенств и неравенств. Суть используемых здесь методов заключается в замене исходной задачи эквивалентной задачей безусловной оптимизации или за- задачей с простыми ограничениями, для решения которой могут быть использованы алгоритмы, описанные в гл. 8. На самом деле из-за некоторых вычислительных особенностей вместо ис- исходной задачи обычно решается не одна, а последовательность задач безусловной оптимизации. Здесь рассматриваются два альтернативных подхода. Первый называется методом штраф- штрафных функций и заключается в следующем. К целевой функции исходной задачи добавляется функция, интерпретируемая как штраф за нарушение каждого из ограничений. Метод генерирует последовательность недопустимых точек, которая сходится к оп- оптимальному решению исходной задачи. Второй подход назы- называется методом барьеров. В этом методе к целевой функции исходной задачи добавляется барьерный член, который не по- позволяет генерируемым точкам выходить за пределы допустимой области. Таким образом строится последовательность допусти- допустимых точек, сходящаяся к оптимальному решению исходной за- задачи. Важно отметить, что метод может использоваться только в задачах с ограничениями в виде неравенств. План главы § 9.1. Понятие штрафной функции. Вводится понятие штраф- штрафной функции и дается ее геометрическая интерпретация. § 9.2. Метод штрафных функций. Подробно обсуждается метод штрафных функций и приводится основная теорема о сходимости. Метод иллюстрируется большим числом при- примеров. § 9.3. Метод барьеров. Детально рассматривается метод барьерных функций и доказывается его сходимость. Приводятся многочисленные примеры.
344 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ 9.1. Понятие штрафной функции Метод штрафных функций основан на преобразовании исходной задачи с ограничениями в одну или последовательность задач безусловной оптимизации. С помощью функций, задающих огра- ограничения, строится так называемый штраф, который добавляется к целевой функции исходной задачи так, что нарушение ка- какого-либо из ограничений становится невыгодным с точки зре- зрения полученной задачи безусловной оптимизации. Для обосно- обоснования этого подхода рассмотрим следующую задачу с един- единственным ограничением h(x) = 0: минимизировать f (x) при условии А(х) = 0. Пусть она преобразована в задачу безусловной оптимизации: минимизировать / (х) + \xh2 (x) при условии х <= Еп> где \х > О — некоторое большое число. Интуитивно ясно, что на оптимальном решении х последней задачи значение А2(х) долж- должно быть близким к нулю, так как в противном случае всегда можно сдвинуться в другую точку х', в которой приращение f(x) окажется при достаточно большом |ш меньше, чем jx/i2(x). Рассмотрим теперь задачу с единственным ограничением-не- ограничением-неравенством g(x) ^ 0: минимизировать / (х) при условии g(x)^Q. Очевидно, что форма f(x) + \xg2{x) здесь нецелесообразна, так как при g(x)=?0 штраф будет взиматься независимо от знака g(x). Излишне говорить, что штраф желателен только в недо- недопустимых точках, т. е. там, где g-(x)>0. Поэтому приемлемой эквивалентной задачей безусловной оптимизации является сле- следующая: минимизировать / (х) + \i max {0, g (x)} при условии х €Е Еп. Если g(x)<;0, то max{0, g(x)}=0 и штраф не берется. Если же g(x)>0, то max{0, g(x)}>0, т. е. взимается штраф (х)« Обычно подходящая штрафная функция должна определять положительный штраф в недопустимых точках и не штрафовать допустимые точки. Если ограничения имеют форму g/(x)^0, i = 1, ..., m, и hi(x) = 0, i = 1, ..., /, то целесообразна штраф-
9.1. ПОНЯТИЕ ШТРАФНОЙ ФУНКЦИИ 345 нал функция следующего вида: а (х) = S Ф [gi (х)] + S * [ht (x)], (9.1) где ф и г|) — непрерывные функции, удовлетворяющие условиям: Ф (у) = О, если у < О, и ф (у) > О, если */ > О, -ф (у) = 0, если у = 0, и г|) (у) > 0, если г/ =^= 0. Типичными являются следующие формы функций ф и я|): Ф (у) = [max {0, у}]', где р — целое положительное число. Таким образом, штрафная функция а = а(х) обычно имеет вид а (х) = S [max {0, gf (x)}f + Z | А, (х) |р. /=i i=i Функцию f(x) + |ia(x) будем называть вспомогательной. Со- Соответственно задачу со штрафом будем называть вспомогатель- вспомогательной задачей. 9.1.1. ПРИМЕР. Рассмотрим задачу минимизировать х при условии —х + 2^0. Положим a(x) = [max{0, g{x)}]2. Тогда 0 если *!>2, (-* + 2J, если х<2. На рис. 9.1 изображены штрафная а(х) и вспомогательная f(x)-\- \xa(x) функции. Заметим, что минимум f + [ха дости- достигается в точке 2 2~". При [х-^оо последовательность таких точек стремится к х = 2, являющейся точкой минимума целе- целевой функции исходной задачи. 9.1.2. ПРИМЕР. Рассмотрим задачу минимизировать х\ + х\ при условии хх + х2 — 1=0. Оптимум достигается в точке (у. у) и Р^вен у. Теперь по- построим следующую задачу со штрафом при достаточно боль- большом [я: минимизировать х\ + х\-\-\х (х{ + х2 — IJ при условии {хь х2)&Е2.
346 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ О 2 ~ О 2 Рис. 9.1. Штрафные и вспомогательные функции. Заметим, что при любом \х ^ О целевая функция этой задачи выпукла. Тогда необходимым и достаточным условием опти- оптимальности является равенство нулю градиента функции х\ + х\ + + |i(*l + *2— 1J, т. е. Решая эту систему из двух уравнений, получаем х\ = #2 — = 1 ]*2 . Отсюда вытекает, что решение вспомогательной задачи может быть сделано как угодно близким к решению исходной при выборе достаточно большого §ju Геометрическая интерпретация штрафных функций Используем теперь пример 9.1.2 для того, чтобы привести геоме- геометрическую интерпретацию штрафных функций. Предположим, что ограничение й(х) = 0 нарушено так, что h(\) = х\+ х% — — 1 = е, т. е. получена следующая задача: минимизировать при условии + дг2 — 1 е. Если подставить jc2 = 1 + 8 — х\ в целевую функцию, то за- задача сведется к минимизации ^ + A +е — л^J. Оптимум нахо- находится там, где производная обратится в нуль, т. е. оптимальное значение х\ удовлетворяет уравнению 2х\—2A + е — xi) = 0. Поэтому при любом фиксированном е оптимальным решением сформулированной выше задачи является точка с координатами
9Л. ПОНЯТИЕ ШТРАФНОЙ ФУНКЦИИ 347 f+/i*2 / + Ц'Л2 Рис. 9.2. Штрафные функции в пространстве (h, f). I — (h, /)-отображение; 2 — допустимые точки исходной задачи; 3 — нижняя огибающая парабола, проходящая через точки вида 4 — оптимальное решение исходной задачи; 5 — оптимальное решение вспомогательной задачи при ix'>p,; 6 — оптимальное решение вспомогательной задачи при значении параметра, равном \л. х\ = #2 = A + е)/2, а оптимальное значение целевой функции равно уО +еJ. Кроме того, при любом е верхняя грань зна- значений х\ + х\ при условии х\-\-х2—l=s равна оо. Поэтому ДЛЯ ПРОИЗВОЛЬНОЙ ТОЧКИ (Х\, Хг) ИЗ E2j ДЛЯ КОТОрОЙ Х\ + #2— 1 = = е, значение целевой функции лежит в интервале [у A + еJ, ooj. Множество {[/i(x), /(x)]: хе?2} изображено на рис. 9.2. Это множество огибается снизу параболойу A + hf = -^{\ + еJ. При фиксированном \i > 0 вспомогательная задача состоит в минимизации /(х) + |ыЛ2(х) на Е2. График /(х)+ \ih2(x) = k в пространстве (h, f) изображен на рис. 9.2 пунктирной парабо- параболой. Эта парабола пересекается с осью / в точке f = k. При минимизации f+\xh2 парабола должна опускаться как можно ниже до тех пор, пока останется хотя бы одна общая точка с заштрихованным множеством, т. е. пока парабола не станет лишь касаться заштрихованной области, как показано на рис. 9.2. Это значит, что для данного значения (л оптимальное значение целевой функции вспомогательной задачи равно соот- соответствующему отрезку на оси /. Заметим, что оптимальное ре- решение является недопустимой точкой исходной задачи, так как А^О в точке касания. Более того, оптимальное значение целе- целевой функции вспомогательной задачи несколько меньше, чем исходной. Заметим также, что с возрастанием \х парабола
348 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ Еп Рис. 9.3. Штрафные функции и невыпуклые задачи. /—(h, f) -отображение; 2 — допустимые решения исходной задачи; 3—нижняя огибающая; 4—опти- 4—оптимальное решение исходной задачи; 5 — оптимальное значение целевой функ- функции двойственной задачи Лагранжа; 6 — оптимальное решение вспомога- вспомогательной задачи с параметром \х. f + \xh2 становится круче и точка касания приближается к опти- оптимальному решению исходной задачи. Невыпуклые задачи На рис. 9.2 показано, что штрафные функции можно использо- использовать для получения точки, сколь угодно близкой к оптимальному решению задачи выпуклого программирования, сформулирован- сформулированной в примере 9.1.2. На рис. 9.3 приведен пример невыпуклой за- задачи, для которой подход, связанный с двойственными перемен- переменными Лагранжа, не приводит к успеху при нахождении опти- оптимального решения прямой задачи, так как имеет место разрыв двойственности. Штрафные функции в отличие от линейных в случае двойственного по Лагранжу подхода используют нели- нелинейные опорные поверхности. Поэтому, как показано на рис. 9.3, нелинейные поверхности, касаясь снизу допустимой области, могут приблизиться к оптимальному решению исходной задачи сколь угодно близко, конечно, если \х достаточно велико. 9.2 Метод штрафных функций В этом параграфе формулируются и доказываются важные ре- результаты, объясняющие использование штрафных функций как средство решения экстремальных задач с ограничениями. Об-
9.2. МЕТОД ШТРАФНЫХ ФУНКЦИЙ 349 суждаются некоторые вычислительные трудности, связанные с использованием штрафных функций. Рассмотрим следующие ис- исходную и вспомогательную задачи. Исходная задача Минимизировать /(х) при условии g(x) ^ О, h(x) = 0, XGl Здесь g— вектор-функция с компонентами g\, ..., g"m, h — век- вектор-функция с компонентами h\, ..., А/. Функции /, g\, ..., gm, fti, ..., hi непрерывны в En, X— непустое множество из Еп, определяемое простыми ограничениями, которые могут быть легко выписаны в явном виде (например, такими, как двусто- двусторонние ограничения на переменные). Вспомогательная задача (задача со штрафом) Пусть а — непрерывная функция вида (9.1). Подход, связанный со штрафной функцией, состоит в решении следующей задачи: максимизировать 6 (\х) при условии |х ^ О, где 6(ji) = inf{/(x)+ |ia(x): xel}. Основная теорема этого параграфа утверждает, что inf {f (х): xgJ, g (x) < 0, h (x) = 0} = sup 6 (ц) = lim 9 (\i). >0 > Отсюда следует, что можно сколь угодно близко подойти к оптимальному значению целевой функции исходной задачи, вы- вычисляя Q(\x) при достаточно больших |х. Это утверждение яв- является результатом теоремы 9.2.2. Сначала докажем следую- следующую лемму. 9.2.1. ЛЕММА. Предположим, что функции /, gb ..., gm, Аь ..., hi непрерывны на Еп> X — непустое множество из Еп. Пусть a — непрерывная на Еп функция вида (9.1). Предполо- Предположим также, что для любого \i существует х^ е X, такой, что 0(м-) = /Чуц)+ fxa(x^). Тогда справедливы следующие утверж- утверждения: 1. inf{f(x):xe*,g(x)<0,h(x)=0}>supe(,i), где = inf {/ (х) + \ia (х): х е X}, g — вектор-функция с компонентами g\> •••»§m> h — вектор-функция с компонентами hb ...9ht. 2. /(хд) — неубывающая функция от \х при ц ^ 0, Э (jlx) — не- неубывающая функция, а(хц) — невозрастающая функция \х.
350 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ Доказательство. Рассмотрим вектор хеХ, такой, что g(x)^ ^ 0, h(x) = 0, и заметим, что а(х) = 0. Пусть jx ^ 0. Тогда f(х) = /(х) + ца(х)>inf{/(у) + |ха(у): уе!} = 8О*). Отсюда следует утверждение 1 леммы. Чтобы доказать утверждение 2, рассмотрим Я< \х. По опре- определению 0(Я) и 8(jli) имеют место следующие два неравенства: / (хд) + Яа (Xjl) > f (Xx) + Яа (х,), (9.2) f (жх) + *ш (жО > f (xj + ца {щ). (9.3) Складывая эти неравенства и упрощая, получим (ц-Л)[а(жх)-а(ж|1I>0. Так как \х > Я, то а(х>.) ^ «(Хц,). Но тогда из (9.2) следует, что f(*n)^/(xx) ПРИ ^^0- Прибавляя и вычитая ^(х^) в левой части (9.2), получим ) + (Л - |i) а (хц) > 6 (Я). Поскольку \х > Я и а(хц) ^ 0, то из последнего неравенства сле- следует, что в(|х)>8(Х). ¦ 9.2.2. ТЕОРЕМА. Рассмотрим следующую задачу: минимизировать f (x) . при условиях g"Hx)<0, / = 1, ..., т, XGl Здесь Д gu •-., ffm, Аь •••» ht — непрерывные на Еп функции, X — непустое множество в ?rt. Предположим, что задача имеет допустимое решение, и пусть а — непрерывная функция вида (9.1). Предположим также, что для каждого |л существует ре- решение Хр, е X задачи минимизировать / (х) + \ia (x) при условии xgX и все {xjj принадлежат некоторому компакту из множества X. Тогда inf {/(ж): g(x)<0, h(x) = 0, xG=X} = sup9Gx)= lim 9 Ох), ^0 > где e(ji)=inf{/(x)+|Lia(x): xeZ}= f(xVL)+ fxa(x^). Более того, предел х любой сходящейся подпоследовательности после- последовательности {х^} является оптимальным решением исходной задачи и р,а(х^)->0 при р,->оо.
9.2. МЕТОД ШТРАФНЫХ ФУНКЦИЙ 351 Доказательство. Из утверждения 2 леммы 9.2.1 следует, что функция G(fx) монотонна, так что sup 0([i) = lim0((i). Прежде всего покажем, что а(хд)-*0 при jx-*oo. Пусть у — допустимая точка и е > 0. Возьмем в качестве xi оптимальное решение за- задачи минимизации f(x)+ \мх(х) ПрИ условии xg^h при \х= 1. Если ja ;> — | f (у) — f (xi) | + 2, то по утверждению 2 леммы 9.2.1 должно выполняться неравенство /(хд)^ f(xi). Теперь покажем, что если \х ^ A/е) |/(у) — f(xi) | + 2, то а(х^)^е. Предположим, что это не так, т. е. пусть а(хц)>е. Учитывая утверждение 1 леммы 9.2.1, получаем inf{/(x): g(x)<0, h(x) = 0, xe=X}>0(|i) = = f (Хц) + \ха (Хр,) > f (xi> + [ш (Xj,) > Но это неравенство невозможно, так как в качестве у была взята допустимая точка. Таким образом, «(х^^е для всех ц^ —| / (у) — f (xi) |+ 2. Так как е > 0 произвольное, то а(хц)->- ->-0 при jx-voo. Пусть {хц J — подпоследовательность последовательности {х^}, сходящаяся к х. Тогда sup 6 Ы > 9 (,!*) = / (X|ljk) + \ika ^0 Поскольку х^ -> х и / непрерывна, то из последнего неравен- неравенства следует, что _ . (9.4) Так как а(х|Л)-)-0 при ц-х», то а(х) = 0, т. е. х — допустимая точка исходной задачи. Из (9.4) и утверждения 1 леммы 9.2.1 следует, что х — оптимальное решение исходной задачи и что sup 0 (\х) == f (х). Заметим, что fia(x^) = 0(|i) —/(хц). При |i->oo значения функций Q(\x) и f(x^) стремятся к f(x) и, следова- следовательно, juta(x^)-^O. ¦ СЛЕДСТВИЕ. Если a(x^) = 0 для некоторого \i, то х,х — оптимальное решение задачи. Доказательство. Если а(х^) = 0, то х№ — допустимая точка задачи. Более того, так как inftf(x): g(x)<0, h(x) = 0, x€=X}>0Ox) = = f (х,*) + H-a vX^) = / (x^), то отсюда сразу же следует, что хд —оптимальное решение. Я
352 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ Отметим важность предположения о том, что {хц} содер- содержится в компактном подмножестве множества X. Очевидно, что это предположение справедливо, если X — компакт. Без этого предположения может оказаться, что оптимальные значения це- целевых функций исходной и вспомогательной задач не будут сов- совпадать (см. упр. 9.4). Это предположение не ограничительно в большинстве практических случаев, так как обычно переменные изменяются в рамках конечных двусторонних ограничений. Из доказанной теоремы следует, что оптимальное решение хц задачи минимизации /(x)+pia(x) при условии хе! может быть сделано сколь угодно близким к допустимой области при выборе IX достаточно большим. Кроме того, выбирая ц доста- достаточно большим, значение /(х,л)+|д,а(х^) может быть сделано сколь угодно близким к оптимальному значению целевой функ- функции исходной задачи. Как показывается позднее в этом пара- параграфе, одной из наиболее распространенных схем решения вспо- вспомогательной задачи является решение последовательности задач вида минимизировать / (х) + jxa (x) при условии xGjf для возрастающей последовательности значений параметра штрафа. Оптимальные точки (хр) обычно недопустимы, но, как видно из доказательства теоремы 9.2.2, с ростом параметра \х генерируемые точки приближаются к оптимальному решению извне допустимой области. Поэтому обсуждаемый метод иногда называют методом внешних штрафов. Вычислительные трудности, связанные со штрафными функциями Решение вспомогательной задачи будет сколь угодно близким к оптимальному решению исходной задачи при выборе jui доста- достаточно большим. Однако если выбрать очень большое |i и попы- попытаться решить вспомогательную задачу, то можно столкнуться с некоторыми вычислительными трудностями. При большом зна- значении [х наибольшее внимание уделяется допустимости текущей точки и большинство процедур безусловной оптимизации при- приведут к быстрому движению по направлению к допустимой точ- точке. Однако даже если эта точка оказывается далеко от опти- оптимальной, может произойти преждевременная остановка про- процесса. Для примера предположим, что в процессе оптимизации достигнута допустимая точка, в которой a(x) = 0. Движение из х вдоль направления d может привести в недопустимые или до- допустимые точки с большим значением целевой функции особенно при наличии нелинейных ограничений-равенств. В обоих слу-
9.2. МЕТОД ШТРАФНЫХ ФУНКЦИЙ 353 чаях значение вспомогательной функции /(х +A,d)+|ша(х +) больше, чем /(х)-)-^а(х) для не очень малых значений длины шага X. В последнем случае это очевидно. В первом случае a(x + Jcd)>0 и так как \х очень большое, то любое сокращение значения / от f(x) до f(x + Xd) будет, как правило, компенсиро- компенсировано значением iia(x-\-Xd). Таким образом, улучшение возмож- возможно только тогда, когда длина шага X очень мала, так чтобы член jia(x-fXd) был достаточно мал, несмотря на то что ц очень велико. В этом случае улучшение /(x + ^d) по сравнению с /(х) может компенсировать то, что jma(x + Xd) > 0. Необходимость использовать очень малые шаги может привести к медленной сходимости и преждевременной остановке. Алгоритм метода штрафных функций Учитывая трудности, связанные с использованием большого па- параметра штрафа, большинство алгоритмов штрафных функций применяют последовательность возрастающих параметров. Для каждого нового значения параметра штрафа используется алго- алгоритм оптимизации, начинающийся из оптимального решения, со* ответствующего предыдущему значению параметра. Ниже приводится алгоритм метода штрафных функций для решения задачи минимизации f(x) при условиях g(x)^0, h(x) = 0, xgI. Используется штрафная функция а в виде (9.1). Этот метод не накладывает каких-либо ограничений на f, g и h помимо непрерывности. Однако он может эффективно ис- использоваться только в тех случаях, когда имеется эффективная процедура решения задачи на шаге 1 основного этапа. Начальный этап. Выбрать е > 0 в качестве критерия оста- остановки. Выбрать начальную точку хь штрафной параметр \х\ > 0 и число Р> 1. Положить i=l и перейти к основному этапу. Основной этап. Шаг 1. При начальной точке х* решить сле- следующую задачу: минимизировать f (х) + \xka (x) при условии хб! Положить Х?+1 равным оптимальному решению этой задачи и перейти к шагу 2. Шаг 2. Если \ika(xk+\)<. e, то остановиться; в противном случае положить |n*+i == Рм,*, заменить k на k + 1 и перейти к шагу 1. 9.2.3. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (хг —- 2L + (xi — 2х2J при условиях х\ — х2 = 0, 12 М. Базара, К- Шеттн
354 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ Зг I 2 Рис. 9.4. Метод штрафных функций. Заметим, что на k-к итерации при заданном значении параметра штрафа \ik для получения х^к должна решаться задача минимизировать (хх — 2L + (хх — 2х2J + \ik (x\ — х2J при условии х е Е2. В табл. 9.1 приведены результаты вычислений по методу штраф- штрафных функций. В качестве начальной взята точка х = B.0, 1.0), в которой значение целевой функции равно 0.0. В качестве на- начального значения параметра штрафа взято число щ = 0.1, а число р выбрано равным 10.0. Заметим, что/(х^) и 9(^) — неубывающие функции, а а (х^) невозрастающая. Процесс был остановлен после четырех итераций, где а (х^Л = 0.000267. Од- Однако, чтобы показать, что \ika (x \ сходится к нулю в соответ- соответствии с теоремой 9.2.2, была выполнена еще одна итерация. Чи- Читатель может проверить, что в точке хт = @.9461094, 0.8934414) условия Куна — Таккера выполняются для v = 3.3631. На рис. 9.4 показан процесс решения задачи с использованием опи- описанного алгоритма.
к l г 3 4 5 9.3. МЕТОД БАРЬЕРОВ 355 Таблица 9.1 Результаты вычислений методом штрафных функций 0.1 1.0 10.0 160.0 1000.0 A.4539,0.7608) A.1687,0.7407) @.9906,0.8425) @.9507,0.8875) @.9461094, 0.8934414) 0.0935 0.5753 1.5203 1.8917 1.9405 к(хМк) = h2(xw , 1.8307 0.3908 0,01926 0.000267 0.000002а .) *Ы 0.2766 0.9661 1.7129 1.9184 1.9433 0.1831 0.3908 0.1926 0.0267 0.002Я 9-3. Метод барьеров Подобно штрафным функциям, барьерные функции также ис- используются для преобразования задачи с ограничениями в за- задачу безусловной оптимизации или в последовательность таких задач. Барьерные функции как бы препятствуют выходу из до- допустимой области. Если оптимальное решение оказывается на границе допустимой области, то процедура приводит к движе- движению изнутри области к границе. Ниже сформулируем исходную и вспомогательную (барьерную) задачи. Исходная задача Минимизировать при условиях /(х) где g — вектор-функция с компонентами gu . ••> gm. Здесь f, gu • ••> gm — непрерывные функции, определенные в Еп. Обра- Обратим внимание на то, что отсутствуют ограничения-равенства. Если бы задача содержала ограничение h(x)=0, то метод, ис- использующий барьерные функции, должен был бы потребовать, чтобы внутренность множества {х: g(x)<0, h(x) = 0} была не- непустой, что обычно не выполняется. Вспомогательная (барьерная) задача Минимизировать 0 (\i) при условии \х ^0, где 9(|л) = inf {f (x) + \хВ(х): g(x)<0,xGl}. Здесь В — барьер- нал функция, неотрицательная и непрерывная в области 12*
356 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ {х: g(x)<0} и стремящаяся к бесконечности при приближении изнутри к границе области {х: g(x)^0}. Более точно барьер- барьерная функция определяется следующим образом: т fi(x)=S<p[?,(x)], (9.5) где ф — функция одной переменной, непрерывная на множестве {у> У < 0} и удовлетворяющая условиям у < 0 и lim Таким образом, типичная барьерная функция имеет вид Функцию f (x)-\-\iB (х) называют вспомогательной функцией. В идеальном случае желательна функция, которая обращается в нуль в области {х: g(x)<0} и равна бесконечности на гра- границе этой области. Это гарантировало бы от выхода за пределы множества {х: g(x)<;0} при условии, что задача минимизации начинает решаться из внутренней точки. Однако эта потеря непрерывности ставит серьезные трудности для любой вычисли- вычислительной процедуры. Поэтому идеальная конструкция функции В заменяется более реальным требованием, чтобы В была неотри- неотрицательна и непрерывна в области {х: g(x)<0} и стремилась к бесконечности при приближении из внутренней точки к грани- границе области. Заметим, что \хВ стремится к идеальной барьерной функции, когда ц->0. При заданном \i > 0 вычисление 0([х) = = inf{f(x) + \iB(x): g(x)<0, xgI} кажется не менее простым, чем решение исходной задачи, поскольку содержит ограничение g(x)<0. Однако если оптимизация начинается из точки в об- области 5={х: g(x)<0}n^, а ограничение g(x)<0 игнори- игнорируется, то в силу структуры В оптимальная точка окажется в S. Это следует из того, что при приближении из внутренней точки к границе {х: g(x)^0} значение функции В стремится к беско- бесконечности, что будет препятствовать выходу из S. 9.3.1. ПРИМЕР. Рассмотрим следующую задачу: минимизировать х при условии — х + 1 ^ 0. Заметим, что оптимальным решением является точка 1=1 и f(x)= 1. Рассмотрим следующую барьерную функцию: В (х) = _ ~^ 1 для х ф\,
9.3, МЕТОД БАРЬЕРОВ 367 II 'a) (b) Рис. 9.5. Барьерные и вспомогательные функции. На рис. 9.5, а показана \хВ(х) для различных значений jm>0. Заметим, что при приближении \х к нулю \iB приближается к функции, которая при х > 1 равна нулю, а при х = 1 — беско- бесконечности. На рис. 9.5,6 показана вспомогательная функция f(x)+\xB(x) = х + \х/(х— 1). Пунктирная кривая на рис. 9.5 соответствует множеству {х: g(x)>0} и не имеет отношения к вычислительному процессу. Заметим, что для любого заданного ц > О вспомогательная (барьерная) задача заключается в минимизации х + \х/(х—IL, в области х>1. Функция х + \х/(х—1) выпукла при х > 1. Любой метод из гл. 8, примененный для минимизаций х + + \i/{x—1), при начальной внутренней точке х > 1 приведет к оптимальному решению_/ц= 1 + Vf*"- Заметим также, что / (*ц) + \ьВ (хц) =1+2 VV • Очевидно, что х^ -> х и / (%) +• f(x) при |j,--*0. Теперь попытаемся обосновать использование барьерных функций для решения задачи с ограничениями сведением ее к одной задаче безусловной оптимизации или к последовательно- последовательности таких задач. Такое обоснование дано в теореме 9.3.3, но пре- прежде докажем следующую теорему. 9.3.2. ЛЕММА. Пусть f, gi, ..., gm — непрерывные функции в Еп и X — непустое множество из Еп. Предположим, что мно- множество {хеХ: g(x)<0} непусто, а В —барьерная функция, непрерывная на {х: g(x)<0} и удовлетворяющая (9.5). Кроме того, предположим, что для любого заданного \х > 0, если по- последовательность {х*} точек т X удовлетворяет условиям
358 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ g(x*)<0 и f(\k)+ \iB(xk)-+Q(\i), то она имеет сходящуюся подпоследовательность1). Тогда: 1. Для каждого у > О существует х^е X, такой, что g(xu) < <0 и = f (X|l) + цВ (х,,) = inf {/ (x) + vlB (x): g(x)<0,XG X}. 2. inf {/(x): g(x)<0, x e= X} <inf {9(ц): jx > 0}. 3. Для \x > 0 /(хц) и 9(fx) являются неубывающими функ« циями от A, а В(хд) — невозрастающая функция от р,. Доказательство. Зафиксируем м- > 0. По определению 0 су- существует последовательность {х*}, такая, что x^gX, g(x*)<;0 и f(xk) +\iB(xk)->Q(\i). По предположению {х*} имеет подпо- подпоследовательность {xk}x, сходящуюся к хдб1 В силу непре- непрерывности g справедливо неравенство g(x[Jl)^0. Покажем, что g(x^) < 0. Если это не так, то ?/(хд) = 0 для некоторого i, а так как барьерная функция В удовлетворяет (9.5), то для k^X имеем В(х*)->оо. Таким образом, 0(ji)=cx>, что невозможно, так как множество {х: xgX, g(x)<0} предполагается не- непустым. Следовательно, в(fx) = f(x^) + jxB(Хр,), где xugJ[ и g(X[i)<0, т. е. утверждение 1 справедливо. Далее, так как Б(х)^0, то при g(x)<0 для (i^O имеем + |iB(x): g(x)<0, xGfl> g(x)<0, xeX}>inf{/(x): g(x)<0, x<=X}. Поскольку эти неравенства выполняются для каждого \i ^ 0, то утверждение 2 справедливо. Чтобы доказать утверждение 3, по- положим \х > X > 0. Так как Б(х)^0, если g(x)<0, то /(х) + + [iB(x)^ /(х) + ЯВ(х) для всех хеХ, для которых g(x)<0. Таким образом, 0(|л)^5 0(Я). Согласно утверждению 1, сущест- существуют такие хи и х&, что f (X|l) + [iB (х^) < f (х,) + iiB (xx), (9.6) / (х,) + KB (x,) < / (хд) + KB (хД (9.7) Складывая (9.6) и (9.7), получаем, что {\х — X) [В(хд)— (О] ^0. Так как \i— % > 0, то В(хр,)^ В(хх). Подставляя в (9.7), получаем, что /(хх)</(х1Л), ¦ Как следует из леммы, 0 является неубывающей функцией от \i, так что inf 0(ii)= lim Q(\i). Теорема 9.3.3 показывает, что ц>0 (х->0+ оптимальное решение исходной задачи равно lim 8 (jlx), так + ц-»0 что она может быть решена минимизацией f(x) + \iB(x) при !) Это предположение справедливо, если {х^.Я: g (х) < 0} — компакт.
9.3. МЕТОД БАРЬЕРОВ 359 условии XGjf, где \х достаточно мало, или решением последо- последовательности задач того же вида с убывающими значениями па- параметра \i. 9.3.3 ТЕОРЕМА. Пусть /: Еп-+Ех и g: En^Em --непрерыв- --непрерывные функции и X — непустое замкнутое множество из Еп. Пред- Предположим, что множество {х^Х: g(x)<0} непусто. Кроэде того, предположим, что исходная задача минимизации /(х) при усло- условиях g(x)^0, xgX имеет оптимальное решение х, обладаю- обладающее следующим свойством. Для любой окрестности N точки х существует точка x^X(]N9 такая, что g(x)<0. Тогда mintf(x): g(x)<0,xeI}= lim 9(|i)= inf + >0 Положим 0(|i) = /(XjX) + iui5(x[Jl), где x^^X и g(xlx)<01). Тогда предел любой сходящейся подпоследовательности {хд} является оптимальным решением исходной задачи и, кроме того, цВ(хц)->-0 при jx->-0+. Доказательство. Пусть х — оптимальное решение исходной задачи, обладающее указанным свойством, и пусть г > 0. В силу непрерывности f и предположения теоремы существует точка х, такая, что g(x)<0 и f(x) + e >/(х). Тогда для ji>0 имеем Переходя в этом неравенстве к пределу при fi->0+, получаем, что f (х) + е ^ lim 8 (\i). Так как это неравенство справедливо для любого е > 0, то f(x) ^ Пт0([д,). В силу утверждения 2 + леммы 9.3.2 /(х)= Нт6(|и). Поскольку 6D^)^0 и Хр, — допустимая точка исходной за- задачи, то для \х-*0+ справедливо Перейдем к пределу при (х-*0+. Замечая, что = lim 0(м-), получаем, что как /(х^), так и /()+ М-> +0 стремятся к /(х). Следовательно, \iB(x\i)-+0 при \х-+0+. Кроме того, если {хд} имеет подпоследовательность, сходящуюся к х', то /(х/) = f(x). Так как хд — допустимая точка исходной задачи для всех \i, то отсюда следует, что х7 также допустима и, сле- следовательно, оптимальна. ¦ Условия, при которых такая точка существует, даны в лемме 9.3.2.
360 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ Заметим, что точки {хд} принадлежат внутренности множе- множества {х: g(x)^0} для каждого \х. Этим объясняется то, что метод барьерных функций иногда называют методом внутрен- внутреннего штрафа. Вычислительные трудности, связанные с барьерными функциями Использование барьерных функций для решения задач нелиней- нелинейного программирования с ограничениями также связано с не- некоторыми вычислительными трудностями. Прежде всего поиск должен начинаться из точки хеХ, для которой g(x)<0. Для некоторых задач нахождение такой точки может быть непростым делом. В упр. 9.13 описывается процедура для нахождения на- начальной точки. Точно так же из-за структуры барьерной функ- функции В для малых значений параметра \х многие процедуры поиска наталкиваются на серьезные трудности при решении за- задачи минимизации f (х) + \хВ (х) при xgI, особенно при при- приближении к границе области {х: g(x)^0}. Действительно, вблизи границы в силу того, что поиск использует дискретные шаги, шаг, выводящий за пределы области {х: g(x)^0}, мо- может показать уменьшение значения f(x)-\-\xB(x), т. е. привести к ложному успеху. Таким образом, требуется явная проверка значения функции ограничений g, чтобы гарантировать, что мы не покидаем допустимую область. Алгоритм метода барьеров Ниже описывается алгоритм, использующий барьерную функ- функцию для решения задачи нелинейного программирования вида: минимизировать f(x) при условиях g(x)^0, xeX. Исполь- Используется барьерная функция 5, удовлетворяющая (9.5), Задача, сформулированная на шаге 1, содержит ограничение g(x)<0. При g(xA>)<0, поскольку барьерная функция стре- стремится к бесконечности при приближении к границе области G = {х: g(x)< 0}, ограничение g(x)< 0 может не учитываться в том случае, если используемый метод безусловной минимиза- минимизации будет гарантировать, что оптимальная точка ха»+1 e G. Од- Однако, поскольку большинство методов линейного поиска исполь- использует дискретные шаги, то вблизи границы шаг может привести в точку вне допустимой области, где значение барьерной функ- функции является большим отрицательным числом. Следовательно, задача может трактоваться как задача безусловной оптимиза- оптимизации только в том случае, если явно проверяется допустимость исследуемой на каждой итерации точки.
9.3. МЕТОД БАРЬЕРОВ 361 Начальный этап. Выбрать е > 0 в качестве константы оста- остановки и выбрать точку xigX, для которой g(xi)<0, скаляры Ма > 0, Ре@, 1). Положить k = 1 и перейти к основному этапу. Основной этап. Шаг 1. При начальной точке х*. решить сле- следующую задачу: минимизировать / (х) + jx&B (x) при условиях g (х) < О, Положить X?+i равным оптимальному решению и перейти к шагу 2. Шаг 2. Если \ikB(Xk+\) < e, то остановиться. В противном случае положить \ik+\ = $\ik, заменить k на k + 1 и повторить шаг 1. 9.3.4. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (хх — 2L + (хх — 2х2J при условии х\ — х2 ^ 0. Здесь X = ?2. Решим задачу, используя метод барьерных функ- функций сВ(х) = - -т~2 Г* ^ табл. 9.2 приведены результаты вы- числений, а на рис. 9.6 показан процесс минимизации. Вычисле- Вычисления начаты при щ = 10.0, а безусловная минимизация функции в(;х) начиналась из допустимой точки @.0, 1.0). В качестве па- параметра р взято число 0.1. После шести итераций получена точка х? = @.94389, 0.89635), где (х6В(х7) = 0.0184 и алгоритм остановлен. Читатель может проверить, что эта точка достаточно близка к оптимальной. Учитывая, что \ik убывают, читатель мо- может заметить из табл. 9.2, что /(хцл) и 8([л*)— неубывающие Таблица 9.2 Результаты вычислений методом барьерных функций к i 2 3 4 5 6 10.0 . 1.0 0.1 O.Oi* 0.001 0.0001 @.7079,1.531$ t0.8282,1.1098) @.8989,0.9638) @.9294,0.9162) @.9403,0.9011) @.94389,0.89635) 8.3338* 3.8214 2.5282 2.1291 :2.0039 1.9645 ее,.,, 0.9705 2.3591 6.4194 19.0783 59.0461 184.4451 18.0388 6.1805 3.1701 2.3199 2.0629 1.9829 9.70.5 2.3591 0.6419 0.1908 0.0590 0.0184
Рис. 9.6. Метод барьеров. функции от \ik> а Б(ХцА)— невозрастающая функция от р,*. Кроме того, \ikB (Хцл) сходится к нулю, как утверждается в тео* реме 9.3.3. Упражнения 9.1. Рассмотрим следующую задачу; минимизировать х\ + х\ при условиях 2*i + *2 — 2 < О, a) Найдите оптимальное решение этой задачи. b) Постройте вспомогательную функцию с начальным значением штраф- штрафного параметра |х =« 1. c) При начальной точке B, 6) решите полученную задачу методом Хука и Дживса. d) Замените штрафной параметр на 10. Начиная из точки, полученной в п. „с", решите полученную задачу методом Хука и Дживса,
УПРАЖНЕНИЯ 363 9.2. При заданном множестве ограничений-неравенств ?/(х)< 0, ?=1, ... ..., га, может быть использована любая из следующих вспомогательных функций: т 0, g (x)}, f (x) + \х max {0, g{ (х), ..., gm (х)}, f (х) + |i [max {0, ^(х), ..., ?т(х)}]2. Сравните эти формы. Какие преимущества и недостатки у каждой из них? 9.3. Новое оборудование должно быть размещено так, чтобы сумма квад- квадратов расстояний от него до четырех существующих единиц оборудования была минимальной. Четыре единицы оборудования установлены в точках A, 2), (—2, 4), B, 6) и (—6, —3). Предположим, что координаты нового станка Xi и Хг должны удовлетворять ограничениям Xi + Хг = 2, Хч ^ 0 и xz>0. a) Сформулируйте задачу. b) Покажите, что целевая функция выпукла. c) Найдите оптимальное решение, используя условия Куна — Таккера. d) Решите задачу методом штрафных функций, используя соответствую- соответствующий метод безусловной оптимизации. 9.4. Рассмотрим задачу минимизации х3 при условии х = 1. Очевидно, что оптимальным решением является точка х — 1. Теперь рассмотрим задачу минимизации х3 + \i(x— IJ. a) Для \х = 1.0, 10.0, 100.0 и 1000.0 постройте графики функции х3 + \х(х—IJ и для каждого случая найдите точку, где производная функ- функции обращается в нуль. Проверьте гакже, что оптимальное решение неогра- неограниченно. b) Покажите, что оптимальное решение вспомогательной задачи со штра- штрафом неограниченно при любом заданном ц, так что заключения теоремы 9.2.2. несправедливы. Обсудите это. c) Найдите оптимальное решение вспомогательной задачи для у, = 1,0, 10.0, 100.0 и 1000.0 при дополнительном ограничении |#|^2. 9.5. Рассмотрим следующую задачу: минимизировать х] + х\ при условии я, + *2 — 1 = 0. Найдите оптимальное решение задачи. Рассмотрим следующую задачу со штрафом: а) Ь) минимизировать х\ + х\ + \i (х{ + х2 — IJ. Проверьте для каждого \х > 0, что оптимальное решение неограниченно. c) Убедитесь, что на оптимальных решениях в пп. „а" и „Ь" значения целевой функции различны, так что утверждения теоремы 9.2.2 несправедли- несправедливы. Объясните это. d) Добавим к задаче ограничения |*i|^l и |хг|^1 и пусть X = {(*i, Хъ): \xi\ ^ I, |*2|^ 1}. Вспомогательная задача принимает вид минимизировать х\ + х\ + ц (х{ + х2 — IJ при условиях | Xi | ^ 1, | х21 ^ 1.
364 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ Каково оптимальное решение при заданном |i > 0? Чему равен предел по- последовательности точек оптимума при jx->-oo? Убедитесь, что с добавлением множества X утверждения теоремы 9.2.2. оказываются верными. 9.6. Рассмотрим следующую задачу: минимизировать еХх + х\ + 2х{х2 + 4лг| ПрИ УСЛОВИИ Х\ + 2*2 — 6 = 0. Постройте соответствующую штрафную функцию при ц = 10. Выполните, на- начиная из точки A, 1), две итерации метода сопряженных градиентов. 9.7. Вспомогательная задача может быть переформулирована следующим образом: найти sup inf (f (x) + И-« (х)}, где а — соответствующая функция ц>0 хеХ штрафа. а) Покажите, что исходная задача эквивалентна нахождению inf sup {/ (х) + И<* (х)}. Учитывая это, покажите, что исходная и вспомога- тельная задачи могут быть интерпретированы как пара минимаксных двой- двойственных задач. Ь) В теореме 9.2.2 было показано, что inf sup {/ (х) + ца (ж)} = sup Inf if (x) + pa (x)} без каких бы то ни было предположений выпуклости по отношению к / и а. Однако для двойственных по Лагранжу задач в гл. 6 требовалось соответ- соответствующее предположение выпуклости, чтобы гарантировать равенство опти- оптимальных значений в исходной и двойственной задачах. Прокомментируйте это. 9.8. В этом упражнении описывается несколько способов изменения пара- параметра штрафа. Рассмотрим следующую задачу: минимизировать (х\ — бJ + (х2 — 8J при условии х\ — *2<0. Используя вспомогательную функцию (х{ —- бJ + (х2 — 8J + М-тах {х\ — х2, 0) и метод циклического покоординатного спуска, решите задачу при на- начальной точке Xi = @, —4)г и следующих способах изменения \i. a) Начиная из точки х4, решите задачу со штрафом при |х± = 0.1 и полу- получите хг. Затем, начиная из хг, решите задачу при и.2 = 100. b) Решите вспомогательную задачу при |Хг = 100, начиная из точки без- безусловного оптимума F, 8). c) Взяв в качестве начальной точки xi, примените алгоритм, описанный в § 9.2, используя последовательно возрастающие значения jut = 0.1, 1, 10 и 100. d) Решите вспомогательную задачу при u-i = 100, начиная из хь Какую из приведенных выше стратегий вы рекомендуете и почему? 9.9. Рассмотрим следующую задачу: минимизировать 4*f — 5х{х2 + х\ при условиях х\ — х2 + 2 < 0,
УПРАЖНЕНИЯ 365 Решите эту задачу методом штрафных функций при начальной точке @, 0) для каждого из следующих видов множества X: a) Х = ЕПу b) *<={(*ь х2): *,><), *2>0}, c) Х*={{хи х2): *1 + *2--6<0, *i>0, х2>0}. (Эффективные методы решения задач с линейными ограничениями обсужда- обсуждаются в гл. 10.) Сравните введенные три подхода к формированию X. Какой вы рекомендуете? 9.10. Рассмотрим следующую задачу: минимизировать (х\ -— 5J + (х2 — ЗJ при условиях хх + Сформулируйте подходящую вспомогательную барьерную задачу с начальным значением параметра, равным 1. Используйте алгоритм безусловной оптими- оптимизации при начальной точке @, 0) для решения барьерной задачи. 9.11. В этом упражнении описываются несколько стратегий пересчета барьерного параметра \i. Рассмотрим следующую задачу: минимизировать (хх — бJ + (*2 ~ 8J при условии х\ — х2 Используя вспомогательную функцию (х{ — бJ + (х2 — 8J — \i/(x\ — x2) и метод циклического покоординатного спуска, решите эту задачу при началь- начальной точке Xi = @, 12)т и при следующих стратегиях изменения \х. a) Решите барьерную задачу, начиная из точки Xi, при \it = 10, получите Х2. Затем, начиная из хг, решите задачу при jn2 = 0.01. b) Решите барьерную задачу, начиная из точки @, 12), при jlii = 0.01. c) Примените алгоритм, описанный в § 9.3, используя последовательно убывающие значения ^ ===== 10, 1, 0.1, и 0.01. d) Решите барьерную задачу, начиная из Xt, при \i\ = 0.001. Какую из этих стратегий вы рекомендуете и почему? 9.12. Барьерные функции можно использовать и в случае ограничений- равенств. Для этого следует заменить ограничения-равенства Ы(х)=0 одним из следующих ограничений, где е > 0 — малое число: a) Aj(x)<e, b) |Mx)|<e, c) Мх)<е, —Л*(х)<в. Исследуйте каждый из этих подходов. Решите следующую задачу при е = 0.05: минимизировать х\ + х\ При УСЛОВИИ ^1+^2= 2. 9.13. Чтобы использовать метод барьеров, необходимо найти точку xel, для которой g/(x)<0, i = 1, ..., tn. Для определения такой точки предлагается следующая процедура. Начальный этап. Выбрать Xi е X, положить k = 1 и перейти к основ- основному этапу. Основной этап. Шаг 1. Положить / = {i: gi(xk) < 0}. Если / = {1, ..., m}, то остановиться, при этом х* удовлетворяет неравенству gi(xk)<. 0 для всех*', В противном случае выбрать / ф. I и перейти к шагу 2.
366 ГЛ. ^ ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ Шаг 2. Использовать метод барьеров для решения следующей задачи при начальной точке х*: минимизировать gj (x) при условиях g{ (х) < 0, / g= /, XGl Положить Xk+i равным оптимальному решению. Если gj(xk±\) ^ 0, то оста- остановиться, так как множество (xgX, gt(x) < 0, i = 1, ..., т} пусто. В про- противном случае заменить k на k + 1 и повторить шаг 1. a) Покажите, что алгоритм остановится не более чем через т итераций либо приходя к точке xgI, удовлетворяющей неравенствам gi(x)<C0 для i = 1, ..., m, либо устанавливая, что таких точек не существует. b) Используя алгоритм, найдите, начиная из точки C, 0), точку, удовле- удовлетворяющую условиям х{ + х2 < 2 и х\ — х2 < 0. 9.14. Рассмотрим задачу минимизации f (х) при условиях х е= X, g/(x) ^ 0, 1=1, ..., т, и hi(x) = 0, *' = 1, ..., /. Смешанная вспомогательная функ- функция задается в виде f (х) + М-В (х) Н а (х), где В — барьерная функция для ограничений-неравеств, а а — штрафная функция для ограничений-ра- ограничений-равенств. Следующее утверждение обобщает теоремы 9.2.2 и 9.3.3: in! {/ (х): g(x)<0, b(x) = 0, xgI}= lim а (ц), \xB (xp,) -> 0, — а (хй) -> 0 при \x -> 0+, где , g(x)<o} a) Докажите это утверждение при соответствующих предположениях. b) Опишите алгоритм для решения задачи нелинейного программирова- программирования, использующий смешанную вспомогательную функцию, и продемонстри- продемонстрируйте его на решении следующей задачи: минимизировать eXi — ххх2 + х\ при условиях х\ + х\ = 4, с) Обсудите возможность использования двух параметров (mi и Ц2 так, чтобы смешанная вспомогательная функция получалась бы в виде / (х) + + \1ХВ (х) Н а (х). С помощью этого подхода решите следующую задачу М-2 методом безусловной оптимизации при начальной точке @, 0) и начальных значениях параметров [Xi = 1.0 и \i2 = 2.0: максимизировать — х\ + 2х{х2 + х\ — e~Xl~*2 при условиях Х\ + х2 —4 = 0, Х\ + Х2 < 1. (Описанный в этом упражнении метод предложен Фиакко и Мак-Кормиком (Fiacco, McCormick [1968]).)
УПРАЖНЕНИЯ 367 9.15. Сравните методы штрафных и барьерных функций. Подчеркните до- достоинства и недостатки .обоих методов. 9.16. В рассмотренных в этой главе методах для всех ограничений ис- использовался один и тот же штрафной или барьерный параметр. Видите ли вы какие-нибудь преимущества от использования различных параметров для раз- разных ограничений? Предложите конкретные схемы для определения этих пара- параметров. Как можно модифицировать теоремы 9.2.2 и 9.3.3 на такой случай? 9.17. В этом упражнении описывается метод штрафных функций без пара- параметра для решения задачи * минимизации /(х) при условиях gi(x) ^ О, i = 1, ..., m, и Ы(х) = 0, * = 1, ...,/. Начальный этап. Выбрать число Li < inf{f(x): gi(x)^.O, i = 1, ..., m, hi(x)= 0, i a= 1, ..., /}. Положить k = 1 и перейти к основному этапу. Основной этап. Решить следующую задачу: минимизировать Р (х) при условии х е ЕПу m I где р (х) - [max {0, / (х) - Lk}]* + ? [max {0, gi (x)}]2 + ? | ht (x) |». Положить х& равным оптимальному решению этой задачи, Lk+i =/(x^), заме- заменить k на k + I и повторить основной этап, а) Решите, используя этот алгоритм с начальным значением L\ = 0 и на- начиная процесс оптимизации из точки @, — 1)г, следующую задачу: минимизировать (х{ — бJ + (х2 — 8J при условии #i — b) Сравните траекторию, полученную в п. „а", с траекторией, построен- построенной в упр. 9.8. c) Покажите, что если на k-n итерации х* — допустимая точка исходной задачи, то она и оптимальная. d) Сформулируйте предположения, при которых этот метод сходится к оптимальному решению, и докажите сходимость. 9.18. В этом упражнении описывается метод барьеров без параметра для решения задачи минимизации f(x) при условиях gi(x) ^ 0, /= 1, .., ..., т. Начальный этап. Выбрать X! так, чтобы g*(xi) <0 для i= I, ,t«, /n. Положить k = 1 и перейти к основному этапу, ~ ^ Основной этап. Положить Xk = {х: f (х) — f (х^) < 0, g( (х) < 0, i =¦ i,... t.., m). Положить Xfe+i равным оптимальному решению следующей задачи: минимизировать f(x)Z){xk) Ш при условии х е Х& Заменить k на k + 1 и повторить основной этап. (Ограничение xsl* обязательно, если процесс оптимизации начинается из х = Xk.) а) Решите с помощью этого алгоритма следующую задачу при началь- начальной точке xi = @, 2)т: минимизировать (хх — бJ + (х2 — 8J при условии *| — х2
368 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ b) Сравните полученную здесь траекторию с траекторией, построенной в упр. 9.11. c) Сформулируйте предположения, при которых метод сходится к опти- оптимальному решению, и докажите сходимость. 9.19. Рассмотрим задачу минимизации f(x) при условиях Ы(х) = О, i = 1, ...,/, и предположим, что она имеет решение х. Следующая процедура решения этой задачи предложена Морисоном (Morrison [1968]). Начальный этап. Выбрать L4 ^ /(х), положить k = 1 и перейти к основ- основному этапу. Основной этап. Шаг 1. Положить х* равным оптимальному решению за- задачи минимизации [f (x) — Lfe]2 + J] h\ (х). Если hi(xk) = 0 для г= 1, ..., /, то остановиться, при этом х* — оптимальное решение исходной задачи. В про- противном случае перейти к шагу 2. Шаг 2. Положить Lk+l =*Lk + v1/2, где v = [f (xk) - LJ2 + ? h] (xA Заменить k на & + 1 и перейти к шагу 1. a) Покажите, что если п{ (х^,) = 0 для / = 1, ...,/, то Lk+{ = / (xfe)= f (x), а х^ — оптимальное решение исходной задачи. b) Покажите, что / (xfe) ^ f (х) для всех k. c) Покажите, что Lk^.f (х) для всех k и что L& -> f (x). d) Используя этот метод, решите следующую задачу: минимизировать Х\ + х2 — 2х3 при условиях х 1 + х2 + *з===: ^> 9.20. В этом упражнении описывается метод, который был независимо предложен Хестенсом (Hestenes [1969]) и Пауэллом (Powell [1969]), для ре- решения задач вида минимизировать f (x) при условиях h (x) » о, где h(x) = \hx (x), ..., ht (х)]г. Метод комбинирует понятия множителей Лагранжа и штрафной функции. Начальный этап. Выбрать диагональную матрицу S порядка IX I с поло- положительными диагональными элементами о и * • *, ст/ и вектор vi e ?/. Поло- Положить k = 1 и перейти к основному этапу. Основной этап. Шаг 1. Положить х* равным оптимальному решению сле- следующей задачи: минимизировать f (х) + vjh (x) + -r-h (x)rSh (x) при условии х е Еп. Если h(xk) = 0, то остановиться; xk — оптимальное решение исходной задачи. В противном случае перейти к шагу 2. Шаг 2. Положить va+i = v* + Sh(xft). Заменить k на /г + 1 и повторить шаг 1. а) Используя этот метод, решите следующую задачу; минимизировать хх + х2—- 2х3 при условии х\ + jc| + jc2 == 9,
УПРАЖНЕНИЯ 369 b) Каковы достоинства этого метода? c) Покажите, что штрафная функция Лагранжа / (х) + vrh (x) + + 4- h (x)rSh (х) эквивалентна функции f (х) + ~ [h (х) — в]г S [h (x) — в]. Кроме того, преобразование v^+1 = v^-fSh^) эквивалентно ^4-l==Oft"^ll(xfe)' Можете ли вы обобщить этот метод на случай ограничений-неравенств? 9.21. Рассмотрим следующую задачу: минимизировать / (х) при условии h(x) = 0, где /: Еп->?i, h: En->~Ei — дифференцируемые функции. Пусть \х > 0 — па- параметр штрафа. Рассмотрим задачу со штрафом — минимизировать q(x) при условии х е Еп, где q (х) = / (х) + ц ^Г h\ (x). Для решения задачи со штра- фом предлагается (подробное обоснование см. у Лунбергера (Luenberger [1973]) следующий метод. Начальный этап. Выбрать точку х4 е Еп, положить Ы1 и перейти к основному этапу. Основной этап. Шаг 1. Взять матрицу vh (xfe) порядка «Х*> где yht градиент функции h. (х) в точке xk. Пололсить А = ВВ, где B = vh( X Vh (xk)- Положить и перейти к шагу 2. Шаг 2. Положить Xk равным оптимальному решению задачи минимиза- минимизации q (xk + ^d^) при le?j и w^ = xfe + hkdk. Перейти к шагу 3. Шаг 3. Положить d^ == — V<7 (w^) и взять в качестве ak оптимальное решение задачи минимизации q (w^ + ad^) при a s Ev Положить х^+1=« = w^ + ct^d^, заменить k на k + 1 и повторить шаг 1. a) Примените этот метод для решения следующей задачи, полагая jx « 100: минимизировать х\ + 2ххх2 + х\ + 2хх + 6дс2 при условии Х\ + х2~ 4. b) Этот алгоритм может быть легко модифицирован для решения задач с ограничениями-равенствами и неравенствами. В этом случае вспомогатель- вспомогательная задача берется в следующем виде: минимизировать ?(х), где / m q (х) = / (х) + р ? h] W + fiJ] [max {0, gt (x)}]2. ii ii В описанном алгоритме h(x*) заменяется на F(Xft), где F(xa) состоит из функций ограничений-равенств и ограничений-неравенств, которые являются в точке Xk либо активными, либо нарушенными. Используя эту модификацию алгоритма, решите следующую задачу при \х = 100: минимизировать х\ + 2ххх2 + х\ + 2х± + 6*2 при условиях хх + *2 > 3,
370 ГЛ. 9. ШТРАФНЫЕ И БАРЬЕРНЫЕ ФУНКЦИИ Комментарии По общему мнению, штрафные функции при решении задач с ограниче- ограничениями впервые использовал Курант. Затем этот подход к решению нелиней- нелинейных задач применили Камп (Camp [1955]) и Петшиковский (Pietrgykowski [1962]). В последней работе доказана сходимость метода. Однако существен- существенный прогресс в решении практических задач с помощью методов штрафных функций связан с классическими работами Fiacco and McCormick [1964, 1966, 1967, 1968] и Zangwill [1967, 1969]. Сравнение различных форм штрафных функций, проведенное на тестовых задачах, можно найти у Himmelblau [1972], Lootsma [1968] и Osborn and Ryan [1970]. Метод барьерных функций впервые был предложен в работе Carroll [1961] под названием „created response surface technique". Этот подход был использован для решения задач с нелинейными ограничениями-неравенствами в работах Box, Davies and Swann [1969] и Kowalik [1966]. Идея барьерных функций была подробно исследована и изложена в общедоступной форме в работах Fiacco and McCormick [1964, 1968]. В упр. 9.14 была введена сме- смешанная вспомогательная функция, включающая штрафной и барьерный члены, которая изучена в Fiacco and McCormick [1968]. Здесь ограничения-равенства и неравенства обращены соответственно в штрафные и барьерные члены. См. также Bellmore, Greenberg and Jarvis [1970], Greenberg [1973] и Ragha- vendra and Rao [1973]. Проблема выбора способа изменения параметров штрафных и барьерных функций исследовалась различными авторами. См., например, Fiacco and McCormick [1968] и Himmelblau [1972]. В этих работах описывается также вычислительный опыт решения многочисленных задач. В работах Bazaraa [1975], Lasdon [1972] и Lasdon and Ratner [1973] обсуждаются эффектив- эффективные алгоритмы безусловной оптимизации для решения задач со штрафными и барьерными функциями. В дальнейшем понятия штрафных и барьерных функций были несколько расширены. Во-первых, для того чтобы преодолеть трудности, связанные с овражностью, когда параметр штрафа стремится к бесконечности, а барьер- барьерный параметр — к нулю, было предложено несколько методов без параметра. Этот подход был описан в упр. 9.17 и 9.18. Для дальнейшей детализации этого предмета см. Fiacco and McCormick [1968], Huard [1967] и Lootsma [1968]. Другим новым достижением явилось одновременное использование мно- множителей Лагранжа и штрафного члена при определении вспомогательной функции, как показано в упр. 9.20. Этот подход был независимо предложен Хестенсом (Hestenes [1969] и Пауэллом (Powell [1969]). Он также предна- предназначен для преодоления встречающихся при классическом подходе трудно- трудностей, связанных с овражностью, когда параметр штрафа стремится к беско- бесконечности. Подробнее см. Bertsekas [1975], Fletcher [1975], Miele et al. [1971] и Rockafellar [1973a, 1973b, 1974]. Третий подход в области штрафных функций заключается в таком по- построении вспомогательных функций, что для соответствующего выбора пара- параметра однократная безусловная оптимизация дает решение исходной задачи. ЭТо — так называемый метод точной штрафной функции. Он был предложен Флетчером (Fletcher [1970]). Для изучения этой тематики см. также Evans, Gould and Tolle [1973] и Fletcher [1973].
10 Методы возможных направлений Этот класс методов решения задачи нелинейного программиро- программирования основан на движении из одной допустимой точки к другой допустимой точке с лучшим значением целевой функции. Ти- Типичная стратегия в алгоритмах возможных направлений заклю- заключается в следующем. Возьмем допустимую точку х& и найдем на- направление dk, такое, что для достаточно малых % > 0 выпол- выполняются следующие два требования: A) точка хл + МЦ допусти- допустимая и B) значение целевой функции в точке хл + №Ц лучше, чем в Xk. После нахождения такого направления решается задача одномерной минимизации, чтобы определить, как далеко следует двигаться вдоль dk. Это приводит в новую точку х*+ь и процесс повторяется. Поскольку в течение всего процесса оптимизации сохраняется допустимость текущей точки, эти процедуры часто называются прямыми методами. План главы § 10.1. Метод Зойтендейка. В этом параграфе показывается, как строить возможное направление спуска (улучшающее на- направление) с помощью некоторой вспомогательной задачи, ко- которая обычно является задачей линейного программирования. Рассматриваются задачи как с линейными ограничениями, так и с нелинейными. § 10.2. Анализ сходимости метода Зойтендейка- Здесь пока- показывается, что алгоритмическое отображение, определенное в § 10.1, не замкнуто, так что сходимость процесса не гарантиру- гарантируется. Для модификации основного алгоритма, предложенной Топкисом и Вейноттом (Topkis and Veinott [1967]), сходимость имеет место. § 10.3. Метод проекции градиента Розена. В этом параграфе указывается, как строить возможное направление спуска для задачи с линейными ограничениями с помощью проекции гра- градиента целевой функции на ядро линейного преобразования, матрица которого составлена из градиентов функций активных ограничений.
372 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ § 10.4. Метод приведенного градиента Вулфа. Переменные представлены в терминах независимых подмножеств перемен- переменных. Для задачи с линейными ограничениями возможное на- направление спуска определено на основе вектора градиента в редуцированном пространстве. § 10.5. Выпуклый симплексный метод Зангвилла. Описы- Описывается выпуклый симплексный метод для решения задачи не- нелинейного программирования при наличии только линейных ограничений. Метод в основном совпадает с методом приведен- приведенного градиента. Отличие в том, что возможное направление спу- спуска определяется здесь с помощью изменения только одной вне- базисной переменной и соответствующих преобразований базис- базисных переменных. Если целевая функция линейна, то выпуклый симплексный метод приводит к стандартному симплекс-методу в линейном программировании. 10.1. Метод Зойтендейка В этом параграфе описывается метод возможных направлений Зойтендейка. На каждой итерации метода строится возможное направление спуска и затем проводится оптимизация вдоль этого направления. Определение 10.1.1 вводит понятие возможного направления спуска. 10.1.1. ОПРЕДЕЛЕНИЕ. Рассмотрим задачу минимизации f(x) при условии, что xeS, где f: En-*Eu a S — непустое мно- множество из Еп. Ненулевой вектор d называется возможным на- направлением в точке х е S, если существует такое б > 0, что х + Kd e S для всех % е @, б). Вектор d называется возможным направлением спуска в точке xeS, если существует такое б>0, что f(x + A,d)<f(x) и x + *,d€=S для всех Х<=@, б). Случай линейных ограничений Вначале рассмотрим случай, когда допустимая область S опре- определена системой линейных ограничений, так что рассматривае- рассматриваемая задача имеет вид минимизировать f (x) при условиях Ах^Ь, Ех = е. Здесь А — матрица порядка тХя, Е — матрица порядка b есть m-мерный вектор, а е есть /-мерный вектор. В лемме 10.1.2 приводятся соответствующие характеристики допустимой
10.1. МЕТОД ЗОЙТЕНДЕЙКА 373 области и формулируются достаточные условия для существо- существования возможного направления спуска. В частности, вектор d является возможным направлением спуска, если Aid < 0, Ed = = 0 и V/(x)rd< 0. Доказательство леммы простое и оставлено читателю в качестве упражнения. 10.1.2. ЛЕММА. Рассмотрим задачу минимизации /(х) при условиях Ах ^ b и Ех = е. Пусть х — допустимая точгка, и предположим, что Aix = bi и A2x<b2, где Аг = (А[, А2), а b =0>1, Ь2). Тогда ненулевой вектор d является возможным направлением в точке х в том и только в том случае, если Aid^O и Ed = 0. Если, кроме того, Vf(x)r<0, то d является возможным направлением спуска. Геометрическая интерпретация возможного направления спуска Проиллюстрируем теперь геометрически на примере множество возможных направлений спуска. 10.1.3. ПРИМЕР. Рассмотрим следующую задачу: минимизировать (хх — бJ + (х2 — 2J при условиях — хх + 2лг2 Возьмем х = B, 3)г и заметим, что первые два ограничения яв- являются активными в этой точке. В частности, матрица Ai из [— 1 21 I. Следовательно, вектор d является возможным направлением тогда и только тогда, когда Aid <! 0, т. е. в том и только в том случае, если На рис. 10.1, где начало координат перенесено в точку х, изо- изображена совокупность этих направлений, образующая конус возможных направлений. Заметим, что если сдвинуться на не- небольшое расстояние от точки х вдоль любого вектора d, удов- удовлетворяющего двум приведенным выше неравенствам, то оста- останемся в допустимой ооласти. Если вектор d удовлетворяет неравенству 0>V/(x)rd = = —Ъй\ + 2d2, то он является направлением спуска. Таким образом, совокупность направлений спуска определяется откры-
374 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Рис. 10.1. Возможные направления спуска. / — конус возможных направле- направлений; 2 — конус возможных направлений спуска; 3 — линии уровня целевой функции; 4 — полупространство направлений спуска. тым полупространством {(du flk): —8<ii + 2(i2 <C 0}. Пересече- Пересечение конуса возможных направлений с этим полупространством задает множество всех возможных направлений спуска. Построение возможных направлений спуска Пусть задана допустимая точка х. Как показано в лемме 10.1.2, ненулевой вектор d является возможным направлением спуска, если V/(x)rd < 0, Aid ^ 0 и Ed = 0. Естественный подход к построению такого направления заключается в минимизации V/(x)rd при условиях Aidh^ 0 и Ed = 0. Заметим, однако, что если существует вектор d, такой, что V/(x)rd<c0, Aid^O, Ed = 0, то оптимальное значение целевой функции в сформу- сформулированной задаче равно —оо, так как ограничениям этой за- задачи удовлетворяет любой вектор Xd, где X — сколь угодно большое число.' Таким образом, в задачу должно быть включено условие, которое ограничивало бы вектор d или оптимальное значение целевой функции. Такое ограничение обычно называют нормирующим. Ниже приведены три задачи построения возмож- возможного направления спуска. В каждой из этих задач используются различные формы нормировки.
10.1. МЕТОД ЗОЙТЕНДЕЙКА 375 Задача PI: минимизировать при условиях Задача Р2: минимизировать при условиях Задача РЗ: минимизировать при условиях V/(xOd Aid<0, Ed = 0, V/ (х)т d А^<0, Ed = 0, drd<l. V/(x)rd A,d<0, /==1, ..., п. Задачи PI и РЗ являются задачами линейного программиро- программирования и, следовательно, могут быть решены симплекс-методом. Задача Р2 содержит квадратичное ограничение, но может быть рассмотрена в несколько упрощенном виде (см. упр. 10.20). Так как d = 0 является допустимой точкой в каждой из приведен- приведенных выше задач и так как значение целевой функции в этой точке равно нулю, то ее оптимальное значение в задачах PI, P2 и РЗ не может быть положительным. Если минимальное значе- значение целевой функции в задачах PI, P2 или РЗ отрицательно, то по лемме 10.1.2 построено возможное направление спуска. С другой стороны, если минимальное значение целевой функции равно нулю, то, как показано ниже, х является точкой Куна — Таккера. 10.1.4. ЛЕММА. Рассмотрим задачу минимизации f(x) при условиях Ах ^ b и Ех = е. Пусть х — допустимая точка, для которой Aix = bi и А2х<Ь2, где Аг —(АГ, А|), br = (bf, hi). Тогда х является точкой Куна — Таккера в том и только в том случае, если оптимальное значение целевой функции в задачах PI, P2 или РЗ равно нулю. Доказательство. Вектор х является точкой Куна — Таккера тогда и только тогда, когда существуют векторы u ^ 0 и v, та- такие, что v/ (x) + A[u + Erv = 0. По следствию 2 из теоремы 2.3.5 эта система разрешима в том и только в том случае, если система V/(x)rd<0, Aid<0, Ed = 0 не имеет решений, т. е. тогда и только тогда, когда оптимальное значение в задача^ PI, P2 или РЗ равно нулю. Ш
376 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Линейный поиск Только что было показано, как строить возможное направление спуска или убедиться, что текущая точка удовлетворяет усло- условиям Куна — Таккера. Пусть теперь \k — текущая точка, a dk— возможное направление спуска. В качестве следующей точки хн-1 берется х& + kkdki где длина шага Я* определяется из реше- решения следующей задачи одномерной минимизации: минимизировать / (xk + при условиях А (хк + Xdk) Предположим теперь, что АГ = (А[, А?), br = (b[, Ьг), так что A[x^ = bi и Alxk < Ьг. Тогда задачу одномерной мини- минимизации можно упростить следующим образом. Во-первых, за- заметим, что Exk = е и Ed* = 0, так что ограничение Е(х^ + ~|-A,djfe)==e излишне. Так как Aix*. = bi и Aid& ^ 0, то Ai(xfe + + ^k)^b\ для всех Я ^ 0. Таким образом, рассматриваемая задача приводится к следующей задаче линейного поиска, ко- которая может быть решена одним из методов, обсуждавшихся в § 8.1 и 8.2: минимизировать / (х^ + Xdk) при условии где Г mini-»1-: di>0], если, d^i)y A0Л) mini-»1-: di>0], если, <х>, если ^, b = Ьг — А2х^, d = A2d^. Алгоритм метода Зойтендейка (случай линейных ограничений) Ниже приведен алгоритм метода Зойтендейка для минимизации дифференцируемой функции f при условии, что Ах ^ b и Ех == е. Начальный этап. Найти начальную допустимую точку хь для которой Axi ^ b и Exi = е. Положить А=1 и перейти к основ- основному этапу. Основной этап. Шаг 1. Пусть задан х*. Предположим, что Аг = (А[, А?) и Ьг = (bT, hi), так что Aixfe = bi и A2xfe < b2. Взять в качестве d* оптимальное решение следующей
10.1, МЕТОД ЗОЙТЕНДЕЙКА 377 (заметим, что вместо этой задачи можно использовать Р2 или РЗ): минимизировать у/ (xk)T d при условиях А Если Vf(Xk)Tdk = 0, то остановиться; х* — точка Куна — Так- кера. В противном случае перейти к шагу 2. Шаг 2. Положить Я* равным оптимальному решению сле- следующей задачи линейного поиска: минимизировать / (хк + Ad^) При УСЛОВИИ О^А^^тах» где Jimax определяется в соответствии с A0.1). Положить x*+i = = Xk + A^d*, определить новое множество активных ограниче- ограничений в X?+i и переопределить Ai и А2. Заменить k на jfe + 1 и перейти к шагу 1. 10.1.5. ПРИМЕР. Рассмотрим следующую задачу: минимизировать 2х\ + 2х\ — 2х{х2 — 4х{ — 6л:2 при условиях *i+ ^2 Xi + 5х2 Заметим, что V/(x) = (Ах\ — 2х2 — 4; 4^2 ¦— 2лгх — 6)г. Решим задачу методом Зойтендейка, взяв в качестве начальной точки xi=@,0)г. Каждая итерация алгоритма содержит решение подзадачи, определенной в описании шага 1, для нахождения направления, а затем линейный поиск вдоль этого направления. Итерация 1 Поиск направления. В точке xi = @, 0)г имеем T7/(xi)== = (—4, —6)г. Кроме того, в точке xi активными являются толь- только ограничения неотрицательности переменных, так что / = = {3, 4}. Задача для нахождения направления имеет вид минимизировать — 4dt — 6d2 при условиях — d{
378 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ (-4,-6I Рис. 10.2, Иллюстрация к итерации 1. Эту задачу можно решить симплекс-методом для решения за- задач линейного программирования. Оптимальным решением этой задачи является вектор di=(l, IO", а оптимальное значение целевой функции равно —10. На рис. 10.2 показана допустимая область этой задачи, и читатель может без труда проверить геометрически, что точка A, 1) действительно является опти- оптимальным решением задачи. Линейный поиск. Теперь, двигаясь из точки @, 0) вдоль направления A, 1), нужно найти точку, в которой значение це- целевой функции / (х) = 2х\ + 2х\ — 2х{х2 — 4х{ — Ъх2 минимально. Любая точка может быть записана в виде xi + Xdi = (X, Х)т, а целевая функция в этой точке принимает вид /(xi + hdi) = «=а—10 + 2А,2. Максимальное значение коэффициента X, для ко- которого точка xi + ^di допустима, вычисляется по формулам A0.1) и равно л . Г 2 5 ) 5 лтах = П11П | у • Tj=7e Следовательно, если xi + X\d\ — новая точка, то значение Х\ по- получается из решения следующей задачи одномерной миними- минимизации: минимизировать — 10 + 2Х2 5 при условии 0<lA^-g*. Очевидно, что решением является Ai = -jt, так что x2 = Xi + 5\г 1 = (б". -б) • Итерация 2 J имеем Поиск направления. В точке х2 = \jr, -g-. 13 \т ¦yj . Кроме того, множество активных ограниче- з у
10.1. МЕТОД ЗОИТЕНДЕИКА 379 #7 13 / С- v~ ? ) Рис. 10.3. Иллюстрация к итерации 2. ний в точке х2 равно /=={2}, так что направление движения получается из решения следующей задачи: минимизировать -— -^ ах ^-d2 при условиях dx +5c Читатель может проверить на рис. 10.3, что оптимальным реше- решением этой задачи линейного программирования является точка d2 = ( 1, — "gj • а соответствующее значение целевой функции 22 равно —jg-. Линейный поиск. При начальной точке х2 любая точка в на- направлении d2 может быть представлена в видех2 + Яс12=Г-?-+ Соответствующее ей значение целевой функ- 125 22 62 ции равно f (х2 + ^d2) = g jg- Я + ^g" ^2# Максимальное значение А,, для которого точка х2 + Яс12 остается допустимой, определяется в соответствии с A0.1) следующим образом: _nn;nJi/i 5/6M — mill | 4/g • i/5 J — 12 • Таким образом, в качестве Я2 берется оптимальное решение сле- следующей задачи: 125 J22 J62 2 минимизировать при условии 125 J22_ J62 Т" 1К Л "Г ос 8 15 25 55 Оптимальным решением этой задачи является A2 = -jgg-, так что 35 24 ¦
380 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИИ Рис. 10.4 Остановка на итерации 3. Итерация 3 __ г. / 35 24 \Г Поиск направления. В точке х3 = \j&* j\) имеем (— -or, тр) • Кроме того, множество активных ограни- ограни{} чений в точке Хз равно / = {2}, так что направление движения получается из решения следующей задачи: минимизировать при условиях 32 , 160 , "~" 1Г J зГ 2 5rf2 Читатель может легко проверить по рис. 10.4, что <1з = = П, — Y) действительно является решением этой задачи ли- линейного программирования. Соответствующее значение целевой функции равно нулю, и процедура заканчивается. Более того, точка х = Хз = Г-|р "зу) является точкой Куна —Таккера. В этой конкретной задаче функция / выпукла, и по теореме 4.3.7 точка х является оптимальным решением. Таблица 10.1 Результаты вычислений по методу Зойтендейка для случая линейных ограничений к l 2 3 @,0) <!.§) (if, If) fM 0 -6,94 -7,16 Поиск направления Vf(xk) I (-4,-6) {3,4} (-!,-?) {2} die VI A,1) d,4) 4xkYdk -10 -22 15 0 Линейный i i 12 186 ПОИСК xk+, (i!) (If, if)
10.1. МЕТОД ЗОЙТЕНДЕЙКА 381 1.0 as Линия уровня /= -7.16 О \ 0.5 Линия уровня /=0 1.0 1.5 2.0 Рис. 10.5. Поиск решения методом Зойтендейка (случай линейных ограни- ограничений). В табл. 10.1 приведены результаты вычислений для рассмо- рассмотренной задачи. На рис. 10.5 изображен процесс поиска решения в соответствии с описанным алгоритмом. Задачи с нелинейными ограничениями-неравенствами Теперь рассмотрим задачу, в которой допустимая область за- задается системой ограничений-неравенств не обязательно ли- линейных: / (х) gi(х)<[0, / = 1, ..., т. минимизировать при условиях В теореме 10.1.6 формулируются достаточные условия, при которых вектор d является возможным направлением спуска. 10.1.6. ТЕОРЕМА. Рассмотрим задачу минимизации /(х) при условиях gi(x) ^ 0 для i = 1, ..., т. Пусть х — допустимая точка, а / — множество индексов активных в этой точке ограни- ограничений, т. е. / = {/: g/(x) = 0}. Предположим, кроме того, что функции / и gi для / е / дифференцируемы в х, а функции gi для 1ф1 непрерывны в этой точке. Если Vf(x)rd<0 и V#(x)rd<0 при / е/, то вектор d является возможным на- направлением спуска. Доказательство. Пусть вектор d удовлетворяет неравенствам V/(x)rd<0 и Vg/(x)d<0 при /е/. Для 1ф1 выполняются
382 ГЛ> Ю. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Рис. 10.6. Совокупность возможных направлений спуска в задаче с нелиней- нелинейными ограничениями. /—1-е ограничение; 2—3-е ограничение; 3—4-е ограни- ограничение; 4—2-е ограничение; 5— возможные направления спуска; 6— линии уровня целевой функции. неравенства ?*(х)<0, и так как gi непрерывны в точке х, то g"i(x + Ad)^0 для достаточно малых А > 0. В силу дифферен- дифференцируемое™ функций gt при i e / имеем gi (х + Ad) = gt (x) + AV?* {xf d + A || d || a (x; Ad), где a(x;Ad)-^0 при А-^0. Так как Vg/(x)rd<0, то gi(x + при достаточно малых к > 0. Следовательно, g( + при / = 1, ..., m, т. е. точка x + Ad допустимая для достаточно малых положительных значений А. Аналогично из V/(x)Td < 0 следует, что для достаточно малых К > 0 имеем f(x + Xd) < /(x). Следовательно, вектор d является возможным направлением спуска. В На рис. 10.6 показана совокупность возможных направлений спуска в точке х. Вектор d, удовлетворяющий равенству Vgr/(x)rd = 0, является касательным к множеству {х: g,(x) = 0} в точке х. Поскольку функции gi нелинейны, движение вдоль такого вектора d может привести в недопустимую точку, что вы- вынуждает нас требовать выполнения строгого неравенства У#(х)гсК0. Чтобы найти вектор d, удовлетворяющий неравенствам Vf(x)rd<0 и V^(xOd<0 для ie/, естественно минимизи- минимизировать максимум из Vf(xOd и Vgi(x)Td для ie/. Обозначим этот максимум через г. Вводя нормирующие ограничения —1 ^ &i .^ 1 Аля каждого /, получим следующую задачу
Т0.1. МЕТОД ЗОИТЕНДЕЙКА 383 нахождения направления: минимизировать z при условиях v/(x)r d —- г Пусть (f, d) — оптимальное решение этой задачи линейного про- программирования. Если г < О, то очевидно, что d — возможное направление спуска. Если же г = 0, то, как показано ниже, те- текущая точка является точкой Ф. Джона, 10.1.7. ТЕОРЕМА. Рассмотрим задачу минимизации /(х) при условиях g/(x)^0, /=1, ...,m. Пусть х —допустимая точка, а /= {/: g/(x) = 0}. Рассмотрим следующую задачу на- нахождения направления: минимизировать г при условиях \z/(x)rd— 2<C0, Точка x является точкой Ф. Джона для исходной задачи тогда и только тогда, когда оптимальное значение целевой функции задачи поиска направления равно нулю. Доказательство. Оптимальное значение целевой функции в сформулированной задаче нахождения направления равно нулю в том и только в том случае, если система неравенств Vf (x)rd < <0 и Vg/(x)rd<0 при iel не имеет решения. По теореме 2.3.9 для того, чтобы эта система не имела решения, необходимо и достаточно, чтобы существовали такие числа по и щ, i e /, что uo\f(x)+ Z UiVgi(x) = 0, Ио > 0, ut > 0, / е /, либо и0 > 0, либо ut > 0 для некоторого I е /. Это и есть условия Ф. Джона. ¦ Алгоритм метода Зойтендейка (случай нелинейных ограничений-неравенств) Начальный этап. Выбрать начальную точку хь для которой g,-(xi)<^:0 при t'=l, ..., т. Положить k= 1 и перейти к ос- основному этапу.
384 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Основной этап. Шаг 1. Положить / = {i: gi(xk) — 0} и ре- решить следующую задачу: минимизировать z при условиях vf (x*)r d — г ^ 0, /e/, У — 1 л. Пусть (г*, dk)— оптимальное решение. Если Zk = 0, то остано- остановиться; xk является точкой Ф. Джона. Если Zk < 0, то перейти к шагу 2. Шаг 2. Взять в качестве Xk оптимальное решение следующей задачи одномерной минимизации: минимизировать / (х^ + Xdk) при условии где Ятах = sup {X: g( (xk + Xdk) < 0, / = 1, ... m}. Положить х^+ ,== =xk + Xkdk, заменить k на k + 1 и перейти к шагу 1. 10.1.8. ПРИМЕР. Рассмотрим задачу минимизировать 2х\ + 2х\ — 2л:1лг2 — Ахх — 6лс2 при условиях Xj + 5х2 2*2- Решим эту задачу методом Зойтендейка. Начнем процесс из точки xi = @.00, 0.75)т. Отметим, что V/(x) = Da:i — 2x2 — 4, 4х2 — 2хх — 6)г. Итерация 1 Поиск направления. В точке xi = @.00, 0.75)т имеем Vf (xi) = = E.5, —3.0)г, а множество индексов активных ограничений есть /= {3}. При этом Vg3(x\) = (—1, 0)г. Задача нахождения направления имеет вид минимизировать z при условиях — 5.5rfi — 3.0d2 — z^0, — dx Читатель может легко проверить, используя симплекс-метод, что оптимальным решением этой задачи является вектор di = = A.00, — \.ЩТ и 2i = —1.00.
10.1. МЕТОД ЗОЙТЕНДЕЙКА 385 Линейный поиск. Любая точка по направлению di = A.00, —1.00)г из точки xi = @.00, 0.75)т может быть представлена в виде Xi + ^di = (Я, 0.75 — Х)т, а соответствующее ей значение целевой функции равно /(xi + Ыу) = 6Х2 + 2.5А,— 3.375. Макси- Максимальное значение Я, для которого Xi + Xdi остается допустимой точкой, равно Яшах = 0.414. При этом значении X активным ста- становится ограничение 2х\— л:2^0. Значение Х\ получается из решения следующей задачи одномерной минимизации: минимизировать 6Я2 — 2.5А, — 3.375 при условии 0^Я^ 0.414 Оптимальное значение равно К\ = 0.2083. Следовательно, х2 = ( + M) = @.2083, 0.5417)т. Итерация 2 Поиск направления. В точке х2 = @.2083, 0.5417)т имеем Vf(x2) = (—4.2500, —4.2500)г. Активных ограничений в этой точке нет, и поэтому задача определения направления имеет вид минимизировать z при условиях — 4.25^! — 4.25d2 — , /=1,2. Оптимальным решением является вектор d2 = (l, 1O, а 22 = = —8.50. Линейный поиск. Читатель может легко проверить, что мак- максимальное Я, при котором точка x2 + A,d2 допустима, равно Ятах = 0.3472. При этом активным становится ограничение х\ + 5х2 ^ 5. Значение Я2 получается минимизацией /(х2 + + Ы2) = 2К2 — 8.5Х — 3.6354 при условии 0 < % < 0.3472 и, оче- очевидно, равно %2 = 0.3472, так что х3 = х2 + h2d2 == @.5555, 0.8889)т. Итерация 3 Поиск направления. В точке х3 = @.5555, 0.8889)т имеем V/(x3) = (—3.5558, — 3.5554)г, а множество индексов активных ограничений есть /={!}. Задача определения направления имеет вид минимизировать z при условиях — 3.5558di ~ 3.5554rf2 — z < 0, dv +5d2 —2<0, ~l<dy<l, /=1,2. 13 М. Базара, К. Шетти
Таблица 10.2 Результаты вычислений по методу Зойтендейка для случая нелинейных ограничений Поиск направления Линейный поиск х* 1 @.00,0.75) -3.3750 2 @.2083,0.5477) -3.6354 3 @.5555,0.8889) -6.3455 4 @.6479,0.8397) -6.4681 (-5.50,-3.00) (-4.25, -4.25) (-3.5558, -3.5554) (-3.0878, -3.9370) A.0000,-1.0000) A.0000,1.0000) <1.0000, -0,5325) (-0.5171,1.0000) -l.tH0 0.4140 0.2083 @.2083,05417) -8.500 0.3472 0.3472 @.55555,0.8889) -1j663 0.09245 0.09245 @.6479,0.8397) -2.340 0.0343 0.0343 @.6302,0.8740)
ТОЛ. МЕТОД ЗОЙТЕНДЕЙКА 387 Оптимальным решением является вектор d3= A.0000, —0.5325)г, и гъ = —1.663. Линейный поиск. Максимальное значение Я, при котором точка х3 + Ыъ допустима, равно Хтах = 0.09245. При этом Я ак- активным становится ограничение 2х2х — х2^.О. Значение А* полу- получается минимизацией /(x3 + Xd3)= 1.502U2 —5.4490А,— 6.3455 при условии 0 ^ X ^ 0.09245. Оптимальным решением этой за- задачи является Я3 = 0.09245, так что х4 = х3 + X3d3 = @.6479, 0.8397)Т. Итерация 4 Поиск направления. Для точки х4 = @.6479, 0.8397)т имеем 7/(х4) = (—3.0878, —3.9370O, а /={2}. Задача определения направления имеет вид минимизировать г при условиях — 3.0878d, — 3.9370d2 — г < 0, ^ — 2<0, /=1,2. Оптимальным решением этой задачи является вектор d4 = = (—0.5171, 1.0000)т и z4 = — 2.340. Линейный поиск. Максимальное значение %, для которого точка х4 + A,d4 допустима, равно Ятах = 0.0343. При этом огра- ограничение х\ + 5^2 ^ 5 становится активным. Значение Я4 полу- получается минимизацией / (х4 + Ы4) = 3.569Х2 — 2.340Я — 6.4681 при условии 0 ^ X < 0.0343 и равно Я.4 = 0.0343. Следовательно, новой точкой является xs = х4 + X4d4 = @.6302, 0.8740)^Значе- 0.8740)^Значение целевой функции в этой точке равно —6.5443, т. е. сравнимо со значением —6.5590 в оптимальной точке @.658872, 0.868226)т. В табл. 10.2 приведены результаты вычислений на первых четырех итерациях метода. На рис. 10.7 показан процесс поиска оптимума. Учет нелинейных ограничений-равенств Метод возможных направлений может быть модифицирован на случай, когда имеются нелинейные ограничения-равенства. Для иллюстрации обратимся к рис. 10.8, который отвечает единствен- единственному ограничению-равенству. Для заданной допустимой точки \k в этом случае не существует ненулевого направления d, та- такого, что к(хк + Ы) = 0 при Хе@, 6) для некоторого положи- положительного б. Это затруднение можно преодолеть, если двигаться вдоль касательного направления d*, для которого Vh(Xk)Tdk = а= 0, а затем скорректировать движение и возвратиться в до- допустимую область. 13*
388 ГЛ. Ю- МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ 1.0 0.5 •0.5 J.0 Рис. 10.7. Поиск решения методом Зойтендейка (случай нелинейных огра- ограничений). 1 Рис. 10.8. Нелинейные ограничения-равенства. / — касательное направление; 2 — корректирующее движение в допустимую область. Чтобы быть более точным, рассмотрим следующую задачу; минимизировать / (х) при условиях gt\ Пусть кн — допустимая точка и / = {/: gi(Xk) дующую задачу линейного программирования; минимизировать vf (xk)T d при условиях vg/(х^)гd<0, /e/, }. Решим сле- слеИскомое направление d* является касательным к ограниче- ограничениям-равенствам и к некоторым активным нелинейным ограни- ограничениям-неравенствам. Линейный поиск вдоль dk и последующее возвращение в допустимую область приводят в точку х*+ь после чего процесс повторяется.
10.1. МЕТОД ЗОЙТЕНДЕЙКА 389 Рис. 10.9. Использование почти активных ограничений. I — оптимальное решение; 2 — линии уровня целевой функции; S—1-е ограничение; 4—2-е ограничение. Использование почти активных ограничений Напомним задачу определения направления как для случая ли- линейных, так и нелинейных ограничений-неравенств. Если задан- заданная точка близка к границе, определяемой одним из ограниче- ограничений, и если это ограничение не используется в процессе нахож- нахождения направления движения, то может случиться так, что удастся сделать только маленький шаг и мы окажемся на гра- границе, определяемой этим ограничением. На рис. 10.9 в точке х активным является только первое ограничение. Однако точка х близка к границе, определяемой вторым ограничением. Если множество / в задаче определения направления задать в виде /= {1}, то оптимальным будет направление d и до выхода на границу допустимой области можно сделать только маленький шаг. Если же в множество активных ограничений включить оба ограничения, т. е. положить /= {1, 2}, то решение задачи Р определения направления даст вектор d, который обеспечивает большие возможности для движения в рамках допустимой об- области. Таким образом, это наводит на мысль о том, что в ка- качестве множества / следует брать совокупность индексов почти активных ограничений. Точнее, вместо множества {/: gi(x) = 0} в качестве / следует брать множество {/: ?*(х) +е > 0}, где 8 ;> 0 — достаточно малое число. Как будет далее видно из § 10.2, метод возможных направлений, рассмотренный в этом параграфе, не обязательно сходится к точке Ф, Джона. Это
390 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИИ следует из того, что соответствующее алгоритмическое ото- отображение незамкнуто. При более формальном использовании введенного здесь понятия почти активного ограничения можно установить замкнутость алгоритмического отображения и, сле- следовательно, сходимость общего алгоритма. 10.2. Анализ сходимости метода Зойтендейка В этом параграфе обсуждается проблема сходимости описан- описанного в § 10.1 метода возможных направлений Зойтендейка. Как будет установлено ниже, алгоритмическое отображение метода Зойдендейка незамкнуто и, следовательно, его сходи- сходимость в общем случае не гарантируется. Модификация метода, предложенная Топкисом и Вейноттом (Topkis and Veinott [1967]), обеспечивает сходимость алгоритма к точке Ф. Джона. Заметим, что алгоритмическое отображение метода Зойтен- Зойтендейка состоит из отображений М и D. Отображение поиска на- направления D: Еп-*-ЕпУ(Еп определяется соотношением (х, d)e gD(x), где d — оптимальное решение одной из задач поиска направления PI, P2 или РЗ, рассмотренных в § 10.1. Отображе- Отображение линейного поиска М: EnY^En-+En определяется соотноше- соотношением ysltt(x, d), где у — оптимальное решение задачи мини- минимизации /(x + A,d) при условиях К^0 и x + ^deS, S — допу- допустимая область. Ниже показывается, что отображение D в об- общем случае незамкнуто. 10.2.1. ПРИМЕР (D незамкнуто). Рассмотрим следующую задачу: минимизировать — 2хг ¦— лг2 ^ при условиях хх-\~ х2<^2, хих2>0. Эта задача иллюстрируется на рис. 10.10. Рассмотрим последо- последовательность векторов {x/J, где х^ = Го, 2—-rj . Заметим, что в каждой точке х^ активным является только ограничение х\ ^ 0, а задача поиска направления имеет вид минимизировать — 2d\ — d2 при условиях 0 ^ d\ ^ 1, Оптимальным решением d* этой задачи, очевидно, является век- вектор A, 1)г. Однако в предельной точке х = {0, 2)т два ограни-
10.2. АНАЛИЗ СХОДИМОСТИ МЕТОДА ЗОЙТЕНДЕЙКА 391 Оптимальное решение B,0)г Рис. 10.10. Отображение поиска направления D незамкнуто, чения х\ ^ 0 и х{ + х2 ^ 2 активны, так что задача поиска на- направления принимает вид минимизировать — 2di — d2 при условиях di + У этой задачи оптимальным решением является вектор d = = A, —1)г. Таким образом, где d=(l, l)r. Так как D(x) = {(x, d)}, то (x,d)^D(x). Зна- чит, отображение поиска направления D незамкнуто в х. Рассмотрим теперь отображение линейного поиска М: ЕпХ>Еп-+Еп, которое используется во всех алгоритмах возмож- возможных направлений для решения задачи минимизации /(х) при условии xsS, При заданных допустимой точке х и возможном направлении спуска d соотношение уеМ(х, d) означает, что у является оптимальным решением задачи минимизации f(x + ^d) при условиях Х^О и x + A,deS. В примере 10.2.2 показывается, что это отображение незамкнуто. Трудность здесь заключается в том, что может случиться так, что длина шага, не выводящего за пределы допустимой области, будет прибли- приближаться к нулю, вызывая так называемое «заедание». 10.2.2. ПРИМЕР (М незамкнуто). Рассмотрим следующую задачу: минимизировать при условии 2х{— х2 (хи х2) е= 5,
892 ГЛ, Ю. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Рис. 1011. Отображение линейного поиска М незамкнуто. ^ 1}. Эта задача иллюстрируется на рис. 10.11. Оптимальная точка х рав- равна (—1, 1)г. Рассмотрим последовательность {(х*, d*)}, по- построенную следующим образом. Пустьxi = (l, 0)r, d1 = f т=, т=Л . При заданном х* точка Xk+\ получается при дви- V2 / жении вдоль d* до тех пор, пока не будет достигнута граница области S. При заданной точке xk+\ в качестве направления d*+i берется вектор ,,* **+1ц > где % — точка границы обла- области 5, равноотстоящая от x^+i и (—1, 0)г. Последовательность {(х^, d^)} показана на рис. 10.11 и, оче- очевидно, сходится к (х, d), где х = (—1, 0)г, a d = @, l)T. Ото- Отображение линейного поиска М определяется соотношением y^eMfXft, dk), если у^ является оптимальным решением задачи минимизации /(xfc + XdU) при условиях, что Я ^ 0 и x^ + Xd^e eS, Очевидно, что ул = х^+i, и, следовательно, у*-*х. Таким образом, где yk , d), M(xkfdk).
10.2. АНАЛИЗ СХОДИМОСТИ МЕТОДА ЗОЙТЕНДЕЙКА 393 В то же время процесс минимизации / из точки х по направле- направлению d приводит в точку х, так что х^М(х, d), т. е. отображе- отображение М незамкнуто в (х, d). Контрпример Вулфа Выше было показано, что и отображение поиска направления, и отображение линейного поиска в методе Зойтендейка в общем случае незамкнуты. В примере 10.2.3, предложенном Вулфом (Wolfe [1972]), показывается, что алгоритм Зойтендейка может не сходиться к точке Куна — Таккера. Трудность здесь заклю- заключается в том, что шаги вдоль генерируемых направлений стре- стремятся к нулю, вызывая «заедание» процесса в неоптимальной точке. 10.2.3. ПРИМЕР (Wolfe [1972]). Рассмотрим следующую задачу: минимизировать -g- (х2{ — ххх2 + xff1* — хг при условиях — хи —- х2, — Заметим, что целевая функция этой задачи выпукла. Ее опти- оптимальное значение достигается в единственной точке х = @,0,2)г, Решим задачу с помощью алгоритма Зойтендейка, взяв в каче- качестве начальной допустимую точку xi = @, а, 0)г, где а ^ ^—j=r. При заданной допустимой точке х* направление дви- движения dk получается из решения следующей задачи Р2: минимизировать \f (xk)T d при условиях Ai где Ai — матрица, строками которой являются градиенты функ- функций активных в точке х* ограничений. В_ рассматриваемом случаехг = @, а, 0)т и \f (хх) = (— д/а", 2 л/а , — l)r. Заметим, что А Г Al==L о о -i и оптимальным решением задачи Р2 является вектор d{ ==="~"lifFlI4 Оптимальное решение Кг з нимизации /(Xi + udJ при условиях, что
394 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИИ (/""" \Т у, 0, -y-J • Повторяя этот процесс, получим последовательность {х^}, где (Г 1 *-1 k~2 12I 0, (—Л а, — У* f-^-^ , если k нечетно, г и у I если ^ четно. Заметим, что эта последовательность сходится к точке х = = I 0, 0, (l+-^-JVaJ • Так как х — единственное оптималь- оптимальное решение, то метод Зойтендейка сходится к точке х, которая не является ни оптимальной, ни точкой Куна — Таккера. Модификация Топкиса — Вейнотта алгоритма возможных направлений Опишем теперь модификацию метода возможных направлений Зойтендейка, которая была предложена Топкисом и Вейноттом [1967] и гарантирует сходимость алгоритма к точке Ф. Джона. Рассмотрим задачу минимизировать / (х) при условиях g*( Построение возможного направления При заданной допустимой точке х возможное направление находится из решения следующей задачи линейного программи- программирования DF(x). Задача DF(x): минимизировать z при условиях v/ (x)r d —- z l, у=1, ...,п. Здесь при определении направления движения учитываются как активные, так и неактивные ограничения. В отличие от метода возможных направлений, описанного в § 10.1, здесь мы не стал-
10.2. АНАЛИЗ СХОДИМОСТИ МЕТОДА ЗОЙТЕНДЕЙКА 395 киваемся с неожиданным изменением направления, когда при- приближаемся к границе множества, определяемой неактивным в текущей точке ограничением. Алгоритм метода возможных направлений Топкиса и Вейнотта Ниже приводится алгоритм Топкиса и Вейнотта для реше- решения задачи минимизации f(x) при условиях gi(x)^0, /= 1, ... ..., m. Как будет показано позднее, алгоритм сходится к точке Ф. Джона. . Начальный этап. Выбрать точку xi, для которой g,(xi)^:0, i= I, ..., m. Положить k=l к перейти к основному этапу. Основной этап. Шаг 1. Положить (zk, d*>) равным оптималь- оптимальному решению следующей задачи линейного программирования: минимизировать z при условиях V/(x?)rd —z<0, (x*)rd - z < - gt (xk), i = 1,..., m, <l, /=1, ..., n. Если Zk = 0, то остановиться; Xk является точкой Ф. Джона. В противном случае, т. е., если Zk < 0, перейти к шагу 2. Шаг 2. Положить %k равным оптимальному решению сле- следующей задачи одномерной минимизации: минимизировать f {xk + Xdk) при условии 0<Я<Ятах, где Ятах —= sup {Я : gi (xk + Xdk) < 0, / = 1, ..., т}. Положить xk+i=xk-\-Xkdki заменить k на &+1 и перейти к шагу 1. 10.2.4. ПРИМЕР. Рассмотрим задачу минимизировать 2х\ + 2х\ — 2ххх2 — 4хх — 6х2 при условиях хх + 5х2 Проделаем пять итераций алгоритма Топкиса и Вейнотта из начальной точки Xi =@.00, 0.75)г. Заметим, что градиент целе- целевой функции равен V/(x) = D*i — 2x2 — 4, 4х2 — 2хх — 6O, а градиенты функций ограничений соответственно равны A, 5)Ti Dхь —1)г, (—1, 0)т и @, —1)г. Все эти градиенты используют- используются в задаче поиска направления на каждой итерации метода.
396 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Итерация 1 Поиск направления. В точке xi = @.00, 0.75)т имеем V/(xi) = = (—5.5, —3.0)т. Таким образом, задача поиска направления имеет вид минимизировать z при условиях — 5.5^ — 3d2 — 2<0, di + 6d8 —г<1.25, — d2 —2<0.75, — dx -z<0, — d2 — г < 0.75, В правой части ограничений этой задачи, кроме первого (от второго до пятого), стоят значения —gi(x\) для /= 1, 2, 3, 4. Заметим, что одно из ограничений (—d2 — z ^0.75) лишнее. Оптимальным решением этой задачи является вектор di = = @.7143, —0.03571)т, при котором гх = —07143. Линейный поиск. Читатель может легко проверить, что мак- максимальное значение %, для которого точка xi + ^di допустима, равно Ятах = 0.84 и что f(x\ + A,di) = 0.972X2 —4.036Я — 3.375. Тогда i\ = 0.84 является решением задачи минимизации f (xi + Kd\) при условии 0 ^ Я ^ 0.84. Таким образом, х2 = = xi + Mi =@.60, 0.72)т. Итерация 2 Поиск направления. В точке х2 имеем Vf(x2)=(—3.04, —4.32)т. В качестве d2 берется оптимальное решение следую- следующей задачи: , минимизировать z при условиях — 3.04rfi — 4.32rf2 — z — d\ <l, /=1,2. Оптимальным решением этой задачи является вектор d2 = = (-0.07123, 0.1167)г и z2 = -0.2877. Линейный поиск. Максимальное значение Я, для которого точка x2 + tab допустима, равно Ятах = 1.561676. Читатель мо- может легко проверить, что f (х2 + ^2) = 0.054Я2 — 0.2876Я — — 5.8272 достигает минимума на отрезке 0^X^1.561676 в
Таблица 10.3 Результаты вычислений по методу Топкиса —• Вейнотта Линейный поиск Vf(xk) Лгоах (-5.50,-3.00) @.7143,-0.03571) -0.7143 0.84 0.84 @.6000,0.7200) (-3.04,-4.32) (-0.07123,0.116р -0.2877 1.561676 1.561675 @.4888,0.9022) (-3.8492,-3.3688) @.09574,-0.05547) -0.1816 1.56395 1.56395 @.6385,0.8154) (-5.6308*,-4.0154) (-0.01595,0.04329) -0.0840 1.41895 1.41895 @.6159,0.8768) (-3.2900,-3.7246) @.02676,-0.01316) -0.0303 1.45539 1.45539 @.6548,0.8575) 1 2 3 4 5 @.0000,0.7500) @.6000,0.7200) @.4888,0.9022) @.6385,0.8154) @.6159-, 0.8768) -3.3750 -5.8272 -6.1446 -6.3425 -6.5082
398 глл Ю. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ О 0.5- 1.0 Рис. 10.12. Метод Топкиса и Вейнотта. точке %2 = 1.561676. Следовательно, х3 = х2 + X2d2 = @.4888, 0.9022)т. Далее этот процесс повторяется. В табл. 10.3 приведены ре- результаты вычислений на пяти итерациях. Работа алгоритма по- показана на рис. 10.12. В конце пятой итерации получена точка @.6548, 0.8575)т со значением целевой функции —6.5590. Заме- Заметим, что в оптимальной точке @.658872, 0.868226)т значение це- целевой функции равно —6.613086. Сходимость метода Топкиса и Вейнотта В теореме 10.2.7 доказывается сходимость метода Топкиса и Вейнотта к точке Ф. Джона. Для доказательства необходимы два вспомогательных результата. В теореме 10.2.5 устанавлива- устанавливается необходимое и достаточное условие достижения точки Ф. Джона и показывается, что оптимальное решение задачи поиска направления действительно дает возможное направление спуска. 10.2.5. ТЕОРЕМА. Пусть х — допустимая точка в задаче ми- минимизации f (х) при условиях g/(x)< 0, i = 1, ..., т,_и (z, d) — оптимальное решение задачи Z)F(x). Если z<0, то d является возможным направлением спуска. Кроме того, z = 0 тогда и только тогда, когда х является точкой Ф. Джона. Доказательство, Пусть / = {/: g*(x) = 0}, и предположим, что z <С 0. Тогда в силу условий задачи DF(x) выполняются не- неравенства Ygi(x)Td<. 0 для / е /. Отсюда, а та_кже из того, что gf(x)<<0 для 1ф19 следует, что точка x + A,d допустима при
10.2. АНАЛИЗ СХОДИМОСТИ МЕТОДА ЗОЙТЕНДЕЙКА 399 достаточно малых X > 0. Следовательно, d — возможное направ- направление. Более того, Vf(x)rd<0 и, значит, d — направление спуска. Докажем теперь вторую часть теоремы. Учитывая, что gi(x) = 0 для /g/и что gi(х) < 0 для 1ф1, можно легко про- проверить, что z = 0 в том и только в том случае, если система не- неравенств V/(x)rd < 0 и Vg/(x)rd < 0 при /g/ не имеет реше- решения. По теореме 2.3.9 эта система не имеет решения тогда и только тогда, когда х — точка Ф. Джона. ¦ Утверждение леммы 10.2.6 будет использовано при доказа- доказательстве теоремы 10.2.7, в которой показывается сходимость алгоритма Топкиса и Вейнотта. Лемма, по существу, устанав- устанавливает, что любой алгоритм возможных направлений не может генерировать последовательность точек и направлений, обла- обладающих указанными в лемме четырьмя свойствами одновре- одновременно. 10.2.6. ЛЕММА. Пусть 5 — непустое замкнутое множество в Еп, а функция /: Еп-*Ех непрерывно дифференцируема. Рас- Рассмотрим задачу минимизации f(x) при условии, что x^S. Рас- Рассмотрим также любой алгоритм возможных направлений, ото- отображение которого А = MD определяется следующим образом. При заданной точке х соотношение (х, d)eD(x) означает, что вектор d является возможным направлением спуска для функ- функции / в^ точке х- Соотношение у ^ М (х, d) означает, что у = = х + Ы, где X является решением задачи одномерной мини- минимизации f(x + Xd) при условиях к^0 и x + XdeS. Пусть {х*}—произвольная последовательность точек, построенная та- таким алгоритмом, a {d*}—соответствующая последовательность направлений. Тогда не может существовать подпоследователь- подпоследовательности {(х*, dk)}x, которая одновременно удовлетворяла бы сле- следующим условиям: 1. Xfc->-x для к^Ж> 2. d* -> d для к^Ж, 3. xk + Kdk^S для всех X <= [0, б], где б > 0, для каждого 4. Vf(x)^d<0. Доказательство. Предположим от противного, что существует подпоследовательность {(хь Ак)}ж, удовлетворяющая указанным четырем условиям. В силу условия 4 существует е > 0, такое, что V/(x)rd = —2е. Так как х^->х и d*->d при /г^Ж и так как f непрерывно дифференцируема, то существует такое б' > 0, что V/ (xft + hdk)T&k < —е для Яе[0, б'] и достаточно больших к^Ж. A0.2)
400 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Пусть теперь 6 = min{6/ 6}>0. Рассмотрим достаточно большое AgX По определению Xk+\ и в силу условия 3 долж- должно выполняться неравенство f(Xk+\) ^ f(xk + 6сЦ). По теореме о среднем значении имеем f(xk + 6d^) = f(x^) + 6V/(x^) rd^, где xk = xk + hkSdk, a A,*e=[0, 1]. Из A0.2) следует, что f (*k+i) < f(*k) ¦— еб для достаточно больших к<^Ж> A0.3) Так как алгоритм возможных направлений генерирует после- последовательность точек с убывающими значениями целевой функ- функции, то lim f (хл) = /(х). В частности, f(x*+i) и f(xk) сходятся к f(x) при k-^оо и 1г&Ж. Таким образом, из A0.3) получаем, что f(x)^ f(x) — еб, что невозможно, так как е, б > 0. Это про- противоречие показывает, что не может существовать подпоследо- подпоследовательности, удовлетворяющей условиям 1—4. ¦ 10.2.7. ТЕОРЕМА. Пусть функции f, gt: En->EX непрерывно дифференцируемы. Рассмотрим задачу минимизации f(x) при условиях g"t(x)^O, i=l, ..., т. Предположим, что последо- последовательность {х*} построена алгоритмом Топкиса и Вейнотта. Тогда любая предельная точка последовательности {xk} яв- является точкой Ф. Джона. Доказательство, Пусть {x/J^— подпоследовательность, схо- сходящаяся к х. Нужно показать, что х является точкой Ф, Джона. Предположим противное, т. е. пусть х не является точкой Ф. Джона, и пусть z — оптимальное значение целевой функции в задаче DF(x). По теореме 10.2.5 существует такое г > 0, что г= —2е. Для к^Ж рассмотрим задачу DF(xk). Пусть (zkidU) — ее оптимальное решение. Так как последовательность {Ak}x ог- ограниченна, то существует подпоследовательность {djx,, сходя- сходящаяся к d. Более того, так как функции / и gt, i = 1, ..., m, не- непрерывно дифференцируемы и х*->х при k&X', то г*->2. В частности, для достаточно больших k e Ж' должно выпол- выполняться неравенство Zk <—8. По определению задачи DF(xk) достаточно больших к^.Ж' имеем <-e, (Ю.4) е, *=1, ..., т. A0.5) В силу непрерывной дифференцируемости функции / из A0.4) следует, что Vf(x)rd < 0. Так как функции gi непрерывно дифференцируемы, то из A0.5) вытекает существование такого 6>.О, что для всех ^е
10.3. МЕТОД ПРОЕКЦИИ ГРАДИЕНТА РОЗЕНА 401 е [0, б] и достаточно больших И^Ж' справедливы следующие неравенства: Пусть теперь Х^[0, б]. Так как g;(x*)^0 для всех k и всех /, то по теореме о среднем значении получаем, что gt (xk + Xdk) = gt (xk) + XV gi (xk + щ№к)т dk = = A - A) gt (xk) + X [gi (xk) + Vgi (xk + a/Jk*dft)r dk] < t {xk) + Vgi (xk + atMkYtkl (Ю.7) где a^<=[0, 1]. В силу того, что а*Де[0, б], из A0.6) и A0.7) следует, что g( (xk + Xdk) ^ — у Яе ^ 0 для достаточно больших к^Ж* и 1=1, ..., т. Это означает, что точка Xk + Xdk допу- допустимая для любого к е [0, б] и всех достаточно больших k e Ж'. Таким образом показано, что последовательность {(хь dk)}x, удовлетворяет условиям 1—4 из леммы 10.2.6. Однако по лемме существование такой последовательности невозможно. Это про- противоречие означает, что х — точка Ф. Джона. ¦ 10.3. Метод проекции градиента Розена Как было показано в гл. 8, направлением наискорейшего спуска является антиградиент целевой функции. Однако при наличии ограничений движение вдоль направления наискорейшего спу- спуска может привести в недопустимые точки. В методе проекции градиента Розена (Rosen [I960]) антиградиент проектируется таким образом, что значение целевой функции улучшается и в то же время сохраняется допустимость точек траектории. Прежде всего приведем следующее определение матрицы проектирования. 10.3.1. ОПРЕДЕЛЕНИЕ. Матрица Р порядка пХп назы- называется матрицей проектирования, если Р = Рг и РР = Р. 10.3.2. ЛЕММА. Пусть Р —матрица порядка пХя. Тогда справедливы следующие утверждения: 1. Если Р — матрица проектирования, то она положительно полуопределена. 2. Для того чтобы Р была матрицей проектирования, необ- необходимо и достаточно, чтобы I — Р была матрицей проектиро- проектирования. 3. Пусть Р — матрица проектирования и Q = I — Р. Тогда ?={Рх: хе?„} и Lx={Qx: хе?„} являются ортогональны-
402 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ ми подпространствами. Кроме того, любая точка хе?л может быть представлена однозначно в виде р + q, где pEL, qeL-4 Доказательство. Пусть Р — матрица проектирования их — произвольная точка из Еп. Тогда х7Рх = хгРРх = хгРгРх = =||Рх||2^0 и, следовательно, Р положительно полуопределена. Утверждение 2, очевидно, следует из определения 10.3.1. Далее, ясно, что L и L1—линейные подпространства. Заме- Заметим, что PrQ=P(I — Р)==Р —РР = 0 и, следовательно, L и L1 ортогональны. Пусть теперь х — произвольная точка из Еп. Тогда х = 1х = (Р + Q)x = Рх + Qx = р + q, где psL, qeL1. Покажем единственность этого представления. Предположим, что x = p/ + q/, где p'eL, q'eL1. Сравнивая выражения для х, получаем, что р — р' = q' — q. Следовательно р — p'eL и q'— qeL1, а так как единственной точкой пересечения L и LL является начало координат, то р — р' = q' — q = 0. Таким об- образом, представление х единственно. В Задачи с линейными ограничениями Рассмотрим следующую задачу: минимизировать / (х) при условиях Ах^Ь, Ех = е, где А — матрица порядка тХ^ Е— матрица порядка /Хя, Ь есть т-мерный вектор, е есть /-мерный вектор, а функция /: Еп-*Е\ дифференцируема. В заданной допустимой точке х на- направлением наискорейшего спуска является вектор —V/(x). Од- Однако движение вдоль —\f(x) может нарушить допустимость. Чтобы сохранить допустимость, спроектируем —V/(x) так, чтобы двигаться вдоль направления d=— PV/(x), где Р — соответ- соответствующая матрица проектирования. В лемме 10.3.3 дается вид соответствующей матрицы проектирования Р и показывается, что — PVf(x) действительно является возможным направлением спуска при условии, что — PV/(x)=t^=0. 10.3.3. ЛЕММА. Рассмотрим задачу минимизации /(х) при условиях Ах ^ b и Ех = е. Пусть х — допустимая точка, для которой Aix=bi и А2х<Ь2, где АГ = (А[, А2), a br = (bf, bQ. Кроме того, предположим, что функция / дифференцируема в х. Если Р — матрица проектирования, такая, что Р?/(х)^0, то вектор d = —PV/(x) является направлением спуска для функ- функции / в точке х. Кроме того, если Мг = (а[, Ег) имеет полный ранг и если Р=1 — МГ(ММ7>)~1М, то d — возможное направ- направление спуска.
10.3. МЕТОД ПРОЕКЦИИ ГРАДИЕНТА РОЗЕНА 403 Рис. 10.13. Проектирование градиента. /—линии уровня целевой функции; 2 — оптимальное решение. Доказательство. Заметим, что V/ (х)тd = - V/ (х)г РV/ (х) = -V/ (х)т Р ТРV/ (х)=-|| РV/ (х) ||2<0. По лемме 10.1.2 вектор d = —PV/(x) является направлением спуска. Кроме того, если Р=1 — Mr(MMr)~1M, то Md = = — MPV/(x) = 0, так что Aid = 0 и Ed = 0. По лемме 10.1.2 направление d является в этом случае возможным. I Геометрическая интерпретация проектирования градиента Заметим, что матрица Р из приведенной выше леммы действи- действительно является матрицей проектирования, удовлетворяющей равенствам Р = Рт и РР = Р. Кроме того, МР = 0, т. е. AjPzszO и ЕР = 0. Иными словами, матрица Р проектирует каждую строку матриц Ai и Е в нулевой вектор. Так как стро- строками матриц Ai и Е являются градиенты функций активных ог- ограничений, то Р — матрица, проектирующая градиенты функций активных ограничений в нулевой вектор. На рис. 10.13 показан процесс проектирования градиента для задачи с ограничениями-неравенствами. В точке х актив- активным является только одно ограничение, градиент которого равен Аь Заметим, что матрица Р проектирует любой вектор в ядро оператора Ai и что d = —PV/(x) — возможное направление спуска. Анализ случая, когда PV/(x)= 0 Если PVf(x)#0, то, как было показано, вектор d = —PV/(x) является возможным направлением спуска. Предположим те- теперь, что PV/(x)= 0. Тогда 0 = PV/ (х) = [I - Жт (MM7)'1 M] Vf (x) = = V/ (х) + Mrw = V/ (х) + AiU + Erv,
404 ГЛ, 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИИ где w = —(IA!AT)-}NlVf(x)t wr = (ur, vr). Если u > 0, то точка х удовлетворяет условиям Куна — Таккера. Если же u ^ 0, то, как показано в теореме 10.3.4, можно определить новую матри- матрицу проектирования Р, такую, что вектор d = —PVf(x) будет возможным направлением спуска. 10.3.4. ТЕОРЕМА. Рассмотрим задачу минимизации f(x) при условиях Ах ^ b и Ех = е. Пусть х — допустимая точка, для которой Aix = bi и А2х < Ьг, где кт = (АГ, а?) и Ьт = = (bf, b?). Предположим, что Мг — (А[, Ет) — матрица пол- полного ранга, и пусть Р=1— М7(ММГ)-1М. Далее, будем пред- предполагать, что PV/(x) = 0, w = -(MMr)-1M Vf(x), wr = (ur,vr). Если u ^ 0, то х является точкой Куна — Таккера. Пусть неко- некоторая компонента щ вектора и отрицательна, a Mr = (Ai, E ), где Ai получена из Ai вычеркиванием строки, соответствующей щ. Обозначим Р= I — МГ(ММГ)М и пусть d = —PV/(x). Тогда вектор d является возможным направлением спуска. Доказательство. По определению матрицы Р и из того, что PVf(x) = 0, имеем 0 = PV/ (х) = [I - Мг (ММ7) М] Vf (х) = = V/ (х) + Mrw = V/ (х) + Afu + Erv. A0.8) Принимая во внимание A0.8), заключаем, что если и ^ 0, то х — точка Куна — Таккера. Предположим теперь, что и^0, и пусть щ — отрицательная компонента вектора и. Покажем, что PVf(x)=H=O. Предпо- Предположим противное, т. е. пусть P?f(x) = O. Положим w = = —"(MMr)~1IVlV/(x). По определению Р имеем 0 = VVf (х) = [I — МГ(ММГ) М] V/ (х) = V/ (х) + Mrw. A0.9) Заметим, что вектор Afu + Erv может быть представлен в виде Mrw + #/rJ, где вектор г/ является /-й строкой матрицы Аь Та- Таким образом, из A0.8) имеем 0 = Vf (x) + Mrw + щт]. A0.10) Вычитая A0.10) из A0.9), получаем, что 0 = Mr(w — w) — щт]. Так как щ Ф 0, то это противоречит предположению о том, что матрица М имеет полный ранг. Следовательно, PV/(x)=7^=0. По лемме 10.3.3 вектор d является направлением спуска.
10.3. МЕТОД ПРОЕКЦИИ ГРАДИЕНТА РОЗЕНА 406 Покажем теперь, что d — возможное направление. Заметим, что МР = 0, так что (t> A0.11) По лемме 10.3.3 вектор d является возможным направлением, если Aid ^ 0 и Ed = 0. Чтобы убедиться, что d — возможное направление, достаточно, учитывая A0.11), показать, что Г/d ^ Э. Умножим (ШЛО) на Г/Р. Замечая, что РМГ = 0, получаем 0 = r/PV/ (х) + Г/Р (Mrw + а/Г/) = — r/d + ii/Г/Рг/. По лемме 10.3.2 матрица Р положительно полуопределена, так что Г/Рг[^0. Так как щ < 0, то из полученного выше равен- равенства следует, что г/d ^ 0. ¦ Алгоритм метода проекции градиента Розена (случай линейных ограничений) Приведем алгоритм метода проекции градиента Розена для ре- решения задачи минимизации /(х) при условиях Ах^Ь и Ех = е. Начальный этап. Выбрать точку хь для которой Axi < b и Exj = е. Представить А7 и Ьт в виде (а[, АО и (bf, hi) соот- соответственно, где AiXi = bi, A2X1 < Ьг. Положить k = 1 и перейти к основному этапу. Основной этап. Шаг 1. Положить Мг = (Аь Ет). Если М пуста, т. е. не содержит ни одного столбца, то положить Р = I. В противном случае положить Р= I — МГ(ММГ)М. Положить dk = —-PV/(x*). Если dk Ф 0, то перейти к шагу 2. Если d* = 0 и М пуста, то остановиться; в противном случае (М непуста) по- положить w = — (ММ^М Vf (xk). Пусть wr = (ur, vr). Если u > 0, то остановиться; х& — точка Куна — Таккера. Если и ^0, то вы- выбрать отрицательную компоненту щ этого вектора, переопреде- переопределить матрицу Ai, вычеркивая строку, соответствующую И/, и по- повторить шаг 1. Шаг 2. Взять в качестве %k оптимальное решение следую- следующей задачи линейного поиска: минимизировать f (xk + Ad^) при условии 0<4<Атах, где Ятах определяется в соответствии с A0.1). Положить x^+i = = х^ + Ьк&ь представить Аг и br в виде (А[, АО и (b[, bl), так что Aix*+i = bi и A2x^+i<b2. Заменить k на А+1 и пе- перейти к шагу 1.
406 гл- Ю. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ 10.3.5. ПРИМЕР. Рассмотрим следующую задачу: минимизировать 2х\ + 2х\ — 2х{х2 —¦ Ах{ — 6х2 при условиях Х\ + х2 *i + 5*2 Заметим, что V/(x) = Da:i — 2х2 — 4, 4^2 — 2х\ — 6)г. Решим эту задачу с помощью метода проекции градиента Розена, взяв в качестве начальной точку @, ОO. На каждой итерации сначала в соответствии с шагом 1 алгоритма найдем направление дви- движения, а затем проведем линейный поиск вдоль этого направ- направления. Итерация 1 Поиск направления. В точке xi=@,0)г имеем V/(xi) = = (—4, —б)г. Кроме того, в xi только ограничения неотрицатель- неотрицательности переменных являются активными, так что П -!]¦ Тогда P=I- и di = —PV/(xi) = @, 0)r. Учитывая, что ограничения-равен- ограничения-равенства отсутствуют в задаче, вычислим w = и = - (AiAfГ1 AiVf (xi) = (-4, -6)г. Выберем щ = —6 и удалим градиент, соответствующий четвер- четвертому ограничению, из Аь Матрица Ai преобразуется таким об- образом к виду Ai = (—1, 0). Преобразованная матрица проекти- проектирования принимает вид а направление движения di определяется вектором Линейный поиск. Любая точка х2, полученная движением из по направлению di, может быть представлена в виде х2 = xi + ^di = @, 6Х)г, а соответствующее ей значение целевой
10.3. МЕТОД ПРОЕКЦИИ ГРАДИЕНТА РОЗЕНА 407 функции равно f(x2) = 72A,2— 36Я. Максимальное значение А,, для которого точка xi + ^di допустима, получается в соответ- соответствии с A0.1) и равно Следовательно, hi является оптимальным решением следующей задачи: минимизировать 72А,2 — 36Я при условии О^Л^-g-. Оптимальное решение равно ^1 = -^, так что x2 = Xi + A,idi = = @, IV. Итерация 2 Поиск направления. В точке х2 = @, 1)т имеем V/(x2) = ==(—6, —2)г. Кроме того, в этой точке активными являются второе и третье ограничения, так что получаем ч: л- Далее имеем и, следовательно, —PV/(x2)=ae@, 0)г. Вычислим Так как uz < 0, то строка (—1, 0) вычеркивается из Ai, что дает матрицу Ai==(l, 5). Матрица проектирования и соответствую- соответствующее направление определяются следующим образом: Г ^ _^п 1*!- 256 2f L L 26" 6"J Так как длина вектора d2 не имеет значения, то вектор ("Тз —Гз~) эквивалентен вектору E, —1)г. Таким образом, полагаем d2 = E, —1)г.
408 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Линейный поиск. Нас интересуют только точки вида х2 + -f.Xd2=EX, 1—%)т, в которых значение целевой функции рав- равно /(X2 + Ml2)= 62A,2 — 28Х — 4. Максимальное значение Я, для которого точка Х2 + tab допустима, в соответствии с (ЮЛ) равно _ . ( 1 \\_ 1 Таким образом, %2 определяется из решения задачи минимизировать 62А,2 — 28А — 4 при условии О^Я^^-. Оптимальным решением является Я2 = -gj-, так что Хз ?= f-gj-, 24 у 3i; • Итерация 3 Поиск направления. В точке X3=ff, зг) имеем V/(x3) = / 32 160V тг ==Ч~~"зР —зГ\) ' Кроме того, в этой точке активным яв- является второе ограничение, т. е. А, = [1,5], А2 Далее, получаем и направление <1з = —PV/(x3) = @, 0)r. Таким образом, вычис- вычисляем и = - (AiAf) AiVf (Хз) = ¦§ > 0. Следовательно, точка хз оптимальна. Заметим, что градиент функции активного в этой точке ограничения противоположен V/(x3) и V/ (х3) + и2 Vg2 (х3) = 0 для «2 = -зГ> П0ЭТ0МУ х3 —точ- —точка Куна — Таккера. Так как функция / в этом примере выпукла, то по теореме 4.3.7 точка х3 является точкой глобального опти- оптимума задачи.
Таблица 10.4 Результаты вычислений по методу проекции градиента Розена Поиск направления Яинейнйй х^ мХк) »'(х^) I А-| 1 @,0) (-4,-6) {3,4} [~* _°] [° JJ] @,0) (-14,-6) - - - {3} [-1,0] [° ®] @,6) . _ | | @,1) 2 @,1) -4.00 <-6,-2) {2,3} [_J J] [° °] @,0) ^-f) - - _ {2} [1,5] [_J ~j] <n,-H) — i ЙГ бЫЙ 3 (if, If) -7.16 (-H.-W) ¦' {2} [1,5] f f ~fl @,0) (|2) _ _ _
410 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Линия уровня /=-7.10 1.5 2.0 0.5 1.Q ^I!L-—-Линия уровня /=0 Рис. 10.14. Метод проекции градиента Розена. В табл. 10.4 приведены результаты вычислений при решении рассмотренной задачи. Процесс решения показан также на рис. 10.14. Нелинейные ограничения До сих пор мы рассматривали метод проекции градиента при- применительно к задаче с линейными ограничениями. В линейном случае проектирование градиента целевой функции на ядро оператора, порожденного градиентами функций всех или не- нескольких активных ограничений, приводит к возможному на- направлению спуска или к заключению, что найденная точка яв- является точкой Куна — Таккера. Та же самая стратегия может быть использована и при наличии нелинейных ограничений. Проектирование градиента обычно не приводит в допустимые точки, так как он лишь касается допустимой области, как пока- показано на рис. 10.15. Следовательно, движение вдоль проекции градиента должно быть совмещено с корректирующим движе- движением к допустимой области. Для большей ясности рассмотрим следующую задачу: минимизировать / (х) при условиях gi (х) ^ 0, / = 1, , ¦., т, Мх) = 0, 1=1, .,., U Пусть Xk — допустимая точка и / = {/: g/(x*) = 0}. Рассмотрим матрицу М, строками которой являются градиенты Vgi(xk)T для is/ и УЛ/ЫЛ / = 1, ...,/, и положим Р= I - W(NlNlT)-lM.
10.3. МЕТОД ПРОЕКЦИИ ГРАДИЕНТА РОЗЕНА 411 -P\f/(Xk) Корректирующее движение g = О' Рис. 10.15. Проектирование градиента при наличии нелинейных ограничений. Заметим, что Р проектирует любой вектор в ядро оператора, порожденного градиентами функций, отвечающих ограничениям- равенствам и активным ограничениям-неравенствам. Положим dk = —PV/(xa;). Если d* ф 0, то минимизируем / по направ- направлению dk из точки хь и сделаем коррекцию движения к допусти- допустимой области. Если же d* = 0, то вычислим (u7, v7) = = — V/(xftOMr(MMr)-1. Если и ^ 0, то х* —точка Куна —Так- кера. В противном случае удалим из М строку, соответствую- соответствующую щ < 0, и повторим процедуру. Анализ сходимости метода проекции градиента Заметим, что отображение поиска направления не обязательно замкнуто, поскольку генерируемое направление может резко измениться, когда новое ограничение становится активным, как показано в примере 10.3.6, или когда проекцией градиента яв- является нулевой вектор. В последнем случае требуется вычислять новую матрицу проектирования. Более того, как было показано в примере 10.2.2, отображение линейного поиска в общем слу- случае также незамкнуто. Следовательно, теорема 7.2.3 не может быть использована для доказательства сходимости метода. Не исключена возможность использования других подходов к до- доказательству сходимости. Однако пока такие доказательства или контрпримеры не известны. 10.3.6. ПРИМЕР. Рассмотрим следующую задачу: минимизировать Х\ — 2х2 при условиях Покажем, что отображение поиска направления в методе про- проекции градиента в общем случае незамкнуто. Рассмотрим по- следовательность {х*}> где ** = [% — -jf. 2J • Заметим, что {xk} сходится к точке х = B, 2)г. Для каждого k точка xk до- допустима, а множество активных ограничений пусто. Таким
412 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Рис. 10.16. Отображение поиска направления незамкнуто. образом, матрица проектирования равна I и d* =:~--V/(x*) = = (—1, 2)г. Заметим, однако, что первое ограничение является активным в точке х. Здесь матрица проектирования Г - --1 >- 5 Ч L 5 5 J и, следовательно, d = — Р V/ (х) = Г— -g-, -g-J . Таким образом, последовательность {d*} не сходится к d, и, значит, отображение поиска направления незамкнуто в точке х. Эта ситуация иллю- иллюстрируется на рис. 10.16. 10.4. Метод приведенного градиента Вулфа В этом параграфе рассматривается другая процедура для по- построения возможного направления спуска. Метод основан на сокращении размерности задачи с помощью представления всех переменных через подмножество независимых переменных. Ме- Метод приведенного градиента был впервые предложен Вулфом (Wolfe [1963]) для решения задачи нелинейного программиро- программирования с линейными ограничениями. Позднее он был обобщен Абади и Карпентером (Abadie and Carpentier [1969]) на слу- случай нелинейных ограничений. Рассмотрим следующую задачу: минимизировать f (x) при условиях Ах = Ь,
10.4. МЕТОД ПРИВЕДЕННОГО ГРАДИЕНТА ВУЛФА 413 где А —матрица порядка тХ« и ранга т, Ь—вектор из Ет, а функция / непрерывно дифференцируема в Еп> Сделаем сле- следующее предположение о невырожденности А. Любые пг столб- столбцов матрицы А линейно независимы, и каждая экстремальная точка допустимой области имеет ровно m положительных пере- переменных и самое большое п — m нулевых компонент. Пусть теперь х — допустимая точка. По предположению о не- невырожденности матрица А может быть представлена в' виде [В, N], а вектор хг —в виде [хв, х^], где В — неособенная ма- матрица порядка тУ(т, а хв > 0, Вектор хв называется базис- базисным, и каждая его компонента строго положительна. Компо- Компоненты енебазисного вектора xN могут быть либо положитель- положительными, либо нулевыми. Пусть Vf(x)T = [VBf(x)r, VNf(x)T], где Vs/(x) — градиент функции f по переменным базисного вектора хв, a V#/(x) — градиент / по внебазисным переменным х#. На- Напомним, что направление d является направлением спуска и воз- возможным для функции / в точке х, если V/(x)rd<0, Ad = 0 и dj ^ 0, если Xj = 0. Теперь точно определим вектор d, обладаю- обладающий этими свойствами. Прежде всего представим вектор dr в виде [di, d/Д. Заметим, что равенство 0 = Ad= Bdu + Nd# автоматически выполняется, если для любого d# положить йв = = -B^Nd*. Пусть гг = (г?, rTN) = Vf (xf - VBf (x)T Ъ~1А = [О, (x)r — VBf (x)TB ^]— приведенный градиент. Исследуем )'d V/ (xf d = VBf (X)? йв + VJ (хУ dN = = [Vjv/ (х)г - VBf (x)rB"lN] d^ = tUn. Мы должны выбрать d# так, чтобы r#d# < 0 и d\ ^ 0, если х, = 0. Примем следующее правило. Для каждой внебазисной ком- компоненты / положим dj = —г/, если г/ ^ 0, и положим dj = = —XjTj, если г/> 0. Это обеспечивает выполнение неравенства dj > 0, если Xj = 0. Кроме того, Vf(x)Td < 0, и строгое неравен- неравенство имеет место, если d# ф 0. Таким образом, мы описали процедуру построения возмож- возможного направления спуска. То, что это действительно так, а так- также то, что d = 0 в том и только в том случае, когда х — точка Куна — Таккера, доказывается в теореме 10.4.1. 10.4.1. ТЕОРЕМА. Рассмотрим задачу минимизации f(x) при условиях Ах = Ь, х ^ 0, где А — матрица порядка /пХ«,а b есть m-мерный вектор. Пусть х —допустимая точка, такая, что хг = (х^ х^), Хд>0, где А представлена в виде [В, N], при- причем В — неособенная матрица порядка mXw. Предположим,
414 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ что функция f дифференцируема в точке х, и пусть тт = = V/(x)r —VB/(x)rB-1A. Пусть dr = (ds, d?) — направление, построенное по следующему правилу. Для каждой внебазисной компоненты / полагаем dj = —/7, если г\ ^ 0, и dj = —Х\г-и если г/ > 0. Затем полагаем d^ = —B~1Nd^. Если d ф 0, то d — возможное направление спуска. Кроме того, d = 0 тогда и только тогда, когда х — точка Куна — Так- кера. Доказательство. Прежде всего заметим, что вектор d яв- является возможным направлением в том и только в том случае, если Ad = 0, и dj ^ 0 при х\ = 0, / = 1, ..., я. По определению вектора dB имеем, что Ad= Bds + Nd# = В(—B-]Nd^) + + Ndyv = 0. Если переменная xj базисная, то по предположению Xj > 0. Если Xj внебазисная, то компонента dj может быть отри- отрицательной только в том случае, если Xj > 0. Таким образом, dj ^ 0, если Xj = 0, и, следовательно, направление d возмож- возможное. Кроме того, х)? d = VBf (xV dB + VNf (xf dN = = [V^/ (xf - VBf (x)rB-!N] d,v - Z где / — множество индексов базисных переменных. По опреде- определению dj очевидно, что либо d = 0, либо V/(x)rd < 0. В послед- последнем случае по лемме 10.1.2 вектор d является возможным на- направлением спуска. Заметим, что х является точкой Куна — Таккера тогда и только тогда, когда существуют векторы иг = (и3з, и^)^@, 0) и v, такие, что A0.12) Так как хв > 0 и и? ^ 0, то равенство мтвхв — 0 выполня- выполняется в том и только в том случае, если и? = 0. Из первого равенства A0.12) следует, что \Т = — Ув!{хI В. Подставляя это выражение во второе равенство A0.12), получаем, чтои]^ = ==VNf (x)r — VBf(x)Tb"lN. Другими словами, и^ = г^. Таким образом, условия Куна — Таккера сведены к соотношениям Тм^О и Глгх# = 0. Однако в силу определения d равенство d = 0 справедливо тогда и только тогда, когда г^^Ои r^x^= 0. Таким образом, х — точка Куна-Таккера в том и только в том случае, если d = 0. ¦
10.4. МЕТОД ПРИВЕДЕННОГО ГРАДИЕНТА ВУЛФА 415 Алгоритм метода приведенного градиента Рассмотрим алгоритм метода приведенного градиента Вулфа для решения задачи минимизации /(х) при условиях Ах = Ь, х ^ 0. Предполагается, что любые т столбцов матрицы А ли- линейно независимы и что каждая экстремальная точка допусти- допустимой области имеет т строго положительных компонент. Как будет вскоре показано, алгоритм сходится к точке Куна—Так- кера при условии, что в качестве базисных переменных выбра- выбраны т наибольших положительных переменных. Начальный этап. Выбрать точку хь удовлетворяющую усло- условиям Axi = b, xi ^ 0. Положить k = 1 и перейти к основному этапу. Основной этап. Шаг 1. Положить dl = (dl, d#), где d# и йв получены по формулам A0.16) и A0.17) соответственно. Если d&i=»0, то остановиться; Xk — точка Куна — Таккера. В против- противном случае перейти к шагу 2. Ik — множество индексов m наибольших компонент вектора xk, A0.13) В - {а,: / е /*}, N = {а/: / ф /*}, (Ю.14) тТ = V/ (х/ - VBf (x/ В-!А, A0.15) -Г/, если- \ф1ь и гу<0, (Ю16) - *//•/, если / ф. Ik и Г/ > 0, dB = -~B"Nd^. A0.17) Шаг 2. Решить следующую задачу одномерной минимиза- минимизации: минимизировать / (xk + Xdk) при условии где *1 dk>°' A0.18) оо, если d^>0. Здесь xjk, djk суть j-e компоненты векторов х* и d^ соответствен- соответственно. Положить Xk равным оптимальному решению и + Xkdk- Заменить k на k + 1 и перейти к шагу 1. 10.4.2. ПРИМЕР. Рассмотрим задачу минимизировать 2х\ + 2х\ — 2ххх2 — 4х{ — 6х2 При УСЛОВИЯХ Х\ + Х2 + Х3 = 2, х\ + Ъх2 +^4 = 5, 0.
416 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Решим эту задачу методом приведенного градиента Вулфа, взяв в качестве начальной точку xi = @, 0, 2, 5)г. Заметим, что V/ (х) = D* - 2х2 - 4, 4*2 - 2хх - 6, 0, Of. Информацию, необходимую для выполнения каждой итерации, будем представлять в виде таблицы, подобной симплекс-таблице из § 2.6. Однако, так как градиент изменяется от итерации к итерации и внебазисные переменные могут быть положитель- положительными, мы будем выписывать градиент и полное решение в верх* них строках таблицы. Приведенный градиент г* будем записы- записывать в последней строке таблицы. Итерация 1 Поиск направления. В точке Xi =@,0, 2, б)г имеем V/(xi) = = (—4, —6, 0, 0)г. В соответствии с A0.13) множество 1\ = = {3, 4}, так что В = [а3, а4] и N=[ai, a2]. Согласно A0.15), приведенный градиент равен rr = (_4,_6,0,0)-@,0)[ Отметим, что вычисления для приведенного градиента подобны вычислениям для строки коэффициентов целевой функции в симплекс-методе из § 2.6 и п = 0 для /е/ь Результаты вычис- лений для этой точки сведены в приведенную ниже таблицу. Решение х1 г 0 -4 -4 0 -6 1 5 -6 2 0 1 0 0 5 0 0 1 0 В соответствии с A0.16) имеем A# = (д?ь ^2)г = D, 6)г. Вы- Вычисляя dfi по формуле A0.17), получаем Заметим, что В-^ записана под переменными, соответствую- соответствующими матрице N, а именно под х\ и х% Вектор направления, та* ким образом, равен dj =D, 6, —10, —34)т.
10.4. МЕТОД ПРИВЕДЕННОГО ГРАДИЕНТА ВУЛФА 417 Линейный поиск. При начальной точке @, 0, 2, 5)т миними- минимизируем целевую функцию по направлению di = D, 6, —10, —34)т. Максимальное значение X, для которого точка х\-\-М} допустима, вычисляется в соответствии с A0.18) и равно . ( 2 5 \ 5 Читатель может легко проверить, что f(xi + Xdi) = 56Я2 — — 52А,, так что задача линейного поиска имеет вид минимизировать 56А,2 — 52А, при условии О^л,^"зГ- г\ о 5 , , , /10 15 9 Л\Г Очевидно, что Ях = -g^-, так что x2 = Xi + к\щ = I jy jj, -jy 01 . Итерация 2 Поиск направления. В точке х2 = Cj=-, -jy, -jy, 0 J в соот- соответствии с A0.13) имеем /2 = {1, 2}, В = [аь a2j и N=[a3, а4]. Кроме того, V/(x2) = f—^у, —jy, 0, 0j . Эта информация сведена в таблицу, приведенную ниже, где строки х\ и х^ полу- получены двумя операциями вращения (ведущее преобразование, см. § 2.6) над таблицей из итерации 1. Решение 1 V/(x2) V f (х )= г f-ffl l-f?J -if x2 0 0 if -Щ 0 1 0 9 17 0 1 4 0 0 ~4 I 4 17 В соответствии с A0.15) имеем г i о ~ — i -(о, о, f. 4 Н М. Базара, К. Шетти
418 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Тогда, согласно A0.16), имеем что d3 = — (jf) G7") = — 513 289 513 и d4 = V, так что uN = [ — -^5", U) . Из (Ш.17) получаем, что 5 h . C1Q ^ / 2565 -U 'JK-W- 1156 Таким образом, этап поиска направления привел к вектору л — ( 2565 513 513 у °2 VI156 ' 1156 ' 289 ' Линейный поиск. Начиная процедуру из точки х2=Гу=, р=, 9 \Т -jy, 0J , минимизируем целевую функцию по направлению - /2565 513 513 п\т Ал 2==vlT56"' —ПЪ6" ~~89"* J * Максимальное значение Л, для которого точка хг + ^2 допустима, вычисляется по формуле A0.18) и равно _ . I 17 17 I _ 17 — П1Ш 513 ' 5TF Г~7"' I 1156 289 J Читатель может легко проверить, что /4x2 + A,d2)= 12.2U2 — — 5.95k — 6.436, так что 12 получается из решения следующей задачи: минимизировать 12.2U2 — 5.95Л — 6.436 при условии 0<Я<-^-. Нетрудно убедиться, что# к2 = -%ю> так что х3 = х2 + Я2с12 = ? (? 2L ± V 31 * 31 * 31 f Итерация 3 Поиск направления. Теперь /3 = {1, 2}, т. е. В = [аь a2j, N = [а3, а4]. Так как /3 = /2, то таблицу предыдущей итерации можно сохранить. Имеем V/ (х3) = Г— -^т-, —^г, 0, 0J .
10.4. МЕТОД ПРИВЕДЕННОГО ГРАДИЕНТА ВУЛФА 419 *! х2 х3 х4 Решение х3 V/(x3) V f ('Y \ — 1 I В¦»\*3/ I 1<SO I r If -n 1 x2 0 0 if 160 0 1 0 A 0 f 0 0 0 1 В соответствии с A0.15) получаем, что г7' [in — — —1 4 4 n t 1 4 = @, 0, 0, 1). Тогда из A0.16) dN = (d3id4)T= @,0)r, a no A0.17) получаем, что dB = {dud2)T = @,0)г. Следовательно, d = 0 и решение х3 оптимально. В табл. 10.5 приведены результаты вычислений, а на рис. 10.17 показан процесс решения задачи. Таблица 10.5 Результаты вычислений по методу приведенного градиента Вулфа Поиск направления Линейный поиск к ж* '(х*) г d Afc х*+1 1 @,0,2,5) 0,0 (-4,-6,0,0) @,1,-1,-5) 1 @,1,1,0) 2 @,1,1,0) -4,0 (-f,0,0,|) A.-J.40) If <f?,3i,H,0) •3 вЫь&О) -7,16 @,0,0,1) Сходимость метода приведенного градиента В теореме 10.4.3 устанавливается сходимость метода приведен- приведенного градиента к точке Куна — Таккера. При доказательстве, предполагая противное, определяется последовательность, удов- удовлетворяющая условиям леммы 10.2.6. 10.4.3. ТЕОРЕМА. Пусть функция /: Еп-+Е\ непрерывно дифференцируема. Рассмотрим задачу минимизации /(х) при условиях Ах = Ь, х^0. Здесь А —матрица порядка тХп, а Ь есть m-мерный вектор, такие, что все экстремальные точки до- допустимой области имеют т положительных компонент и любые 14*
420 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ 1.0 0.5 ~Vf(X2J Линия уровня /=-7.16 0.5 1.0 Линия уровня /=0 1.5 20 Рис. 10.17. Метод приведенного градиента Вулфа. т столбцов матрицы А линейно независимы. Предположим, что последовательность {х^} строится в соответствии с алгоритмом приведенного градиента. Тогда любая предельная точка после- последовательности {xk} является точкой Куна — Таккера. Доказательство. Пусть {хк}ж— последовательность, сходя- сходящаяся к точке х. Требуется показать, что х — точка Куна — Так- Таккера. Предположим, что это не так. Покажем, что тогда суще- существует подпоследовательность {(хл, dk)}x, удовлетворяющая ус- условиям 1—4 леммы 10.2.6, что невозможно. Пусть {dk}x— последовательность направлений, отвечаю- отвечающая {Xk)x- Заметим, что dk определяются в соответствии с A0.13) — A0.17). Обозначим через h множество индексов m наи- наибольших компонент вектора х*, использованного для вычисле- вычисления d*. Тогда существует Жг а Ж, такое, что h = I для всех k е Ж', где 7 — множество индексов m наибольших компонент вектора х. Обозначим через d направление, полученное для х в соответствии с формулами A0.13) — A0.17). По теореме 10.4.1 имеем, что d Ф 0 и V/(x)rd < 0. Так как функция / непрерывно дифференцируема, х^хи^ = / для k e Ж\ то в соответствии с A0.14) — A0.17) d^-^d для к^Ж'. Таким образом, показано, что последовательность {(хь Ak)}x, удовлетворяет условиям 1, 2 и 4 леммы 10.2.6. Для завершения доказательства нужно по- показать, что справедливо и условие 3,
10.5. ВЫПУКЛЫЙ СИМПЛЕКСНЫЙ МЕТОД ЗАНГВИЛЛА 421 Напомним, что в силу A0.18) точка xk + kdk допустима для всех Я е= [0, б*], где 6k = min [mini — ^ : dik < 0J, ooJ > 0 для всех k^X'. Предположим, что inf {bk\ k <= X'} = 0. Тогда су- существует такое множество индексов «Ж" с: ^, что 6k = — xpk/dpk сходятся к нулю при *1бГ', где *рЛ > 0, dpk<0, a p — эле- элемент множества {!,...,п}. Заметим, что в соответствии с A0.13)—A0.17) последовательность {^^„ограниченна, и так как {bk}x,f сходится к нулю, то {хрк}х„ также сходится к нулю. Таким образом, хр = 0, т. е. р<?/. Но //г = / для 6еГ и^ следовательно, рф!к. Так как dPk<0, то из A0.16) следует, X 1 что dpk = — xpkrpk. Отсюда вытекает, что 6k = —-~- = . aPk rpk Это показывает, что rpk->ooy что невозможно, так как rpk-> -+Грфоо. Таким образом, ini{6k: k^X/} = 6>0. Мы пока- показали, что существует такое 6 > 0, что точка xk + kd* допустима для всех % е [0, б] и для всех & е Ж'. Следовательно, условие 3 леммы 10.2.6 выполняется. ¦ 10.5. Выпуклый симплексный метод Зангвилла Выпуклый симплексный метод во многом схож с методом при- приведенного градиента из § 10.4. Отличие в том, что в этом методе преобразуется только одна внебазисная переменная, в то время как все остальные внебазисные переменные фиксированы. Ко- Конечно, значения базисных переменных преобразуются в соответ- соответствии с требованием сохранения допустимости, так что принцип работы метода очень похож на симплекс-метод для задач ли- линейного программирования. Название метода объясняется тем, что первоначально он был предложен Зангвиллом (Zangwill [1967]) для минимизации выпуклой функции при линейных ог- ограничениях. Рассмотрим следующую задачу: минимизировать / (х) при условиях Ах = Ь, где А — матрица порядка тХя и ранга /гс, b есть т-мерный вектор. Напомним, что для заданной допустимой точки х вектор d определяет возможное направление спуска, если Tf(x)Td < 0, Ad = 0 и dj ^ 0 при Xj = 0,
422 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Предположим, что допустимая точка хг представима в виде (хв, х#) и А = [В, N], где В — неособенная матрица порядка тХт. Здесь хв — базисный вектор, axw- внебазисный. Пред- Предположим также, что хв > 0 и dT — (d/з, dv). Если для любого заданного вектора dN выбрать dB = — B^Nd^, то Ad = 0. Вектор dN выбирается таким образом, чтобы гарантировать выполне- выполнение условий V/(x)rd<0 и df^O при #/ = 0, т.е. чтобы полу- получить возможное направление спуска. Полагая гг = (r?, rTN) = Vf (xf - VBf (x)rB"!A=@, VNf (xO-VBf (x)rB-!N), получаем, что Vf (xf d = VBf (x)r dB + VNf (xf dN = = [ V (x)r - VBf (x)T B-!N] d^ = r^d^v = ^ rtdh где / — множество индексов базисных компонент вектора х. В выпуклом симплексном методе вычисляются числа а = = max{—г/: г/ ^ 0} и p = max{x/r7: г/^0}. Если а = р = 0, то, как показано в теореме 10.5.1, точка х является точкой Куна—Таккера и процесс останавливается. В противном слу- случае если а или р положительно, то dN определяется следующим образом. Если а ^ р, например а = —rv, то dv = 1 и d/ = 0 для /§?/ и /=t^v. Если а <С р, например Р = xvrVi то dv = —1 и d, = 0 для / ^ / и / # v. Иными словами, если а ^ р, то каж- каждая внебазисная компонента d\ равна нулю, за исключением rfv = l, так что внебазисная переменная jcv возрастает, в то время как все остальные остаются фиксированными. Если а < Р, то все внебазисные компоненты dj равны нулю, за исключением dv=— 1, т. е. внебазисная переменная xv убывает, а остальные внебазисные переменные остаются неизменными. В обоих слу- случаях базисные переменные изменяются по направлению ds = = —B^Ndv. Таким образом, в первом случае dB = —B-!av, a во втором dB = B-!av, где av есть v-й столбец матрицы А. В теореме 10.5.1 показывается, что х является точкой Куна — Таккера в том и только в том случае, если а = Р = 0. В против- противном случае направление d, полученное с помощью выпуклого симплексного метода, является возможным направлением спуска. 10.5.1. ТЕОРЕМА. Рассмотрим задачу минимизации f(x) при условиях Ах = Ь, х ^ 0, где А — матрица порядка тУСп и ранга m, a b есть m-мерный вектор. Пусть х — допустимая точка, такая, что хг = (х?, X/v), Хв > 0, А = [В, N], где В — неособенная матрица порядка /пХ^. Тогда х является точкой
10.5. ВЫПУКЛЫЙ СИМПЛЕКСНЫЙ МЕТОД ЗАНГВИЛЛА 423 Куна —Таккера в том и только в том случае, если а = р = 0, где а = max {— rf: rf < 0}, р = max {лг/Г/: r} > 0}, a rT = = V/(x)r — Vs/(x)rB-lA. Если а или p положительно, то рас- рассмотрим направление d, определенное следующим образом. Пусть / = {/: Xf — базисная компонента вектора х}. Если а = = —rv ^ Р, то положим dv = I и dj = 0 для /^/ и j фу. Если P = xvrv>a, то положим dv = —1 и d/= 0 для /§§/ и /=H=v. Затем положим ds ==—B^Nd^. Тогда направление dr = = (<fi, d^)— возможное направление спуска. Доказательство. Заметим, что х является точкой Куна — Таккера тогда и только тогда, когда существуют такие векторы v и ur = (ив, u]v) > @, 0) что [V Мг, V МП + vr(В, N) - (и?, и') = @, 0), A0.19) "Тв*в = °> UW = °- (Ю.20) Так как хв > 0, то из A0.20) вытекает, что ив = 0. Тогда из A0.19) получаем, что vT = — VB/(x)rB-1. Следовательно, усло- условия Куна — Таккера выполняются в том и только в том случае, если uTN = VNf(\)T — VBf(x)TB~lN^0 и uW = 0. Таким обра- образом, условия Куна — Таккера свелись к соотношениям rJv^O и ГлгХлг^О, которые являются необходимыми и достаточны- достаточными условиями для равенств a = Р = 0. Заметим, что Vf (xf d = VBf (x)T dB + V J (x)T dN=[VNf (x)T-VBf dh A0.21) где /={/: x/ — базисная компонента вектора х}. Предположим теперь, что max {a, Р}>0. Сначала рассмотрим случай, когда а ^ р. Тогда dv = 1 и dj = 0 для / <^= / и / Ф v. Так как а = == — гv > 0, то из A0.21) следует, что Vf(x)rd =rv < 0. Теперь рассмотрим случай, когда а < р. В этом случае dv = —1 и df = O для /^/ и /=7^=v. Так как р = xvrv > 0, то из A0.21) вытекает, что Vf(xOd = rvrfv = —rv<0. Таким образом, в обоих случаях V/(x)rd < 0, т. е. d — направление спуска. Далее, заметим, что Ad = 0 и d\ ^ 0, если х\ = 0. Отсюда заключаем, что d — возможное направление. ¦ Алгоритм выпуклого симплексного метода Теперь рассмотрим алгоритм выпуклого симплексного метода Зангвилла для решения задачи минимизации f(x) при условиях Ах = Ь, х ^ 0. Предполагается, что любые m столбцов матрицы
424 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ А линейно независимы и что каждая экстремальная точка до- допустимой области имеет точно т положительных компонент. Как вскоре будет показано, алгоритм сходится к точке Куна — Так- кера при условии, что в качестве базисных переменных выби- выбираются т наибольших положительных компонент. Начальный этап. Выбрать точку хь для которой Axi = b и Xi ^ 0. Положить k = 1 и перейти к основному этапу. Основной этап. Шаг 1. При заданном Xk определить /*, В, N и вычислить г следующим образом: Ik — множество индексов m наибольших компонент вектора xk A0.22) В = {а7: У е /*}, N = {а,: / ф /*}, A0.23) тт = V/ (х/ - V (х/ В'1 А. A0.24) Если а = Р = 0, то остановиться. Если а > р, то вычислить d# в соответствии с A0.27) и A0.29). Если а < Р, то вычислить d# по формулам A0.28) и A0.30). Если а = Р ф 0, то вычис- вычислить dN либо по формулам A0.27), A0.29), либо по формулам A0.28), A0.30). В любом случае определить йв в соответствии с A0.31) и перейти к шагу 2. а = max {—гу: гу<0}, A0.25) Р = max {xfr}: r7>0}, A0.26) индекс, для которого а = — rv, A0.27) индекс, для которого p==xvrv, A0.28) если / ф /ь если i U, если j^Ikf ]Фу, df = \ ' .^ *' . 10.30) 7 1-1, если ]&Ikt / = v, dB = —В^. A0.31) Шаг 2. Рассмотр1»м следующую задачу линейного поиска: минимизировать / (xft + hdk) при условии 0^Я^Ятах, где ' A0.32) @ если 1ф1ь Mv, I 1, если 1<?1к, / = v, { тш I ~ 1Г~: rf/ft < ° Г • если если dft
10.5. ВЫПУКЛЫЙ СИМПЛЕКСНЫЙ МЕТОД ЗАНГВИЛЛА 425 a xjk, djk суть /-е компоненты векторов х* и d* соответственно. Пусть %k — оптимальное решение этой задачи. Положить x*+i = = x* + A*d*, заменить k на k+ 1 и перейти к шагу 1. 10.5.2. ПРИМЕР. Рассмотрим следующую задачу: минимизировать 2х\ + 2х\ — 2х{х2 — Ахх — Qx2 при условиях х{ + х2 + х3 = 2, Х\ + 5лг2 + л;4 = 5, Х\, х2, хг, л:4 >0. Решим эту задачу выпуклым симплексным методом Зангвилла, взяв в качестве начальной точки xi =@, 0, 2, бO". Заметим, что V/ (х) = Dх{ - 2*2 - 4, 4*2 - 2*! - 6, 0, 0)т. Как и в методе приведенного градиента, информацию, получен- ную на каждой итерации, удобно записывать в виде таблицы, содержащей вектор х^ и V/() Итерация 1 Поиск направления. В точке xi = @, 0, 2, 5)т имеем f() = (—4, —6, 0, 0)г. В соответствии с A0.22) множество 1{ = {3, 4}, поэтому В = [а3, а4], а N =[ai, a2]. Приведенный гра- градиент вычисляется в соответствии с A0.24) следующим об- образом: Таблица на этом этапе вычислений будет такой: Решение хх г *1 О -4 Хз 1 Х4 1 -4 *2 О -6 1 5 -6 *з 2 О 1 О О х4 5 О 0 1 о В соответствии с A0.25) получаем а = тах{—гь — г2, —г3, —г4}=—г2 = 6. Из A0.26) имеем р = тах{л:зГз, л;4г4}=0 и, следовательно, из A0.27) получаем, что v = 2. Заметим, что компонента х2 должна возрастать, поскольку —г2 = 6, что при- приводит к уменьшению значения целевой функции. Построение на- цравления проводится по формулам A0.29) и A0.31). Из
426 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ A0.29) имеем dTN = (d\, d2) = @, 1), а из A0.31) следует, что d? = (d3, с?4> = (— 1, —5). Заметим, что dB равен столбцу табли- таблицы, отвечающему переменной л;2 и взятому с обратным знаком. Таким образом, di =@, 1, —1, —5)г. Линейный поиск. Из точки xi = @, 0, 2, 5)т поиск осущест- осуществляется по направлению di == @, 1, —1, —5)г. Максимальное значение Я, для которого точка xi + Xdi допустима, определяется по формуле A0.32). В нашем случае 2 5 Кроме того, имеем f (х\ + Ы\) = 212 — 61. Следовательно, нуж- нужно решить задачу минимизировать 2Х2 —- 6Я при условии 0^Л<[1. Оптимальным решением является %\ = 1, так что х2 = xi+ + Mi=@, 1, 1, О)'. Итерация 2 Поиск направления. В точке х2 = @, 1, 1, 0)г множество /2 = {2, 3}, т. е. В = (а2, а3], N=[ab a4]. Пересчитанная таб- таблица, получаемая за один шаг вращения (ведущее преобразо- преобразование из § 2.6), приведена ниже. Заметим, что V/(x2) = (—6, -2, 0,0) г, а 1 ' = (-6, -2, 0,0) -@,-2) х4 "Решение х2 */w-[_g г х2 0 -6 4 5 1 -? 1 -2 0 1 0 1 0 1 0 0 0 0 —I 1 5 2 5 В соответствии с A0.25) и A0.26) имеем а = тах{—гь -г2, —г3}== — г{ = —- и Р = max {л:2г2, x3r3, xAri{} =0, т. е. v = 1. Это означает, что компонента хх должна возрастать. Согласно
10.5 ВЫПУКЛЫЙ СИМПЛЕКСНЫЙ МЕТОД ЗАНГВИЛЛА 427 A0.29) и A0.31), имеем dTN = (dlt d4) = A, 0) и dTB=(d3, d2) = =(""i* -т)-Тогда d2=0> —§¦• -т- °)г- Линейный поиск. Из точки х2 = @, 1, 1, 0)т поиск осущест- осуществляется по направлению d2 = (l, — у, —у, о) . Максималь- Максимальное значение К, для которого точка х2 + %d2 допустима, опре- определяется по формуле A0.32): ^тах = niin I -г- , -Г" I = "Г 1т т J Кроме того, f(x2 + Ы2) = 2.48Я2 — 5.6А, — 4. Следовательно, нуж- нужно решить задачу минимизировать 2.48Я2 — 5.6Я — 4 при условии 0 <; X ^ -j . 35 Оптимальное решение равно Я2 = -«г» т. е. x3 = x2 + A-2d2 = C5 24 3 П\Г "зГ* "зР "зГ* J • Итерация 3 ( 35 24 3 \^ Поиск направления. В точке х3 == (-^г, -гт-, -^т-, 0 ) мно- \ о1 о! о1 / жество /3 = {1, 2}, т. е. В = [аь а2], N=[a3, a4]. Кроме того, — -ST-. оГ"» 0, 0) , а из A0.24) получаем, что Г f il=(C С 0, „ Х1 Необходимая информация содержится в следующей таблице: Решение х3 %/<*з)=[;|] г 31 -й х, 1 х2 0 0 0 1 0 А 0 5 4 *~4 0 0 0 ""*4 1
428 гл- Ю. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Линия уровня f=-7.18 2.0 -Линия уровня /= 0 Рис. 10.18. Выпуклый симплексный метод Зангвилла. В этом случае а = тах{—г\9 —г^ —^з}= 0 и |3 = {i, 1 л т * / 35 24 3 л\Г W2, ЯзГз, Х4М == 0. Таким образом, точка х3 = [j^-» "§Г» -gf • ° ) оптимальна. Результаты вычислений приведены в табл. 10.6. Процесс решения показан на рис. 10.18. Таблица 10.6 Результаты вычислений выпуклым симплексным методом Зангвилла Поиск направления Линейный поиск i г з 0.0 (-4,-6,0,0) D,6,-10,-34) ft A. 0) -6.436 (o,o, g,^) Щ-^-Ш. -7Дб @,0,0,1). @,0,0,0) Сходимость выпуклого симплексного метода В теореме 10.5.3 доказана сходимость выпуклого симплексного метода к точке Куна — Таккера. Методом от противного уста- устанавливается последовательность, удовлетворяющая условиям 1—4 леммы 10.2.6. 10.5.3. ТЕОРЕМА. Пусть функция /: Еп-+Е\ непрерывно дифференцируема. Рассмотрим задачу минимизации f(x) при
10.5. ВЫПУКЛЫЙ СИМПЛЕКСНЫЙ МЕТОД ЗАНГВИЛЛА 429 условиях Ах = Ь, х ^ 0, где Л —матрица порядка mX«, b есть га-мерный вектор, причем все экстремальные точки допу- допустимой области имеют т положительных компонент и каждые т столбцов матрицы А линейно независимы. Предположим, что последовательность {х&} строится по методу Зангвилла. Тогда любая предельная точка этой последовательности является точ- точкой Куна — Таккера. Доказательство. Пусть подпоследовательность {xk}x сходится к точке х. Нужно показать, что х — точка Куна — Таккера. Пред- Предположим, что х не является точкой Куна — Таккера. Докажем, что тогда найдется подпоследовательность {(хь dk)}x,,, удовле- удовлетворяющая условиям 1—4 леммы 10.2.6, что невозможно. Пусть {dk}x— последовательность направлений, соответ- соответствующая {xk}^ Заметим, что d& определяется в точке \k по формулам A0.22) — A0.31). Обозначим через h множество ин- индексов га наибольших компонент точки х&, используемых при вычислении d^. Тогда существует Ж' а Ж, такое, что /& = 7 для всех k e Ж', где через 7 обозначено множество индексов га наи- наибольших компонент вектора х. Кроме того, существует такое Ж" cz Ж\ что для всех k e Ж" вектор dk определяется либо по формулам A0.29), A0.31), либо по формулам A0.30), A0.31). Пусть для х вектор d получен по формулам A0.22) —A0.25), A0.27), A0.29) и A0.31) в первом случае, и по формулам A0.22) —A0.24), A0.26I, A0.28), A0.30) и A0.31) —во втором. В обоих случаях dk = d для fteJ?". Заметим, что в^ силу не- непрерывной дифференцируемости функции / вектор d должен быть получен в точке х по формулам A0.22) — A0.31). По пред- предположению х не является точкой Куна — Таккера, и, следова- следовательно, по теореме 10.5.1 должны выполняться неравенства d =#= 0, V/(x)rd<0. Таким образом мы построили последова- последовательность {(х&, сЦ)}я-*> удовлетворяющую условиям 1, 2 и 4 леммы 10.2.6. Для завершения доказательства нам нужно пока- показать, что условие 3 также выполняется. Заметим, что d* = d для k е Ж". Если d ^ 0, то х* + Ы ^ 0 для всех ^g[0, оо). Если d^0, то, учитывая, что d является возможным направлением в точке х, получаем в силу теоремы 10.5.1, что x + A,d>0 для А€=[0,26], где 28 = min| — у-: dt< <0l. Так как xik->JCi и d/e = d, то 6^ = minj — -р-: dik <
430 ГЛ № МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ < 0 |^б для всех достаточно больших k из Ж". Из A0.32) сле- следует, что точка Xk + Mk допустима для всех к е [0, б] и доста- достаточно больших АеТ'. Таким образом, условие 3 леммы 10.2.6 также справедливо. I Упражнения 10.1. В каждом из следующих случаев приведите соответствующую ха- характеристику множества возможных направлений в точке xsS: S = {x: Ax = b, x>0}, S = {x: Ax<b, Ex —e, x>0}, S = {x: Ax>b, 10.2. Рассмотрим задачу минимизации f(x) при условиях gi(x)^0, /= 1, ..., m. Предположим, что х —допустимая точка, в которой g*(x)=0 при i'e /. Предположим также, что функции gi псевдовогнуты в х при i e /. Покажите, что можно получить возможное направление спуска или убедиться в том, что х — точка Куна — Таккера, решив следующую задачу: минимизировать V/ (х)т d при условиях ygt (х)тd <0, /е/, 1, /=1, ..., п. 10.3. Рассмотрим задачу минимизации f (х) при условиях j = 1, ..., m. Пусть х —допустимая точка и / = {/: gt (x) = 0J. Положим {z, d) равным оптимальному решению следующей задачи: минимизировать z при условиях -l, если если ox. a) Покажите, что z = 0 тогда и только тогда, когда х является точкой Ф. Джона. b) Покажите, что если z < 0, то d — возможное направление спуска. c) Укажите, какое из активных ограничений может быть использовано вместо целевой функции при построении ограничений на вектор d. 10.4. В § 10.1 при обсуждении метода Зойтендейка для случая линейных ограничений описано несколько условий нормировки, таких, как drd ^ 1, —1 ^ dj ^ 1, / » 1, ..., п и Vf(Xk)Td^—1. Покажите, что вместо этих условий можно воспользоваться любым из следующих: Е
УПРАЖНЕНИЯ 431 b) max \d,\ < 1, c) A (xk + d) < b при условии, что множество {х: Ах < Ь} ограниченно, d) d, > - 1, если J*** > О, и d, < 1, если &f^ <0. ' ОХ, 1 ОХ. 10.5. Рассмотрим следующую задачу: минимизировать (х{ — 2J + (х2 — IJ при условиях лг^ — х2 д:! — 2лг2 + 1=0. Взяв в качестве начального приближения точку х = A, 1)г, решите эту за- задачу методом Зойтендейка, используя следующие два условия нормировки: a) \df\<\, /=1,2, b) drd<l. 10.6. Решите следующую задачу методом Зойтендейка для случая линей- линейных ограничений: минимизировать х\ + х{х2 + 2х\ — 6jCj — 2х2 — \2х3 при условиях Xi + х2 + хг == 2, — xi + 2л:2 < 3, 10.7. Решите следующую задачу методом Зойтендейка для случая нели- нелинейных ограничений: минимизировать х\ + ххх2 + 2х2 — 6хх — 2лг2 — 12#3 при условиях 2jcj + x\ ^15, 10.8. Рассмотрим следующую задачу с линейными ограничениями и нели- нелинейными ограничениями-неравенствами: минимизировать / (х) при условиях gi (х)<0, /= 1, ..., т, Ах<Ь, Ех = е. Пусть х —допустимая точка и /=={/: gi(x)=^0). Предположим, что Ajx^bj, A2x<b2, где Аг = [а[, а?], br = (b[, bj). а) Покажите, что можно получить возможное направление спуска или убедиться, что х — точка Ф. Джона с помощью следующей задачи линейного программирования: минимизировать z при условиях Vf (x) d — 2 < 0, Vg,(x)rd- A,d<0,
432 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Ь) Используя этот подход, решите задачу из примера 10.1.8 и сравните полученные в обоих случаях траектории. 10.9. В соответствии с методом Зойтендейка решение следующей задачи приводит к возможному направлению спуска: минимизировать z при условиях yf {х)т d ^ 2, / €= /, /==1, .... Л, где / = {i: gi(x) = 0}. a) Покажите, что этот метод нельзя приспособить к решению задачи с нелинейными ограничениями-равенствами вида Ы(х) = 0 заменой каждого такого ограничения двумя неравенствами Ы(х)^ 0 и Ы(х)^ 0. b) Один из способов учета ограничений в форме /it(x)=0 заключается в замене каждого ограничения-равенства двумя неравенствами Ы(х) ^ е и hi(x)^—е, где е > 0 — некоторое малое число, и в последующем решении приведенной выше задачи поиска направления. Используйте этот метод для решения следующей задачи: минимизировать х\ -f- 2х\хъ + 2*3 при условиях х\ + х2 + х\ = 4, 10.10. Рассмотрим следующую задачу: минимизировать /(х) при условиях g. (x)<0, /=1, .,., т, Пусть х — допустимая точка, для которой gi(x) = 0 при is/. а) Покажите, что для того, чтобы х была точкой Куна — Таккера, необ- необходимо и достаточно, чтобы оптимальное значение целевой функции приведен- приведенной ниже задачи равнялось нулю: минимизировать yf (x) d при условиях ygt (x)T d < 0, Ъ) Пусть d — оптимальное решение задачи из п. „а". Если V f(x)Td < 0, то d — направление спуска. Несмотря на то что d может не быть возможным направлением, оп является по крайней мере касательным вектором к допусти- допустимой области в точке х. Предлагается следующая процедура. Зафиксируем б>0 и пусть А, — оптимальное_ решение ^задачи минимизации /(x + Xd) при условии 0 ^ X ^ б. Положим х = х + Ы. В точке х произведем коррекцию траектории, чтобы получить допустимую точку. Это можно сделать несколь- несколькими путями. 1. Сдвинемся по направлению d = — A [ArA] Р(х)^где F~ вектор- функция с компонентами hv /==1, ..., /, и gv / е {/: gi(x)^oy a A — ма- матрица, строками которой являются градиенты функций, входящих в F.
УПРАЖНЕНИЯ 433 2. Используем схему штрафных функций для минимизации невязки при начальной точке х. Используйте каждый из этих подходов для решения задачи из п. „Ь" упр. 10.9. 10.11. Рассмотрим задачу минимизации / (х) при условиях Ах ^ Ь, где область {х: Ах ^ Ь} ограниченна. Предположим, что х^ — допустимая точка, а Уд, — решение задачи минимизации v/ (xk)Ty при условии Ау^Ь. Пусть kk — оптимальное решение такой задачи: минимизировать / [Xxk + A — X) у^] при условии 0 ^ X ^ 1. Положим х^ , j = Я^х^ + A — Xk) yk. a) Покажите, что эту процедуру можно интерпретировать как метод воз- возможных направлений. Покажите также, что в общем случае направление Ук — х* не может быть получено решением задач PI, P2 и РЗ, рассмотренных в § 10.1. Обсудите преимущества и недостатки этой процедуры. b) Решите описанным способом задачу из примера 10.1.5. c) Опишите эту процедуру как композицию отображений поиска направ- направления и линейного поиска. Используя теорему 7.3.2, покажите, что сложное отображение замкнуто. Затем с помощью теоремы 7.3.2 покажите сходимость к точке Куна — Таккера. (Эта процедура предложена Франком и Вулфом (Frank and Wolfe [1956]).) 10.12. Рассмотрим следующую задачу с двусторонними ограничениями на переменные: минимизировать Дх) при условиях aj^Xj^bj, /==1, ..., п. Пусть х—допустимая точка, V у——д • Рассмотрим процедуру Зойтендей- aXj ка для построения возможного направления спуска. а) Покажите, что оптимальное решение задачи поиска направления, ис- использующей условие нормировки |d/| ^ 1, определяется следующим образом: — 1, если х, > а, и ч dj — ^ 1, если xf<bf и V/ < 0, в остальных случаях. Ь) Покажите, что оптимальное решение задачи поиска направления, ис- использующей условие нормировки <Fd ^ 1, определяется следующим образом: ipr-4¦» если / е 7» dr. _ 0, если / ^ /, где / = (/: х.>а, и у,>0 или с) Используя методы пп. „а" и „Ь'\ решите следующую задачу при на- начальной точке (—3, —4) и сравните полученные траектории: 9 9 минимизировать 2х\ — х^2 + Зх2 — Ъх± — 2х2 при условиях — 3 ^ Х\ -4<*2<1. d) Покажите, что отображения поиска направления в соответствии с пп. „а" и „Ь" незамкнуты.
434 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ е) Докажите сходимость или приведите контрпример, показывающий, что алгоритмы возможных направлений, использующие описанные в пп. „а" и „Ь" процедуры поиска направления, не сходятся к точке Куна — Таккера. 10.13. Решите следующую задачу методом Топкиса— Вейнотта: минимизировать A — #jJ — 10 (х2 — x\f + х\ — 2ххх2 + e~Xl~X7 при условиях х\ + х\ ^ 16, 10.14. Рассмотрим задачу минимизировать / (х) при условиях g. (х) ^ 0, / = 1, ..., т. Следующая задача является модификацией задачи поиска направления Топ- Топкиса и Вейнотта для случая, когда функции gi псевдовогнуты: минимизировать у/ (x)r d при условиях gt (х) + vgj (х)Г d < 0, i = 1, ..., т, a) Покажите, что х является точкой Куна — Таккера тогда и только тогда, когда оптимальное значение целевой функции в этой задаче равно нулю. ^ ^ b) Пусть d — оптимальное решение и V/(x)rd<0. Покажите, что d — возможное направление спуска. c) Можно ли доказать сходимость модифицированного алгоритма Топ- Топкиса и Вейнотта к точке Куна — Таккера? d) Повторите задания „а" — „с", заменив условие нормировки на нера- неравенства —1 <; dj ^ 1, / = 1, ..., п. e) Решите с помощью этого метода задачу из примера 10.1.5. 10.15. Рассмотрим следующую задачу с двусторонними ограничениями на переменные: минимизировать / (х) при условиях я*^#у^6*» /=1, •••> л. Пусть х — допустимая точка и Уу=—g • Рассмотрим описанный в упр. 10.14 модифицированный метод Топкиса и Вейнотта для построения воз- возможного направления спуска. а) Покажите, что оптимальное решение задачи поиска направления, ис- использующей условие нормировки |d/|^ 1, определяется следующим образом: max (a, — x,t —-l}, если \ — x,t 1}, если у* < 0. b) Покажите, что оптимальное решение задачи поиска направления, ис- использующей условие нормировки drd ^ б, определяется следующим образом: если если V/ < О,
Упражнения 435 где *- Z [max{-iiwi-a/-*'}]2+ Vy>0 V/<0 c) Решите задачу из п. „с" упр. 10.12 методами, описанными в пп. „а" и „Ь" данного упражнения, и сравните полученные траектории. d) Докажите сходимость описаного метода к точке Куна — Таккера для обоих отображений поиска направления. 10.16. Рассмотрим задачу минимизации f (х) = Л + ~ х Нх при усло- условии Ах ^ Ь. Во внутренней точке допустимой области в соответствии с про- процедурой Зойтендейка из § 10.1 направление движения строится с помощью решения задачи минимизации Vf(x)Ta при условии —1 ^ d} ^ 1, /=1, ..., п. В гл. 8 указывалось, что во внутренних точках, где, по существу, имеется за- задача безусловной оптимизации, эффективны методы сопряженных направле- направлений. В описанной ниже процедуре комбинируется метод сопряженных направ- направлений с методом возможных направлений Зойтендейка. Начальный этап. Найти начальную допустимую точку х4, для которой Axi ^ Ь. Положить k = 1 и перейти к основному этапу. Основной этап. Шаг 1. При начальной точке х^ найти точку z методом Зойтендейка. Если Кг < Ь, то положить yj = х^, у2 = z, d{ = y2 — yv v = 2 и перейти к шагу 2. В противном случае положить x^+J = z, заменить k на к + 1 и повторить шаг 1. Шаг 2. Положить dv равным оптимальному решению следующей задачи: минимизировать V/ (Уу)Т & при условиях d^Hd = 0, / = 1, ..., v — 1, <1, /-1, .... v. Положить %v равным оптимальному решению задачи линейного поиска минимизировать / (у v + ^dv) при условии где Ятах определяется в соответствии с A0.1). Положить yv+i =syv + ^vdv. Если Ayv-hi < b и v^n—1, то заменить v на v + 1 и повторить шаг 2. В противном случае заменить k на ? + 1, положить xfi'=szyv+i и перейти к шагу 1. a) Решите задачу из упр. 10.13 описанным методом. b) Воспользуйтесь описанным алгоритмом для решения следующей за- задачи, предложенной в работе Kunzi, Krelle and Oettli [1966], при начальной точке @, 0)г: минимизировать у х\ + у *\ ~ %\ — 2х2 при условиях 2*1 + Зх2 *Н-4*2 Хи *2 > 0.
436 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ c) Решите задачи пп. „а" и „Ь", заменив в рассмотренном методе на шаге 1 процедуру Зойтендейка модифицированным алгоритмом Топкиса и Вейнотта, рассмотренным в упр. 10.14. d) Решите задачи пп. „а" и „Ь", заменив процедуру Зойтендейка на шаге 1 методом проекции градиента. 10.17. Рассмотрим ограничения Ах ^ Ь. Пусть Р = I — А[ (AjA[) Ар где Ai составлена jp градиентов функций активных ограничений в заданной допустимой точке х. Каковы смысл и геометрическая интерпретация следую- следующих утверждений? a) PVf(x)=O. Ь) с) 10.18. Решите следующую задачу методом проекции градиента: минимизировать A — x{f — 10 (х2 — x{f -f- x\ — 2х{х2 + е" при условиях 2х{ + 5х2 < 25, 10.19. Рассмотрим следующую задачу, где Ai — матрица порядка vX«: минимизировать || — V/ (х) ~~ d II2 при условии Aid = 0. a) Покажите, что вектор d является оптимальным решением этой задачи тогда и только тогда, когда он является проекцией антиградиента — V/ (х) на ядро оператора Аь (Указание: условия Куна — Таккера приведите к виду —\/[ (х) = d — A^u, A1d = 0. Заметим, что d s L = (у: А!у = 0} и что — Afu e L1- = {a[v: ve е ?v|.) b) Предложите соответствующий метод для решения системы Куна — Таккера. {Указание: умножьте — V/ (х) =* ^ — А^и на А{. Заметим, что Ajd = 0 задает вид и. Учтите это, чтобы получить d = — [i — А[ (AjA[) AtJ vf (x).J c) Найдите оптимальное решение задачи, если у/ (х) = A, — 2, 3)т и А -Г1 2 ~31 10.20. Рассмотрим следующую задачу, где Ai —матрица порядка v'X«: минимизировать у/ (х)т d при условиях Aid = 0, drd<l. Условия Куна — Таккера являются необходимыми и достаточными для опти- оптимальности решения, так как соответствующее условие регулярности выпол- выполняется в каждой допустимой точке (см. упр. 5.15). В частности, d является оптимальным решением тогда и только тогда, когда существуют и и ц, такие,
упражнения 437 что A,d~=0, drd"<l, a) Покажите, что \х = 0 в том и только в том случае, если — Vf (x) при- принадлежит пространству значений оператора Ар или, что то же самое, в том и только в том случае, если проекция антиградиента — V/(х)_ на ядро опера- оператора Ai является нулевым вектором. В этом случае V/(x)Td ==0. b) Покажите, что если |ш > 0, то оптимальное решение d приведенной выше задачи указывает направление проекции вектора —V/(x) на ядро опе- оператора А4. c) Покажите, что решение сформулированной выше системы Куна — Так- кера может быть непосредственно получено следующим образом. Пусть и = - (AjAf) AjV/ (х) и d = - [i - А[ (AjAf) aJ yf (x). Если d = 0, то положим (i = 0 и d = 0. Если dV=0, то положим |i —-5-II d || и d = d/||d||. d) Теперь рассмотрим задачу минимизации f (х) при условии Ах ^ Ь. Пусть х —допустимая точка, для которой Ai*=bi, Агх<Ьг, где А = [а? А!"], Ьт = (b[, b^). Покажите, что х является точкой Куна — Таккера этой* задачи, если |Л == 0 и u ^ 0. e) Покажите, что если \х = 0 и и^> 0, то метод проекции градиента, рассмотренный в § 10.3, заключается в выборе отрицательных компонент и,- вектора и, вычеркивании соответствующих строк из А! и получении А1э а также в решении задачи поиска направления в форме: минимизировать V/(x)rd при условиях Ajd = O, drd^l. Покажите, что оптимальное реше^ ние этой задачи не равно нулю. f) Решите задачу из примера 10.3.5 методом проекции градиента, в кото- котором проектирование градиента обеспечивается минимизацией V f(x)rd при условиях Aid = 0, dTd ^ 1. 10.21. Рассмотрим задачу минимизировать f (x) при условии Ах^Ь. Пусть х — допустимое решение и Aix = bb А2х < Ьг, где Аг = [АрА2] и Ът = (bp b^). В методе возможных направлений Зойтендейка направление находится из решения задачи минимизации у/(х)г d при условиях A В соответствии с упр. 10.20жв методе проекции градиента направле- направление находится из решения задачи минимизации yf(x)Td при условиях Aid = 0, drd<l. a) Сравните методы, отметив их достоинства и недостатки. b) При начальной точке @, 0) решите методом Зойтендейка и методом проекции градиента следующую задачу: минимизировать х\ + х{х2 + 2х\ — \2х{ — 18лг2 при условиях — 3*1 + 6л:2
438 гл- Ю- МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Сравните полученные траектории. 10.22. Рассмотрим следующую задачу, где функция f: En-+Ei диффе- дифференцируема: минимизировать f (х) при условии — х<0. a) Предположим, что х — допустимая точка, и пусть хт = (xf, xj), где х1=0, х2 > 0. Обозначим v/ (x)T через (Vf, Vg). Покажите, что направле- направление dr, построенное методом проекции градиента, равно (о, — \?%). b) Покажите, что при Уг = 0 метод проекции градиента можно упро- упростить следующим образом. Если Vi ^ 0, то остановиться; х — точка Куна — Таккера. В противном случае положить / равным любому индексу, для кото- которого д?у«О и <0. Тогда новое направление есть d = [0 0, j5j—» 0, ..., 0) , где —-- стоит на /-м месте. c) Продемонстрируйте работу метода, решив следующую задачу: минимизировать . х\ + 2xtx2 + Ах\ + 6хг + 2х2 при условии хи *2 d) Решите задачу из примера 10.2.3 при начальной точке @, 0.1, 0), используя описанную выше процедуру. 10.23. В методике проекции градиента много раз вычисляется (AjA[) в связи с вычислениями матрицы проектирования. Обычно At переопределя- переопределяется вычеркиванием или добавлением строки к At. Вместо того чтобы вычис- вычислять (AjA[) заново, было бы предпочтительнее использовать для этого старое значение (AtAj) . [С, I С2 1 Г В1 | В2 И j |иС х = | \ I. Покажите, с31 с4 J L в31 в4 J что Cf* = Bj — BgB^Bg. Пусть далее Cf * известна. Покажите, что С" можно вычислить следующим образом: в1 = с1 + Cj с2с0 с3с1 , В3 = — С0 CgCj , В. f> —1 *¦ 4—"Ч » где Co^^-CgCf1^. b) Упростите приведенную выше формулу для метода проекции гради- градиента применительно к случаям, когда добавляется и когда вычеркивается строка. (В методе проекции градиента Cj = AjAJ", C2 = A1a, С3 = агАр С4==ага, а а — строка, добавленная к Ait когда известна CL , или вычеркиваемая, когда известна С~~[)
УПРАЖНЕНИЯ 439 с) Используйте метод проекции градиента с описанной в этом упражне- упражнении схемой пересчета (AjA[) для решения следующей задачи: минимизировать х\ + х{х2 + 2х\ + 2х\ -f- 2х2хъ + 4х{ + %х2 + 12дг3 при условиях Х\ + х2 + 10.24. Рассмотрим задачу минимизации /(х) при условии Ах ^ Ь. Пред- Предлагается следующая модификация методов Зойтендейка и проекции градиен- градиента Розена. Если направление — V/(x) в заданной допустимой точке х воз- возможное, то оно берется в качестве направления движения d, в противном случае направление d вычисляется в соответствии с обычными алгоритмами. a) Используя эту модификацию, решите задачу из примера 10.1.5 мето- методом Зойтендейка при начальной точке xi = @.00, 0.75)т. Сравните траекто- траекторию с той, которая получена в примере 10.1.5. b) Используя модификацию, решите задачу из примера 1.3.5 методом проекции градиента Розена при начальной точке х4 =@, 0)г. Сравните траек- траекторию с той, которая получена в примере 10.3.5. 10.25. Если в методе проекции градиента Р?/(х)=0, то из матрицы Aj удаляется строка, соответствующая отрицательной компоненте вектора и. Предположим, что удалены все строки, соответствующие отрицательным ком- компонентам вектора и. Покажите на численном примере, что полученная матри- матрица проектирования не обязательно приведет к возможному направлению спуска. 10.26. Рассмотрим следующую задачу: т минимизировать с х при условиях Ах = Ь, где А — матрица порядка тп X п и ранга тп. Рассмотрим решение задачи ме- методом проекции градиента. a) Пусть х — базисное допустимое решение, a d = —Рс, где Р проекти- проектирует любой вектор на ядро оператора, составленного из градиентов функции активных ограничений. Покажите, что d = 0. b) Пусть u = —(ММг)~1Мс, где строки матрицы М — транспонирован- транспонированные векторы-градиенты функций активных ограничений. Покажите, что вычер- вычеркивание строки, соответствующей наибольшему отрицательному ы/, связан- ному с ограничением xj ^ 0, формирование новой матрицы проектирования Р' и сдвиг вдоль направления —Р'с эквивалентны вводу в базис переменной Xj в симплекс-методе. c) Используя результаты пп. „а" и „Ь", покажите, что метод проекции градиента сводится к симплекс-методу, если целевая функция линейна. 10.27. Рассмотрим следующую задачу: минимизировать х\ + 2х\ 4- 2>х\ + х{х2 — 2х{х3 + х2х3 — 4х{ — 6х2 ПрИ УСЛОВИЯХ Х\ + 2Х2 + ХЪ ^ 4, a) Решите задачу методом возможных направлений Зойтендейка, взяв в качестве начальной точки @, 0, 0)г. b) Решите задачу методом проекции градиента при начальной точке хоооу
440 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ 10.28. Предположим, что в методе приведенного градиента множество /*, определенное соотношением A0.13), содержит индексы любых т положитель- положительных переменных. Исследуйте, замкнуто ли отображение поиска направления. 10.29. Первоначально предполагалось, что метод приведенного градиента приводит к смещению из заданной точки х вдоль направления d, где A0.16) модифицировано следующим образом: ( — rjt если Xf > 0 или г у ^ 0, ( 0 в остальных случаях. a) Докажите, что d = 0 тогда и только тогда, когда х — точка Куна — Таккера. b) Покажите, что если вектор d =#= 0, то он является возможным напра- направлением спуска. c) Используя приведенный выше способ поиска направления, решите ме- методом приведенного градиента следующую задачу: минимизировать е-х<+х2 -\- х\ + 2х{х2 + х\ + 2хх + 6х2 ПрИ УСЛОВИЯХ Х\ + Х2 ^ 4, — *i + х2, d) Покажите, что приведенное выше отображение поиска направления незамкнуто. 10.30. В методе приведенного градиента и в выпуклом симплексном ме- методе предполагается, что каждая допустимая точка имеет по крайней мере т положительных компонент. Установим необходимое и достаточное условие справедливости этого предположения. Рассмотрим множество 5 = {х: Ах = Ь, х ^ 0}, где А — матрица порядка т X п и ранга т. Покажите, что каждая точка хе5 имеет по крайней мере т положительных компонент тогда и только тогда, когда каждая экстремальная точка множества S имеет ровно т положительных компонент. 10.31. Рассмотрим следующую задачу: минимизировать х\ + ххх2 + 2х| —- 6а: j — 2х2 — 12аг3 При УСЛОВИЯХ Х\ + Х2 + #з = 2» Хи Х2, a) Решите задачу методом проекции градиента. b) Решите задачу методом приведенного градиента. c) Решите задачу выпуклым симплексным методом. 10.32. Рассмотрим следующую задачу: минимизировать х\ + 2х2 + х1 — 2х2 — х\ ПрИ УСЛОВИЯХ Х\ + 2х2 ^ 6, — хл + 2х2 < 3, XU Решите задачу выпуклым симплексным методом. Является ли полученное ре- решение глобальным оптимумом, локальным оптимумом, или ни тем, ни другим? 10.33. Модифицируйте правила выпуклого симплексного метода так, что- ры применить его непосредственно к задаче минимизации /(х) при условиях
УПРАЖНЕНИЯ 441 Ах = b, a <; х ^ с. Используйте метод для решения следующей задачи: минимизировать е~Хх + х\ — х{х2 ~- Зл:| + 4х{ — 6лг2 при условиях 2*1 + х2 10.34. Покажите, что выпуклый симплексный метод приводит к симплекс- методу, если целевая функция линейна. 10.35. Покажите, что отображение поиска направления в выпуклом сим- симплексном методе, определенное соотношениями A0.22) —A0.30), замкнуто. 10.36. Предположим, что процедура поиска направления в выпуклом сим- симплексном методе модифицирована следующим образом. Число Р в A0.26) вы- вычисляется по формуле Г max{/•/:#/> 0 и г/^О}, если Х{ > О, г/^О для некоторого /, (О в противном случае Кроме того, индекс v вычисляется следующим образом: такой индекс, для которого а = — rv> если а V = \ такой индекс, для которого 0 = rv, если а < р. Покажите, что при этой модификации отображение поиска направления не обязательно замкнуто. 10.37. Рассмотрим следующую задачу: минимизировать /(х) при условиях Ах = Ь, х>0. Предположим, что функция / вогнута, а допустимая область — компакт,т.е. что по теореме 3.4.6 существует оптимальная экстремальная точка. a) Покажите, как должен быть модифицирован выпуклый симплексный метод, чтобы поиск осуществлялся только по экстремальным точкам допусти- допустимой области. b) Остановка производится, когда точка Куна — Таккера близка. Явля- Является ли эта точка обязательно оптимальным решением, локальным оптималь- оптимальным решением, или ни тем, ни другим? Если точка не является оптимальной, то можете ли вы построить метод секущих плоскостей, чтобы исключать те- текущую точку, но оставлять оптимальное решение? c) Проиллюстрируйте процедуру, описанную в пп. „а" и „Ь", решив сле- следующую задачу при начальной точке @, 0)г: минимизировать — (х\ — 2J — (х2 — IJ при условиях —Х\ + *2 ^ 4, 2*, + х2 < 12, 10.38. Рассмотрим задачу минимизации f(x) при условиях ?/(х)^0, f = 1, ..., т. Методы возможных направлений, обсуждавшиеся в этой главе, начинают поиск из допустимой точки. В этом упражнении описывается метод для получения такой точки, если ее нельзя указать непосредственно.
442 ГЛ. Ю. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Выберем произвольную точку х и предположим, что ?/(х)^0 для и ?/(*)> 0 для 1ф. I. Рассмотрим следующую задачу: минимизировать V yi при условиях gi (х) <Г 0, / е /, a) Покажите, что допустимое решение в исходной задаче существует в том и только в том случае, если оптимальное значение целевой функции в приведенной вспомогательной задаче равно нулю. b) Пусть у — вектор, компонентами которого являются у и аф\. Вспомо- Вспомогательная задача может быть решена методом возможных направлений при начальной точке (х, у), где yt = giix) лля i&I. В результате получается допустимое решение исходной задачи. Взяв эту точку в качестве начальной, можно воспользоваться методом возможных направлений для решения исход- исходной задачи. Проиллюстрируйте этот метод, решив следующую задачу при начальной недопустимой точке A, 3): минимизировать при условиях е~х + х% <4, 2*1 + 5*2 < Ю. 10.39. Рассмотрим следующую задачу: т , 1 т„ минимизировать с х + ух Нх при условиях Ах==Ь, х>0. Ограничение h (х) = Ах — b = 0 связано со штрафной функцией вида Hh(x)rh(x), приводящей к следующей задаче: минимизировать стх + ~ хтНх + ц (Ах — ЪO (Ах — Ь) при условии х>0. Опишите подробно шаги метода возможных направлений для решения этой задачи. Продемонстрируйте метод при следующих значениях параметров за- задачи: 1 — 1 О" ч;: ?]• •¦ Н= -1 2 0 0 0 (=!)• '-о- 10.40. В этом упражнении описывается обобщение метода приведенного градиента Вулфа на случай нелинейных ограничений-равенств. Эта процедура была предложена Абади и Карпентером (Abadie and Carpentier [1969]). Мо- Модифицированная версия метода приводится ниже. Рассмотрим следующую за- задачу: минимизировать / (х) при условиях hi (х) = 0, /= 1, ...,/, /=1 л,
УПРАЖНЕНИЯ 443 Предполагается, что функции f и ht для всех / дифференцируемы. Пусть h — вектор-функция, компонентами которой являются функции /г/, / == 1, ... , /. Пусть, кроме того, а и и —- векторы с компонентами а/ и и/, /=1, ... , пщ Сделаем следующее предположение о невырожденности условий задачи. Любая заданная допустимая точка хт может быть представлена в виде (х?> xjy), где хв е Ely xn е ?п_/ и ав < хв < ив. Кроме того, матрица ^h(x) порядка п X I представляется соответственно в виде матрицы уВЬ (х) порядка / X I и матрицы yNh (х) порядка (п — I) X U причем увЬ (х) юбрати- мая. Алгоритм процедуры следующий. Начальный этап. Выбрать допустимую точку хг и представить ее в виде (хв, Хуу). Перейти к основному этапу. Основной этап. Шаг 1. Положить г = Vv/(x) — V^h(x)Vflh(x)-1Vs/r(x), вычислить (п — /) -мерный вектор d#, компоненты которого определяются следующим образом: О, если Xf = aj и г/ > 0 или xj = и/ и rj < О, — г/ в остальных случаях. Если d* = 0, то остановиться; х — точка Куна — Таккера. В противном слу- случае перейти к шагу 2. Шаг 2. Определить решение нелинейной системы h(y, х^)=0 методом Ньютона, где xjv определен ниже. Начальная итерация. Выбрать г > 0 и положительное целое /(. Поло- Положить 0 > 0 так, что а^ ^ х^^ и^, где х N = xN + QdN. Положить у{ = хв, fc=l и перейти к k-fi итерации. ^ Итерация k. Шаг (i). Положить yk+l = yk — VBh(yfe, ^Хдг)" h(yfe, x"^). Если ав<ул+1<и5, f(yk+l, %) <f(xBtxN) и ||h(yfe+j, *xN) || < е, то перейти к шагу (ш). В противном случае перейти к шагу (и). Шаг (ii). Если 6 =/С, то заменить 8 на -?, положить х^ = х^ + Od^, у1==:х5, заменить k на 1 и повторить шаг (i). В противном случае заменить k на k + 1 и повторить шаг (i). ^ Шаг (iii). Положить хг==(у?+1, х^), выбрать новый | базис В и перейти к шагу 1 основного алгоритма. а) Используя этот алгоритм, решите следующую задачу: минимизировать х\ + 2ххх2 + х\ + \2хх — 4х2 при условиях х\ — х2 = О, b) Покажите, как можно модифицировать эту процедуру на случай огра- ограничений-неравенств. Продемонстрируйте ваше решение на следующей задаче: минимизировать х\ + 2х{х2 + х\ + 12*, — 4х2 при условиях х\ + х\ ^ 4, и х2 < 3. 10.41. В этом упражнении описывается метод, предложенный Гриффитом и Стьюартом (Griffith and Stewart [1961]) для решения задач нелинейного
444 ГЛ. 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ программирования аппроксимацией исходной задачи последовательностью ли- линейных задач. Рассмотрим следующую задачу: минимизировать / (х) при условиях g (х) ^0, b, где /: Еп-> Еи g: Еп -» Ет> h: En -> Е\. При заданной точке х& на fc-й итерации алгоритма функции f,g и h заменяются их линейными аппро- аппроксимациями в точке х*, что приводит к следующей задаче линейного про граммирования: минимизировать f (xk) + V/ (xk)T (х — х#) при условиях g (xk) + Vg{*k)T (х ~ х Т где Vg(x*) — матрица порядка я X #*, являющаяся градиентом вектор-функ- вектор-функции g, Vh(Xk)—матрица порядка пХ/, являющаяся градиентом вектор-функ- вектор-функции h. Начальный этап. Выбрать допустимую точку Xi, параметр б > 0, опре- определяющий максимальный шаг на каждой итерации, и число 8 > 0, служащее критерием остановки алгоритма. Положить k = 1 и перейти к основному этапу. Основной этап. Шаг 1. Решить следующую задачу линейного программи- программирования: минимизировать при условиях V/ (хи)т (х - х Vh (xk)T (x — х^ Vh (xk)T (x — xk) •k) К ~ g (Xfe) = -h(xfe), где Xik есть i-я компонента точки х*. Положить x^+i равным оптимальному решению и перейти к шагу 2. Шаг 2. Если II x*+i — Xk II <; е и точка x*+i почти допустимая, то оста- остановиться. В противном случае заменить k на k + 1 и повторить шаг 1. Несмотря на то что сходимость этого метода в общем случае не гаранти- гарантируется, метод считается эффективным для решения многих практических задач. a) Постройте пример, показывающий, что если х*. — допустимая точка исходной задачи, то x^+i не обязательно является допустимой. b) Предположим, что функция h линейная. Покажите, что если g вогнута, то допустимая область задачи линейного программирования содержится в до- допустимой области исходной задачи. Кроме того, покажите, что если g вы- выпукла, то допустимая область исходной задачи содержится в допустимой области задачи линейного программирования. c) Решите задачу Уолша (Walsh [1975, стр. 67]) методом, описанным в этом упражнении, и методом секущих плоскостей Келли, представленным в упр. 7.22, Сравните полученные траектории,
УПРАЖНЕНИЯ 445 Задача Уолша: минимизировать — 2*j ~\- *j*2 — Ъх\ при условиях Ъх\ + 4*2 ^ 12, 0<*2<3. 10.42. В этом упражнении описывается метод, предложенный Дэвидоном (Davidon [1959]) и развитый позднее Голдфарбом (Goldfarb [1969]) для минимизации квадратичной функции при наличии линейных ограничений. Этот метод обобщает метод Дэвидона — Флетчера — Пауэлла и сохраняет сойря- женность направлений поиска при наличии ограничений. В п. „е" упражнения предлагается также другой подход. Рассмотрим следующую задачу: минимизировать с х + — х Нх при условии Ах = Ь, где Н — симметрическая положительно определенная матрица порядка п X л, а А — матрица порядка тУ^п и ранга т. Начальный этап. Выбрать е > 0 в качестве критерия остановки, произ- произвольную допустимую точку xi и начальную симметрическую положительно определенную матрицу D4. Положить k = j = 1, у4 = xt -и перейти к основ- основному этапу. Основной этап. Шаг 1. Если \\Vf (у у) || < е, то остановиться. В проти в ном случае положить d/ = — DyVf (у/), где D/ = D/ — D/Ar (AD/Ar)~1AD/ Положить Я/ равным оптимальному решению задачи минимизации / (у/ + Ad/) при условии А^О и положить y/+i =у/+ Я/d/. Если / < п> то перейти к шагу 2. Если / = Аг, то положить yi =х^+1 =у/г+ь заменить k на к + 1, положить /=1 и повторить шаг 1. Шаг 2. Построить D/+i следующим образом: п -П 4 /+1~ I где p/ = Ayd/, q/==V/(y/+i) — V/(y/). Заменить / на ] + 1 и повторить шаг 1. a) Покажите, что генерируемые алгоритмом точки допустимы. b) Покажите, что направления поиска являются Н-сопряЬкенными. c) Покажите, что алгоритм остановится в точке оптимума не более чем через п — m шагов. d) Решите описанным в этом упражнении методом следующую задачу: х{х2 — х2хг + 2х3хА — минимизировать при условиях х\+х\ — 2*1 — 2*1 + *2 — *! + 2*2 + 2*3 + • 4*2 + 6; + *з -2*з + з*42- Ч = *4 = + . = 6, 00* е) Рассмотрим другой подход. Разложим хг и матрицу А в (хв, Ху) и [B,N] соответственно, где В — неособенная матрица порядка mXm. Система Ах = b эквивалентна системе хв = B^b—B-^Nx/v. Подставляя выражение для хв в целевую функцию, получим квадратичную функцию, зависящую от
446 ГЛ 10. МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ (п — т) -мерного вектора х#. Минимизируем полученную функцию подходя- подходящим мотодом сопряженных направлений, например методом Дэвидона — Флетчера — Пауэлла. Используя этот подход, решите задачу из п. „сГ и сравните две процедуры решения. f) Обобщите оба рассмотренных в этом упражнении метода на случай общей нелинейной целевой функции. 10.43. Рассмотрим задачу билинейного программирования, заключаю- заключающуюся в минимизации ф(х, у) = crx + dTy + хгНу при условиях хеХ, уеУ, где А и У—ограниченные многогранные множества в Еп и Ет соот- соответственно. Рассмотрим следующий алгоритм. Начальный этап. Выбрать х4 е Еп и yt e Em. Положить k = 1 и перейти к основному этапу. Основной этап. Шаг /. Решить задачу линейного программирования, заключающуюся в минимизации dry + х^Ну при у s Y. Положить у рав- равным оптимальному решению. Определить yfc.fi следующим образом: 1 yk, если ф(х4, у)-я»(х4, yft), у, если ф (хЛ, у) < ф (xft, yfe). Перейти к шагу 2. Шаг 2. Решить задачу минимизации crx + xrHy^+i при условии хе! Положить х равным оптимальному решению. Положить Х?+!=х?, если ф(х,у*+1) = ф(х?, у?+1), и xfe+i=*x, если ф (х, у*-и) < ф (xfe, у/н-О' Перейти к шагу 3. Шаг 3. Если x^+i =Х? и yk+i=yk* то остановиться; (х$, у^) — точка Куна — Таккера. В противном случае заменить k на k + 1 и перейти к шагу 1. а) Используя этот алгоритм, найдите точку Куна — Таккера в задаче минимизации *i*/i + x2t/2 при условиях хеХ, уеУ, где 7, 0<лг2<16}, b) Докажите, что алгоритм сходится к точке Куна — Таккера. Комментарии Идея метода возможных направлений является общей концепцией, ис- используемой в прямых алгоритмах, осуществляющих переход из одной допу- допустимой точки в другую. В § 10.1 приведен метод Зойтендейка для построе- построения возможных направлений спуска. Хорошо известно, что алгоритмическое отображение, используемое в методе Зойтендейка, незамкнуто, что и показа- показано в § 10.2. Более того, приведенный пример (Wolfe [1972]) показывает, что в общем случае процесс не сходится к точке Куна — Таккера. Чтобы преодо- преодолеть эту трудность, Зангвилл (Zangwill [1969]), основываясь на работе Zou- tendijk [I960], предложил сходящийся алгоритм, в котором используется понятие почти активного ограничения. В § 10.2 описан другой подход, пред- предложенный в работе Topkis and Veinott [1967]. Этот метод использует все ограничения, как активные, так и неактивные, вследствие чего избегает по- поспешных изменений направления, которые могут возникнуть, как только но- новое ограничение становится активным. Заметим, что методы безусловной оптимизации, рассмотренные в гл. 8, могут эффективно комбинироваться с методом возможных направлений. В этом случае метод безусловной оптимизации используется во внутренних
КОММЕНТАРИИ 447 точках, тогда как возможные направления генерируются в граничных точках одним из методов, обсуждавшихся в этой главе. Альтернативный подход за- заключается в наложении дополнительных ограничений на внутренние точки, которые гарантируют, что генерируемое направление будет сопряженным к некоторым ранее построенным направлениям. Этот подход обсуждается в упр. 10.16; см. также Kunzi, Krelli and Oettli [1965], Zangwill [1967] и Zou- tendijk [1960]. Зангвилл (Zangwill [1967]), используя выпуклый симплекс- симплексный метод в сочетании с сопряженными направлениями, разработал процеду- процедуру решения задач квадратичного программирования за конечное числе* шагов. В 1960 г. Розен предложил метод проекции градиента для случая линей- линейных ограничений, а позднее, в 1961 г., обобщил его на случай нелинейных ограничений. Насколько известно, к настоящему времени не существует ни доказательства сходимости метода Розена, ни контрпримера, опровергающего сходимость. В упр. 10.19—10.21 представлены различные методы, приводя- приводящие к методу проекции градиента и занимающие место между методом Ро- Розена и методом, изученным Зойтендейком. В 1969 г. Голдфарб, используя понятие проекции градиента, обобщил метод Дэвидона — Флетчера — Пауэлла на задачу с линейными ограничениями. В упр. 10.42 показано, как могут быть учтены ограничения-равенства. Для задач с ограничениями-неравенства- ограничениями-неравенствами Голдфарб установил множество ограничений, которые могут рассматри- рассматриваться как активные, и применил этот подход для случая ограничений-ра- ограничений-равенств. Метод был обобщен Дэвисом (Davies [1970]) на случай нелинейных ограничений. В работе Sargent and Murtagh [1973] предлагается проективный метод переменной метрики. Метод приведенного градиента был первоначально разработан Вулфом (Wolfe [1963]) с отображением поиска направления в форме, указанной в упр. 10.29. В 1966 г. Вулф привел пример, показывающий, что метод не схо- сходится к точке Куна — Таккера. Модифицированный вариант метода, описан- описанный в § 10.4, предложен в работе McCormick [1969]. Позднее метод приве- приведенного градиента был обобщен Абади и Карпентером (Abadie and Carpen- tier [1969]) на задачи с нелинейными ограничениями. Один из их подходов обсуждался в упр. 10.40. Вычислительные эксперименты, использующие метод приведенного градиента и его обобщения, описаны в работах Abadie and Car- pentier [1967], Abadie and Guigon [1970] и Faure and Huard [1965]. В § 10.5 рассмотрен выпуклый симплексный метод Зангвилла для решения задач не- нелинейного программирования с линейными ограничениями. Он может трак- трактоваться как метод приведенного градиента, в котором изменяется только одна внебазисная переменная. Сравнение метода приведенного градиента и выпуклого симплексного метода сделано в работе Hans and Zangwill [1972]. В этой главе обсуждались методы решения задач нелинейного програм- программирования, которые генерируют возможные направления спуска. Некоторыми авторами получены обобщения методов безусловной оптимизации на задачи с простыми ограничениями, такими, как линейные или двусторонние ограни- ограничения. Один из способов учета ограничений заключается в модификации ал- алгоритма безусловной оптимизации таким образом, чтобы недопустимые точки просто отбрасывались в процессе поиска. Однако этот подход не эффективен, так как он может привести к преждевременной остановке процесса в неопти- неоптимальной точке. Такая ситуация продемонстрирована в работе Friedman and Pinder [1972]. Как только что отмечалось, в работах Goldfarb [1969] и Davies [1970J метод Дэвидона — Флетчера — Пауэлла обобщен на случай линейных и не- нелинейных ограничений соответственно. Некоторые методы, не использующие производные, также были распространены на задачи с ограничениями. Так, в работе Glass and Cooper [1965] был обобщен метод Хука и Дживса. Дру- Другая попытка модифицировать метод Хука и Дживса для учета ограничений сделана в работе Klingman and Himmelblau [1964]. С помощью проектирова- проектирования направления поиска на множество, задаваемое активными ограничениями,
448 гл- Ю- МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИЙ Дэвис и Свенн (Davies and Swann [1969]) смогли объединить линейные огра- ограничения в методе Розенброка с линейным поиском. В упр. 8.40 описан ва- вариант симплексного метода из Spendley, Hext and Himmsworth [1962]. В статье Box [1965] получен вариант симплексного метода с учетом ограни- ограничений. Несколько других вариантов были разработаны в работах Ghani [1972], Guin [1968], Friedman and Pinder [1972], Mitchell and Kaplan [1968], Umida and Ichikawa [1971]. Еще один метод, также использующий технику сим- симплексного метода для задач с ограничениями, был предложен Диксоном (Dixon [1973]). Во внутренних точках области симплексный метод иногда используется вместе с квадратичной аппроксимацией функции. Когда же алгоритм наталкивается на ограничение, предпринимается попытка двигаться вдоль границы. В 1973 г. Кифер предложил метод, в котором главным обра- образом используется алгоритм Нелдера и Мида. Двусторонние ограничения на переменные учитываются явным образом, в то время как для учета других ограничений используется подходящая штрафная функция. В работе Paviani and Himmelblau [1969] также использованы идеи симплексного метода и штрафной функции при решении задач с ограничениями. Подход основан на нахождении критерия допуска ср* на k-й итерации и штрафной функции Р(х) с тем, чтобы, как обсуждалось в гл 9, ограничения можно было заменить не- неравенством Р(х)^ф*, При реализации метода Нелдера и Мида точка счи- считается удачной, если она удовлетворяет этому неравенству, и значение ф* сокращается от итерации к итерации. Результаты вычислений с использова- использованием этого подхода приведены у Himmelblau [1972]. Ряд исследований был проведен с целью оценки и тестирования алгорит- алгоритмов нелинейного программирования. В работе Stocker [1969] сравниваются пять методов на решении 15 тестовых задач условной и безусловной опти- оптимизации различной степени трудности. В 1970 г. Колвилл проделал сравни- сравнительный анализ большого числа алгоритмов нелинейного программирования. При этом многими участниками были проверены 34 программы. Каждый участник решал 8 тестовых задач с помощью предпочитаемого им метода и программы. Результаты этого исследования описаны в работе Colville [1970]. Описание большого количества численных экспериментов содержится также в книге Himmelblau [1972]. В обоих исследованиях использован целый ряд задач нелинейного программирования различной степени трудности, включаю- включающих нелинейные ограничения и нелинейную целевую функцию, линейные огра- ограничения и простые ограничения на переменные. В них же обсуждаются срав- сравнительные характеристики и оценки различных алгоритмов.
11 Линейная дополнительность. Квадратичное, сепарабельное и дробно-линейное программирование В этой главе будут изложены некоторые специальные процедуры для решения задач квадратичного, сепарабельного и дробно-ли- дробно-линейного программирования. В каждом конкретном случае в ка- качестве метода решения используется некоторая модификация симплексного метода. Для задач квадратичного программирова- программирования решается система Куна —Таккера методом дополнитель- дополнительного ведущего преобразования, который может быть использо- использован для более общего класса линейных задач дополнительности. Сепарабельные задачи аппроксимируются кусочно-линейны- кусочно-линейными, и затем используется симплексный метод, учитывающий со- соответствующие ограничения на ввод вектора в базис. Наконец, будут описаны два метода симплексного типа для решения задач дробно-линейного программирования. План главы § 11.1. Линейная задача дополнительности. Здесь обсуж- обсуждается алгоритм Лемке для решения линейной задачи дополни- дополнительности и показывается его сходимость за конечное число ите- итераций. При некоторых предположениях алгоритм либо останав- останавливается и определяется полное базисное решение, либо де- делается вывод, что исходная система несовместна. § 11.2. Квадратичное программирование. Показывается, что условия Куна — Таккера для задачи квадратичного программи- программирования сводятся к линейной задаче дополнительности. Алго- Алгоритм дополнительного ведущего преобразования используется для решения системы Куна — Таккера. § 11.3. Сепарабельное программирование. Если задача нели- нелинейного программирования имеет сепарабельные по переменным целевую функцию и функции ограничений, то каждая функция может быть аппроксимирована кусочно-линейной функцией, по^ строенной по узловым точкам решетки. Это делается таким об- образом, чтобы для решения полученной задачи можно было использовать некоторую модификацию симплексного метода. При подходящих предположениях выпуклости оптимальное зна- значение целевой функции аппроксимирующей задачи можно 15 М Базара, К- Шетти
450 ГЛ. П. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ сделать сколь угодно близким к оптимальному значению целе- целевой функции исходной задачи. Кроме того, в этом параграфе описывается схема построения узловых точек решетки. § 11.4. Дробно-линейное программирование. Задача дробно линейного программирования состоит в оптимизации отношения двух линейных функций при линейных ограничениях. Предло- Предложены два метода решения таких задач. Первый — упрощенный вариант выпуклого симплексного метода. Второй приводит к оптимальному решению исходной задачи с помощью эквивалент- эквивалентной задачи линейного программирования с дополнительным ограничением и дополнительной переменной. 11.1. Линейная задача дополнительности В этом параграфе кратко излагается линейная задача дополни- дополнительности и приводится алгоритм дополнительного ведущего преобразования для ее решения. Как будет показано в § 11.2, условия Куна — Таккера для задач линейного и квадратичного программирования могут быть записаны в виде линейных задач дополнительности и, следовательно, предложенный здесь алго- алгоритм может быть использован для решения задач линейного и квадратичного программирования. Кроме того, этот алгоритм может быть применен для решения матричных игр. 11.1.1 ОПРЕДЕЛЕНИЕ. Пусть М— заданная матрица по- порядка рХр и q — заданный р-мерный вектор. Линейная задача дополнительности состоит в нахождении векторов w и z, таких, что w-Mz = q, A1.1) 0 при /=1, ...,р, A1.2) = 0 при /= 1, ..., р. (П.З) Здесь {wjy Zj) — пара дополнительных переменных. Решение (w, z) этой системы называется полным базисным допустимым решением, если (w, z) — допустимое базисное решение A1.1) и A1.2) и если одна переменная из пары (ш/, zj) базисная, /== 1, ..., р. Позже в этом параграфе будет описана процедура нахож- нахождения решения этой системы, если матрица М обладает некото- некоторыми требуемыми свойствами. В общем случае эта система мо- может не иметь решения. Решение линейной задачи дополнительности Если q — неотрицательный вектор, то решением системы A1.1) —A1.3) являются векторы w = q и z = 0. Если q^O, то, вводя новый столбец 1 =A, ..., 1)т и искусственную пере-
ТТЛ. ЛИНЕЙНАЯ ЗАДАЧА ДОПОЛНИТЕЛЬНОСТИ 451 менную z0, получим следующую систему: A1.4) /=1, ...,p, A1.5) 0727 = 0, /=1, ...,р. A1.6) Положив го = тах{—?,•: 1</<р}, z = 0 и w = q-f Jz0, по- получим начальное допустимое решение системы A1.4) — A1.6). Применяя к системе A1.4) — A1.6) последовательность ведущих преобразований, вид которых будет уточнен позднее, делается попытка привести искусственную переменную Zo к нулю. Если это удается, то таким образом получается решение линейной задачи дополнительности. Определим понятия почти полного базисного допустимого решения и смежного с ним почти полного допустимого решения. Эти определения используются как при описании алгоритма, так и при доказательстве его конечности. 11.1.2. ОПРЕДЕЛЕНИЕ. Рассмотрим систему A1.4) —A1.6). Допустимое решение (w, z, z0) этой системы называется почти полным базисным допустимым решением, если: 1) (w, z, Zo)—базисное допустимое решение A1.4), A1.5); 2) ни ws, ни zs не являются базисными для некоторого S€={1, ..., р}\ 3) Zo — базисная переменная, и только одна компонента из пары (до/, Z/) является базисной при / = 1, ..., р и / ф s. При заданном почти полном базисном допустимом решении (w, z, Zo), в котором ws и zs одновременно внебазисные, смеж- смежное с ним почти полное базисное допустимое решение (w, z, i0) получается введением либо ws, либо zs в базис, если преобразо- преобразование ведущего элемента выводит из базиса переменную, отлич- отличную от z0. Из приведенных выше определений ясно, что каждое почти полное базисное допустимое решение имеет в лучшем случае два смежных почти полных базисных допустимых решения. Если увеличение w$ или zs влечет за собой вывод zo из базиса или принадлежность луча множеству, определенному соотноше- соотношениями A1.4), A1.5), то смежных почти полных допустимых базисных решений будет меньше двух. Алгоритм дополнительного ведущего преобразования Лемке Ниже кратко излагается предложенный Лемке [1968] алгоритм дополнительного ведущего преобразования для решения ли- линейной задачи дополнительности. Вводится искусственная 15*
452 ГЛ. IT. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ переменная го. В соответствии с алгоритмом осуществляется движение вдоль направления смежного почти полного базисного допустимого решения до тех пор, пока не будет найдено либо полное базисное допустимое решение, либо направление, в ко- котором область, определяемая соотношениями A1.4) — A1.6), не- неограниченна. Ниже будет показано, что при некоторых предпо- предположениях относительно матрицы М алгоритм приводит к ре- решению задачи за конечное число шагов. Начальный этап. Если q ^ 0, то остановиться; (w, z) = = (Ч> 0) — полное базисное допустимое решение. В противном случае выписать систему A1.4), A1.5) в виде таблицы. Пусть —qs = max {—qc. 1 ^ I ^ p}. Преобразуем таблицу с помощью ведущего преобразования, беря в качестве ведущей строки 5-ю, а в качестве ведущего столбца — столбец, соответствующий го. Получим неотрицательные базисные переменные го и wj при /= 1, ..., р и / ф s. Положить tjs^Zs и перейти к основному этапу. Основной этап. Шаг L Пусть As — преобразованный столбец в таблице при переменной ys. Если ds ^ 0, то перейти к шагу 4. В противном случае определить индекс г, при котором дости- достигает минимума определенное ниже отношение, где q — преобра- преобразованный столбец стоящих справа базисных переменных -?--mln {-?-: dis>o). drs 1<*<р I ais ) Если го является базисной переменной в r-й строке, то перейти к шагу 3. В противном случае перейти к шагу 2. Шаг 2. Базисной переменной в r-й строке является либо wi, либо Zi для некоторого I ф s. Переменная ys вводится в базис, и таблица преобразуется выбором ведущего элемента в строке г и столбце, соответствующем ys. Если в базисе оставлена пере- переменная wi, то положить ys = zi. Если же в базисе оставлена г/, то положить ys = wt. Вернуться к шагу 1. Шаг 3. Переменная ys вводится в базис, а г0 выводится из базиса. Ведущее преобразование с ведущей строкой го приводит к полному базисному решению. Остановиться. Шаг 4. Остановиться, так как найден такой луч R =¦ = {(w, z, Zo)-\-%d: Х^О}, что каждая точка из R удовлетво- удовлетворяет A1.4), A1.6) и A1.6). Здесь (w, z, г0)—почти полное ба- базисное допустимое решение, связанное с последней таблицей, а вектор d — экстремальное направление множества, определяе- определяемого A1.4), A1.5). Вектор d содержит 1 в строке, соответствую- соответствующей ySi —ds в строках текущих базисных переменных и нули в остальных позициях.
11.1. ЛИНЕЙНАЯ ЗАДАЧА ДОПОЛНИТЕЛЬНОСТИ 463 11.1.3. ПРИМЕР (остановка на полном базисном допусти* мом решении). Пусть требуется найти решение линейной за- задачи дополнительности, определяемой следующими М и qi 0 0 1 1 0 0 — 1 2 -1 1 2 -2 -Г -2 -2 4 ¦ i 2 -2 -6 Начальный этап. Вводим искусственную переменную Zq и со- составляем таблицу Wj W^ Wj W4 #1 J?2 %& %4 %0 ПЧ w4 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 — 1 0 0 1 -2 1 -1 -2 2 1 2 2 -4 -1 -1 -1 €3) 2 2 -2 Очевидно, что min {qc 1 ^ i ^ 4} = #4. Поэтому выбираем ведущий элемент в четвертой строке и столбце, соответствую-" щем го. Переходим к итерации 1 с ys = z^ Итерация 1 2o 1 0 0 0 w2 0 1 0 0 w3 0 0 1 0 w4 __ 1 -1 -1 -1 1 1 0 1 22 2 2 3 2 23 -1 -3 -4 -2 24 5 6 F) 4 2o 0 0 0 1 ПЧ 8 8 4 6 Здесь ys = ?4 вводится в базис. По признаку минимального от- отношения из базиса выводится до3, так что на следующей итера- итерации tjs = Zz. Ведущий элемент находится в строке w$ и столбце 24. Переходим к итерации 2. Итерация 2 1 0 0 0 W2 0 1 0 0 w3- w4 -I -I -1 0 1 1 6 6 "~3 ~3 2i 1 1 0 1 22 -I -1 x 0 23 (T) 1 _2 1 24 0 0 1 0 0 0 0 1 ПЧ ? 4
454 ГЛ. II. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ Здесь ys = г3 вводится в базис. По признаку минимального от- отношения из базиса выводится w\, так что на следующей итера- итерации ys = z\. Ведущий элемент находится в строке W\ и столбце 2з. Переходим к итерации 3. Итерация 3 i 0 -1 1 i 0 -? о w3 -f4 14 -I 1 (z) "~l4 z3 1 0 0 0 Za 0 0 1 0 z0 0 0 0 1 ПЧ 2 2 2 2 Здесь ys = z\ вводится в базис. По признаку минимального от- отношения из базиса выводится zq. Выбор ведущего элемента в строке 2о и столбце z\ дает полное базисное допустимое реше- решение, представляемое следующей таблицей: w2 w3 пч i 6 i 0 0 -A -A fo A. 1 0 0 0 1 -ft -fo ft 1 0 0 0 о -1 о -1 1 -i 0 ! f ? Таким образом, с помощью алгоритма дополнительного ве- ведущего преобразования построена точка (w\, Щ, Щ> Щ, zh Z2, гЪу г4) = (о, -|, 0, 0, -~ , 0, -g-, -g-), в которой только одна ком- компонента из каждой пары (wj9 Zj), /= 1, 2, 3, 4, положительна. 11.1.4. ПРИМЕР (остановка при нахождении луча). Пусть требуется найти решение линейной задачи дополнительности, определяемой следующей матрицей М и вектором q: 0 0 1 1 0 0 1 _2 1 -1 2 -2 -1 2 _2 2. 1 4 -2 -4
11.1. ЛИНЕЙНАЯ ЗАДАЧА ДОПОЛНИТЕЛЬНОСТИ 455 Начальный этап. Введем дополнительную переменную z0 и составим таблицу ПЧ 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 1 -1 0 0 -1 2 -1 1 -2 2 1 -2 2 -2 -1 _ i -1 О) 1 4 -2 -4 Очевидно, minfa;: 1 < * < 4} = <74, так что ведущий элемент выбирается в строке 4 и столбце 2о. Переходим к итерации 1 Cj/ 2 = 24. Итерация 1 l 0 0 0 w2 0 1 0 0 w3 0 0 1 0 w4 -1 -1 -1 -1 z\ 1 1 2 1 22 -2 -2 -3 -2 *3 -3 — 1 -4 -2 Z4 3 0 D) 2 0 0 0 1 ПЧ 5 8 2 4 Здесь #s = 24 вводится в базис. По признаку минимального от- отношения из базиса выводится w^. Таблица модифицируется при выборе ведущей строки, соответствующей до3, и ведущего столб- столбца, соответствующего z±. Переходим к следующей итерации с ys = 23. Итерация 2 w, I 0 0 0 p i 0 0 0 i -i w4 -t *~ "~2 "~2 1 i 0 i — 2 -i 0 _ 1 -1 0 z4 0 0 1 0 z0 0 0 0 1 ПЧ 1 8 i 3 Здесь ys = zz должен был бы вводиться в базис. Однако все элементы столбца г3 неположительные. Поэтому процесс оста- остаэлементы столбца г3 навливается—найден луч /? = |(w, z, ?o) = (lp ~, 3)+^(О, 1,0, 0, 0, 0, 1, 1,0): Я>0}, каждая точка кото- которого удовлетворяет системе A1.4) — A1.6).
456 ГЛ. П. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ Конечность алгоритма дополнительного ведущего преобразования Следующая лемма показывает, что построенный алгоритм дол- должен остановиться через конечное число шагов, устанавливая при этом либо полное базисное допустимое решение, либо направ- направление, вдоль которого область решений неограниченна. При не- некоторых условиях на матрицу М алгоритм приводит к полному базисному допустимому решению. 11.1.5. ЛЕММА. Предположим, что каждое почти полное ба- базисное допустимое решение системы A1.4) — A1.6) не вырожде- вырождено, т. е. каждая базисная переменная положительна. Тогда ни одна из точек, генерируемых алгоритмом ведущего преобразо- преобразования, не повторяется. Более того, алгоритм останавливается через конечное число шагов. Доказательство. Пусть (w, z, z0)— почти полное базисное допустимое решение, где переменные ws и zs одновременно вне- базисные. Тогда (w, z, Zq) имеет не более двух смежных почти полных базисных допустимых решений. Одно из них получается введением в базис ws, а другое — введением zsl). В силу пред- предположения о невырожденности каждое из этих решений отли- отличается от (w, z, Zo). Покажем теперь, что ни одно из почти полных базисных до- допустимых решений, генерируемых алгоритмом, не повторяется. Пусть (w, z, zo)v — точка, построенная на v-й итерации. Предпо- Предположим противное, т. е. пусть (w, z, z0) k+a = (w> z, го) * для не- некоторых натуральных k и а, причем k + а есть наименьший ин- индекс, при котором встречается повторение. В силу предположе- предположения о невырожденности а больше 1. Кроме того, в соответствии с правилами алгоритма а > 2. Но так как решение (w, z, Zo)fc+a-i смежное к (w, z, Zo)*+a> то оно является смежным и к (w, z, 20)V Пусть ?= 1. Так как (w, z, zo)k имеет только одно смежное почти полное базисное допустимое решение, то (w, z, 2o)*+a-i ¦= = (w, z, 2ob+i и, следовательно, повторение встречается на {k-\-a—1)-й итерации, что противоречит предположению о том, что a — минимальный индекс, при котором встречается повторение. Пусть k^2. Тогда решение (w, z, 2?o)*+a-i смежное к (w, z, Zo)k и, следовательно, должно совпадать либо с (w, z, zo)k+u либо с (w, z, zo)*-i. В обоих случаях повторение встречается на (k + a—1)-й итерации (раньше, чем через a *) Заметим, что (w, z, z0) может иметь меньше двух смежных почти пол- полных базисных допустимых решений. В этом случае либо столбцы при ws или zs неположительны, либо ввод в базис ws или zs выводит го, тем самым при- приводя к полному базисному допустимому решению.
ИЛ. ЛИНЕЙНАЯ ЗАДАЧА ДОПОЛНИТЕЛЬНОСТИ 457 итераций), что противоречит предположению. Таким образом, алгоритм генерирует различные точки. Поскольку существует лишь конечное число почти полных базисных допустимых решений и ни одно из них не повторяется, то алгоритм останавливается через конечное число итераций. При этом оказывается построенным либо полное базисное допу- допустимое решение, либо направление, в котором область решений неограниченна. В Для того чтобы доказать основной результат — теорему схо- сходимости, потребуются лемма 11.1.6 и определение 11.1.7. Лемма дает некоторые необходимые соотношения в случае остановки при получении луча, а определение вводит понятие коположи- тельности матрицы. 11.1.6. ЛЕММА. Предположим, что каждое почти полное ба- базисное допустимое решение системы A1.4) — A1.6) не вырожде- вырождено. Пусть для решения этой системы использован алгоритм до- дополнительного ведущего преобразования, и его остановка про- произошла при нахождении луча. Точнее, пусть остановка произо- произошла при построении почти полного базисного допустимого реше- решения (w, z, го) и экстремального направления (w, z, z0), опреде- определяющих луч R = {(w, z, 2o)+ X(w, z, io)*. Я ^ 0}. Тогда: 1) (w, z, ?о)Ф(О, 0, 0), w, z>0, 2) w —Mz — lio = O; 3) wrz = wrz = wrz = wrz = 0; 4) 5) Доказательство, Так как (w, z, 2o) — экстремальное направ- направление множества, определяемого соотношениями A1.4) и A1.5), то соотношения 1 и 2 сразу же следуют из теоремы 2.5.6. На- Напомним, что каждая точка луча R удовлетворяет равенствам A1.6), так что 0 = (w + Xw)rE + ^z) для всех %^0. Из этого равенства и условия неотрицательности w, w, z и z следует, что wrz = wrz = wrz = wrz = 0, A1.7) г. е. справедливо соотношение 3. Покажем теперь, что z Ф 0. Пусть это не так, т. е. z = 0. Заметим, что ?0 > 0, так как в противном случае из утвержде- утверждения 2 следует, что и w = 0, т. е. (w, z, io) = (O, 0, 0). А^это про- противоречит утверждению 1. Таким образом, io>0 и w=l-?o-
458 ГЛ. 11. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ Итак, установлено, что если z = 0, то ?0 > 0 и w = 1?0. Из равенств A1.7) следует, что 0 = wrz. Тогда lrz = 0, и так как z ^ 0, то z = 0. В силу предположения о невырожденности каж- каждая компонента z является внебазисной. Более того, го — базис- базисная компонента, и должно существовать еще р — 1 базисных компонент вектора w. В частности, так как w — Mz — lzQ = q и z = 0, го го = max {—qr. 1 ^i^p}. Это показывает, что почти полное базисное допустимое решение (w, z, z0) является начальным решением. В силу леммы 11.1.5 это невозможно. Поэтому z Ф 0 и утверждение 4 доказано. Умножая w — Mz — — lzo = O на zT и замечая, что из A1.7) следует равенство z7w = 0, получаем zrMz = —zTlz° ^ 0, т. е. утверждение 5 спра- справедливо. В 11.1.7. ОПРЕДЕЛЕНИЕ. Пусть М —матрица порядка рХр- Говорят, что М неположительная, если ътЖг ^ 0 для всех z ^ 0. Матрица М сильно коположительна, если она коположительна и при z ^ 0 и zrMz = 0 имеет место равенство (М + M7)z = 0. Теорема 11.1.8 показывает, что если система A1.1), A1.2) совместна и матрица М сильно коположительна, то алгоритм дополнительного ведущего преобразования приводит к полному базисному допустимому решению за конечное число шагов. 11.1.8. ТЕОРЕМА. Предположим, что каждое почти полное базисное решение системы A1.4) — A1.6) невырождено и ма- матрица М сильно коположительна. Тогда алгоритм дополнитель- дополнительного ведущего преобразования останавливается за конечное число шагов. Если система A1.1), A1.2) совместна, то алгоритм приводит к полному базисному допустимому решению системы A1.1) —A1.3). Если же система A1.1), A1.2) несовместна, то алгоритм останавливается при нахождении луча. Доказательство. В силу леммы 11.1.5 алгоритм останавли- останавливается через конечное число шагов. Пусть остановка произошла при нахождении луча и (w, z, Zq)—почти полное базисное до- допустимое решение, a (w, z, ?Q) — экстремальное направление, связанное с последней таблицей. По лемме 11.1.6 0 <0. A1.8) Так как М — сильно коположительная матрица, то Тогда из A1.8) следует, что 0 = zrMz = — Fz50. Так как то 20 = 0. Поскольку (w, z, 20) — направление множества, опре- определяемого соотношениями A1.4), A1.5), то w — Mz—¦ 1г0 = 0 и, следовательно, ~ A1.9)
11.2. КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ 459 Покажем теперь, что qrz < 0. Так как zrMz = 0 и М — силь- сильно коположительная матрица, то (M + Mr)z = 0. Отсюда в силу утверждения 3 леммы 11.1.6 и из того, что w = q + Mz + + 1г0, следует, что O = wrz = (q + Mz+lio)rz = qri-zrMz + 2Olrz. A1.10) Из A1.9) следует, что Mz = w. Тогда в силу утверждения 3 леммы 11.1.6 zTfAz = 0. Кроме того, zo > 0 и lrz > 0 в соответ- соответствии с A1.8). Подставляя все эти значения в A1.10), получим, что qrz < 0. Таким образом показано, что Mz = w ^ 0. Так как (М + Mr)z = 0, то Wz = —Mz s? 0, —Iz < 0 и qTz < 0. Тогда система Мгу ^ 0, —1у ^ 0, qry < 0 имеет решение, например у = z. В силу теоремы 2.3.5 в этом случае неразрешима система w — Mz = q, w ^ 0, z ^ 0. Пусть теперь система A1.1), A1.2) совместна. Тогда алго- алгоритм должен за конечное число шагов получить полное базис- базисное допустимое решение, так как в противном случае остановка произошла бы при нахождении луча. Ранее уже было пока- показано, что такая остановка может произойти только в том слу- случае, если система A1.1), A1.2) несовместна. Очевидно, что если система A1.1), A1.2) несовместна, то алгоритм не может гене- генерировать полное базисное допустимое решение и, следовательно, остановится, построив луч. В СЛЕДСТВИЕ. Если М — неотрицательная матрица с поло- положительными диагональными элементами, то алгоритм дополни- дополнительного ведущего преобразования через конечное число шагов остановится в точке, являющейся полным базисным допустимым решением. Доказательство. Из свойств матрицы М следует, что система w — Mz = q, w, z^0 имеет решение. Можно, например, полу- получить решение, выбрав z достаточно большим так, чтобы w = = Mz + q ^ 0. Поскольку очевидно, что М — сильно коположи- коположительная матрица, то из теоремы вытекает утверждение след- следствия. ¦ 11.2. Квадратичное программирование Квадратичное программирование — это специальный класс за- задач нелинейного программирования, в которых целевая функция квадратичная, а функции ограничений линейны. В этом пара- параграфе показывается, что система условий Куна— Таккера для
460 ГЛ. И. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ задачи квадратичного программирования сводится к линейной задаче дополнительности. Следовательно, для решения задачи квадратичного программирования может быть использован опи- описанный в § 11.1 алгоритм дополнительного ведущего преобра^ зования. Некоторые другие процедуры решения задач квадра- квадратичного программирования обсуждаются в упражнениях, при- приведенных в конце главы. Система Куна — Таккера Рассмотрим задачу квадратичного программирования: минимизировать сгх + у хгНх при условиях Ах ^ Ь, х>0, где с есть «-мерный вектор, b есть m-мерный вектор, А — ма- матрица порядка тХя, Н — симметрическая матрица порядка пХя- Обозначив векторы множителей Лагранжа условий Ах < b и х > 0 соответственно через и и v, а вектор дополни- дополнительных переменных через у, можно записать условия Куна — Таккера в виде Ах + у = Ь, — Нх — Aru + v = с, xrv = 0, игу = 0, х, у, u, v>0. Обозначим и перепишем условия Куна — Таккера в виде линейной задачи дополнительности w — Mz = q, w^z = 0, w, z ^ 0. Предложен- Предложенный в § 11.1 алгоритм дополнительного ведущего преобразова- преобразования может быть использован для нахождения точки Куна — Таккера задачи квадратичного программирования. 11.2.1. ПРИМЕР (конечное оптимальное решение). Рассмо- Рассмотрим следующую задачу квадратичного программирования: минимизировать — 2хх —- Qx2 + х\ — 2ххх2 + 2*| ПрИ УСЛОВИЯХ Х\ + -л:1 + хи
11.2. КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ 461 Здесь 4J л- -[-: -¦:]¦ *- -¦: Обозначим через у вектор дополнительных переменных, а че- через и и v — векторы множителей Лагранжа ограничений Ах ^ Ь их^О, Пусть м = Тогда условия Куна — Таккера сводятся к нахождению решения системы w — Mz = q, wrz = 0. w, z ^ 0, где 0 0 1 1 0 0 -1 2 1 t -2 -Г -2 -2 4. 2 2 -2 Задача нахождения полного базисного допустимого решения этой системы была решена в примере 11.1.3. Найденное решение (хи х2) = (г3, Zi) = Г-g-, -g-J является точкой Куна — Таккера. Заметим, что в процессе решения в примере 11.1.3 были после- последовательно получены точки @, 0), Го, у У B, 2) и, наконец, точка Куна — Таккера Г-g-, -=-У Поскольку матрица Н положи- положительно определена, то целевая функция выпукла и точка Куна — Таккера является оптимальной. Траектория, построенная при помощи алгоритма дополнительного ведущего преобразования, приводящая к оптимальному решению, изображена на рис. 11.1. 11.2.2. ПРИМЕР (неограниченное оптимальное решение). Рассмотрим следующую задачу квадратичного программиро- программирования: минимизировать —! при условиях —; •" •" * х{ — 2х2 хи Здесь ч : - -\ ].ь =
462 гл- И. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ Рис. 11.1. Точки, генерируемые с помощью алгоритма дополнительного веду- ведущего преобразования. / — линии уровня целевой функции. Обозначим через у вектор дополнительных переменных, а через и и v — векторы множителей Лагранжа ограничений Ах ^ b и х ^ 0. Пусть М Тогда выполнение условий Куна — Таккера сводится к разреши- разрешимости системы w — Mz = q, w7z = 0, w, z ^ 0, где 0 0 I I 0 0 1 -2 1 -1 2 -2 -1" 2 •=¦2 2_ " 1 4 — 2 -4 Задача нахождения полного базисного допустимого решения этой системы была решена в примере 11.1.4, где было показано, что алгоритм дополнительного ведущего преобразования оста- останавливается при нахождении луча и не в состоянии построить полное базисное допустимое решение. Причина этого заклю- заключается в том, что значения целевой функции неограниченны на луче /?, порождаемом алгоритмом. Как показано на рис. 11.2, в пространстве (хь х2) вдоль луча R = | (о, у) + Я A, 1): Я > 0 } целевая функция задачи неограниченна.
11.2. КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ 463 @,0) D,0) Рис. 11.2. Неограниченное оптимальное решение и остановка при нахожде- нахождении луча. 1 — целевая функция неограниченно убывает при движении вдоль R. Анализ сходимости алгоритма дополнительного ведущего преобразования для решения задач квадратичного программирования В § 11.1 было показано, что с помощью алгоритма дополни- дополнительного ведущего преобразования за конечное число шагов может быть найдено либо полное базисное допустимое решение, либо луч, указывающий направление, в котором область неогра- неограниченна. Кроме того, показано, что если матрица М сильно коположительна, то алгоритм приводит к полному базисному допустимому решению. В теореме 11.2.3 будут сформулированы достаточные условия для того, чтобы матрица М была сильно коположительна. В теореме 11.2.4 будут установлены различные условия, при которых алгоритм приводит в точку Куна — Так- кера, и показано, что остановка алгоритма при нахождении луча возможна только в том случае, если задача квадратичного про- программирования имеет неограниченное оптимальное решение. 11.2.3. ТЕОРЕМА. Пусть А —матрица порядка тХп, Н — симметрическая матрица порядка пУ^п. Если у^Ну^О для [0 -А1 всех у ^ 0, то матрица М = дг „I коположительна. Если, кроме того, из у^О и угНу = О следует, что Ну = О, то М — сильно коположительная матрица.
464 ГЛ. II. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ Доказательство. Покажем сначала, что М коположительна. Пусть zT = (xr, yr) ^ 0. Тогда ~ ^/V4 A1.11) Так как по предположению угНу^0, то М — коположительная матрица. Для того чтобы показать, что М сильно коположительна, рассмотрим вектор z ^ 0, для которого zrMz = 0. Достаточно [001 0 ОН ' Т0 Г 0 1 (М + М7) z = I I. Поскольку zrMz = 0, то из A1.11) сле- следует, что угНу = 0. По предположению Ну = 0 при у^0 и у7Ну = 0. Следовательно, (М + Mr)z -0.I СЛЕДСТВИЕ 1. Если Н — положительно полуопределенная матрица, то из угНу = 0 следует, что Ну = 0, т. е. М сильно коположительна. Доказательство. Достаточно показать, что если угНу = 0, то Ну = 0. Пусть Ну = d. Из положительной полуопределенности Н следует, что Так как угНу = 0, то, разделив обе части неравенства на Я и устремив Я к 0+, получим 0 = d = Ну. ¦ СЛЕДСТВИЕ 2. Если Н — неотрицательная матрица, то М коположительна. Если, кроме того, диагональные элементы Н положительны, то М—сильно коположительная матрица. Доказательство. Если у^0 и УгНу = 0, то у = 0 и, следо- следовательно, Ну = 0. Тогда по теореме М сильно коположительна. 11.2.4. ТЕОРЕМА. Рассмотрим задачу минимизации сгх+ + — хгНх при условиях Ах ^ Ь, х ^ 0. Предположим, что до- допустимая область непуста. Кроме того, предположим, что для решения системы Куна — Таккера w — Mz = q, wrz = 0, w, z °]ч:]шч у — вектор дополнительных переменных, и и v — векторы мно- множителей Лагранжа, соответствующие ограничениям Ах^Ь и
11.2. КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ 465 х ^ 0, используется алгоритм дополнительного ведущего пре- преобразования. При отсутствии вырожденности и выполнении лю- любого из перечисленных ниже условий алгоритм приведет к точке Куна — Таккера за конечное число итераций. 1. Н—положительно полуопределенная матрица и с = 0. 2. Н — положительно определенная матрица. 3. Н — неотрицательная матрица с положительными диаго- диагональными элементами. Если Н — положительно полуопределенная матрица, то оста- остановка при нахождении луча означает, что оптимальное решение неограниченно. Доказательство. Будем считать, что Н = Нг, так как в про- противном случае Н можно заменить на •^-(Н + Н7'). Из леммы 11.1.5 следует, что алгоритм дополнительного ведущего преобра- преобразования останавливается через конечное число шагов либо в точке Куна — Таккера, либо на луче, указывающем на неогра- неограниченность области решений. Если матрица Н положительно по- полуопределена, положительно определена или неотрицательна и имеет положительные диагональные элементы, то в силу след- следствий 1 и 2 из теоремы 11.2.3 вытекает, что матрица М сильно коположительна. Предположим, что остановка произошла на луче. Так как М сильно коположительна, то по теореме 11.1.8 такая остановка может произойти только в том случае, если неразрешима си- система — Нх — Aru + v = с, х, у, u, v>0. Тогда по теореме 2.3.5 должна иметь решение (d, e) следующая система: Ad<0, A1.12) HdX), A1.13) е>0, A1.14) d>0, A1.15) crd<0. A1.16) Умножая A1.13) на dr^0 и учитывая, что е^О и Ad^O, получаем 0 <drAre - d^Hd < 0 - d^Hd = - drHd. A1.17)
466 ГЛ. 11. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ По предположению существуют такие векторы х и у, что Ах + У = Ь, х, у^О. Подставляя в A1.16) представление b через х и у и учитывая, что е, х, у^О, а также A1.13), по- получаем О > crd + bre = crd + (у + Axf e > crd + xrAre>crd A1.18) Пусть Н — положительно полуопределенная матрица. В силу A1.17) drHd = 0, а в силу следствия 1 из теоремы 11.2.3 Hd=0. Тогда из A1.18) следует, что crd < 0. Так как Ad ^ 0, d ^ 0, то вектор d является направлением допустимой области, так что x + A,d — допустимая точка для всех X ^ 0. Рассмотрим функ- функцию/(x+^d), где /(х) = сгх + уХгНх. Так как Hd «= 0, то /(х + W) = /(x) + к(ст+ хтН) d + Y^T4d = f(x) + XcTd. Поскольку crd < 0, значение f(x-\-Xd) приближается к —оо при достаточно больших Я, т. е. получено неограниченное опти- оптимальное решение. Для завершения доказательства осталось показать, что оста- остановка на луче невозможна при выполнении условий 1, 2 или 3. Предположим противное, т. е. пусть при выполнении какого- либо из этих условий остановка произошла на луче. Из A1.17) следует, что drHd ^ 0. Если выполняется условие 2 или 3, то d = 0, что невозможно в силу A1.18). Если выполняется усло- условие 1, то Hd = 0. Это равенство совместно с требованием с = 0 противоречит A1.18). Таким образом, показано, что если Н — положительно полу- полуопределенная матрица и алгоритм останавливается на лучег то оптимальное решение неограниченно. Кроме того, при выполне- выполнении любого из условий 1, 2 или 3 остановка на луче невозможна, так что алгоритм должен привести в точку Куна — Таккера. ¦ 11.3. Сепарабельное программирование В этом параграфе обсуждается использование симплексного ме- метода для получения решений задачи нелинейного программиро- программирования, в которой целевая функция и функции ограничений мо- могут быть представлены в виде суммы функций, каждая из ко- которых зависит только от одной переменной. Такая задача на- называется задачей сепарабельного программирования.. Будем обозначать ее задачей Р и формулировать следующим образом:
11.3. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 467 Задача Р: п минимизировать ^ fj (xj) при условиях ^ grf/ (*,) < p/f « = 1, ..., го, */>0, /= 1, ..., /г. Аппроксимация задачи сепарабельного программирования Покажем, как можно определить некоторую новую более про- простую задачу, аппроксимирующую исходную задачу. Заменим каждую нелинейную функцию ее кусочно-линейной аппроксима- аппроксимацией. Чтобы показать, как это можно сделать, рассмотрим не- непрерывную функцию 0 одного переменного \х, определенную на отрезке [а, Ь]. Требуется построить кусочно-линейную функцию 0, аппроксимирующую 0. Прежде всего разобьем отрезок [а, Ь] на малые отрезки, как это изображено на рис. 11.3. Обозначим точки разбиения через а = (ц, ц2, ..., Ц* = Ь. Приближение функции 0 на отрезке [jmv, \xv+\] строится следующим образом. Пусть \1 = К\Лу + A — ^)[xv+i при некотором А,е[0, 1]. Тогда б (ц) = Я0 (txv) + A - Я) 0 (^+1). (П.20) Заметим, что точки разбиения (узлы) необязательно находятся на одинаковом расстоянии друг от друга. Точность аппроксима- аппроксимации улучшается с увеличением числа точек разбиения. Однако при использовании описанной линейной аппроксимации может возникнуть серьезная трудность из-за того, что некоторая за- заданная точка \х из отрезка [jutv, piv+i] может быть представлена в виде выпуклой комбинации двух или более несоседних точек разбиения. Для иллюстрации рассмотрим функцию 0(jx) = p,2. График этой функции на отрезке [—2, 2] изображен на рис. 11.4. Примем в качестве точек разбиения точки. —2, —1, 0, 1, 2. Точка \i = j может быть представлена в виде уA) и уB) и 1 3 в то же время в виде -j- @) + -j B). Значение функции 0 при о \х = -^ равно 2,25. Аппроксимация по точкам 1 и 2 дает зна- значение 0(ii) = i-0(l) + l0B) = 2.5, а по точкам 0 и 2 дает б О1) — х^Н^ + Т9^^3- Очевидно, что первая аппроксима- аппроксимация, использующая соседние точки разбиения, лучше. Поэтому в общем случае функция 0 может быть аппроксимирована на
468 ГЛ. П. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ Рис. 11.3. Кусочно-линейная аппроксимация функции, -2 - 0 1 ji 2 Рис. 11.4. Важность выбора соседних точек. интервале [а, Ь] при заданных точках разбиения \хи ..., \ik ку- кусочно-линейной функцией 0, определенной следующим образом: к к 6Ы=ЕМУ, ?^v=l, ^v>0 при v=l, ...,?, A1.21) v-l v=l где не более двух соседних Xv положительны. Приведем теперь задачу, аппроксимирующую сепарабельную задачу Р, описанную соотношениями A1.19). Для каждой пере- переменной #/, для которой либо //, либо gij при некотором i = 1, ... ..., т нелинейна, эта функция заменяется кусочно-линейной аппроксимацией в соответствии с формулой A1.21). Для ясно* сти пусть L = {j:f} и gi} при /=1, ...,т линейны}.
1Т.З. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 469 Для каждого 1фЬ рассмотрим отрезок [а/, &/], где а/, р;-> ^0. Определим точки разбиения xv}, v = 1, ..., А/, так, что Xij = af и xkf! = bj. Заметим, что точки разбиения не обяза- обязательно должны находиться на одинаковом расстоянии друг от друга и длина отрезков между точками разбиения может быть различной для разных переменных. Тем не менее, как будет позже показано в теореме 11.3.4, точность получаемого решения зависит от максимальной длины таких отрезков. В соответствии с выбранными точками разбиения при \ф.Ь с помощью фор- формулы A1.21) функции // и gij, i = 1, ..., m, заменяются их ли- линейными аппроксимациями: = 2-i hvjgij (xvj), i *= 1, ..., tn, J §= L, v«l ft/ _ v-l По определению функции f/ и gf-/ при /eL линейны. Для этих / не строится разбиение и линейная аппроксимация за- даетсй в виде f/(*/) = //(*/)> ^//(^/) = йГ/у(*/) при / = 1, ..., m, /ei. Рассмотрим задачу АР, аппроксимирующую исходную за- задачу Р. Задача АР: минимизировать X f/(*/)+ Z f/(*/) при условиях 2^gif (Xj) + У §ц(xj)<piy (и 22) Заметим, что целевая функция и ограничения задачи АР ку- кусочно-линейны. Используя определение f/ и &ц при / ф L, задачу
470 ГЛ. II. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ можно переформулировать в эквивалентной, но более удобной форме. Задача LAP: Z 2 1фЬ l минимизировать ? //(#/ */ при условиях Z gii (xf)+ ? Z Kfgii (XvtXpi, /eL /*L v-1 A1.23) v-l 0, v=l, ..., kh j&L9 При / ф L не более двух соседних A,v/ положительны. Решение аппроксимирующей задачи Если исключить требование, что не более двух соседних A,v/ по- положительны, то задача LAP была бы линейной. Для решения задачи LAP можно использовать симплексный метод со следую- следующим правилом, ограничивающим ввод в базис. Внебазисная пе- переменная Xv/ вводится в базис только в том случае, если она улучшает значение целевой функции и если новый базис имеет при каждом \фЬ не более двух соседних положительных A,v/- В теореме 11.3.1 будет показано, что если при j&L функции gih f=lf ..., m, выпуклы, fj строго выпуклы, то можно от- отбросить указанное ограничение на ввод в базис и применить симплексный метод решения задач линейного программирова- программирования, описанный в § 2.6. 11.3.1. ТЕОРЕМА. Рассмотрим задачу Р, состоящую в ми- п п нимизации ?f/(#/) при условиях Л ?*/(*/)^Р/> /=1, ..., т, Xf>Q, /=1, •••> п. Пусть L = {/: f/ и gif при t=l, ..., т линейны}. Предположим^ что при 1фЬ функции f/ строго вы- выпуклы, a gu> i = 1, ..., m, выпуклы. Пусть при / ф L функции f/ и gih t# = l» •••> ^» заменены их кусочно-линейными аппрокси- аппроксимациями по точкам xvj, v = 1, ..., А/, и построена следующая
11.3. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 471 задача линейного программирования: минимизировать ? // (*/) + S Z Ktfj (xvj) При УСЛОВИЯХ Е ?*/(*/)+? YtKfgijivjXpi /el. /*Lv-l (Ц24) v=l, ..., ft/, /<?L, • 0, •/ e= L. Пусть i/ при /gL и Яу/ при v= 1, ..., ft/ и /^L — реше- решение этой задачи. Тогда 1. Для любого ]фЬ не более двух Яу/ положительны, и они при этом соседние. 2. Пусть Jt/ = X KjXvj при / ^ L. Тогда вектор х, /-я ком- понента которого равна i/, / == 1, ..., п, является допустимым в задаче Р. Доказательство. Для доказательства утверждения 1 доста- достаточно показать, что для каждого / ф L, если Хц и Яр/ положи- положительны, то точки разбиения *// и хр1 должны быть соседними. Предположим противное, т. е. предположим, что существуют положительные X/ и Яр/, не являющиеся соседними. Тогда найдется точка разбиения xY/e(x//, xPj), которую можно представить в виде ху]- = а\Хц + a2xPf, где аь «2 > 0, ai + а2 = = 1. Рассмотрим теперь оптимальное решение задачи A1.24). Пусть щ ^ 0, /= 1, ..., т, — оптимальные множители Лагран- жа, связанные с первыми m ограничениями, а Vj при ]фЬ — оптимальный множитель Лагранжа, связанный с ограничением ?a,v/=l. Тогда из необходимых условий Куна — Таккера сле- дует, что m // (хц) + S, "Ян Ы + о/ = 0, A1.25) f, (xpt) + S utgtl (xpl) + v, = 0, A1.26) m //W+bigiiW + ^^0, v=l */. A1.27)
472 ГЛ. П. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ Покажем, что последнее условие нарушается при v = у. В силу A1.25) и A1.26), а также из строгой выпуклости // и выпуклости gij получаем т U (•*?/) + X Uigti (*v/) + Vj < aif, (xlt) + a2f/ {xPl) + m + .Z ui [а&ц (хц) + a2gi} (xpJ)] + vf = 0. Это противоречит A1.27) при v = 7. Следовательно, хц и xpj должны быть соседними точками. Утверждение 1 доказано. Докажем утверждение 2. В силу выпуклости gn при ]фЬ и /=1, ..., т, учитывая, что к-ь ]фЬ и Xv/, v=l, ..., А/, удовлетворяют ограничениям задачи A1.24), получаем \ (х) = Yj git (^/) + Z g"// (•*/) = Z) sa (*/) + Z ^//1 Z ^ '—r /^L /eL /gfeL \v=l 8и (^/) + L, Lj Kien (Xvi) ^ Pi при i= 1, ..., m. Кроме того, j?/^0 при /eL. Так как для v= 1, ..., kj при /^L, то ?/= X KjXvi^Q- Следовательно, ^ v=-l x —допустимое решение задачи Р. ¦ 11.3.2. ПРИМЕР. Рассмотрим следующую задачу сепара- бельного программирования: минимизировать х\ — 6^! + х\ — 8х2— -§хг ПрИ УСЛОВИЯХ #1 + *2 + х\-х2 <, х\, х2, х3 > 0. Очевидно, что L= {3}, так как нет нелинейных членов, за- зависящих от *з, и, следовательно, по хъ не надо проводить раз- разбиение. Из ограничений задачи ясно, что х\ и х2 должны лежать на отрезке [0, 5]. Напомним, что точки разбиения не обязатель- обязательно должны находиться на одинаковом расстоянии друг от друга, т. е. разбиение не обязательно должно быть равномерным. Для переменных х\ и х2 будем использовать в качестве точек раз- разбиения точки 0, 2, 4 и 5, так что хц = 0, х2\ = 2, х$\ = 4, хц = б
11.3. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 473 4, х42 = 5. Тогда = О, Х22 = 2, ОЯ12 Н~" 2Я22 ~\~ 4Яз2 Н~ ЗЛ/42 = #2» ^11 + ^21 + ^31 + ^41 = 1» ^12 + ^22 + ^32 + ^42 = 1, KuK2>0, v=l,2, 3, 4, f (x) = (- 8Я21 - 8Я31 - 5Я41) + (- 12Я22 - 16Я32 - 15Я42) - 2х3, i (х) = BЯ21 + 4Я31 + 5Я4|) + BЯ22 + 4Я32 + 5Я42) + х3 < 5, х) = DЯ21 + 16Я31 + 25Я41) - BЯ22 + 4Я32 + 5Я42) < 3. Вводя дополнительные переменные jc4 и х$, получим первую таблицу, приведенную ниже. Решим эту задачу, используя симплексный метод с прави- правилом, ограничивающим ввод в базис. Последовательность полу- получаемых таблиц приведена ниже. An Al2 *4 Xs х5 Аи z 1 0 0 0 0 Аи 0 0 0 1 0 A2i 8 2 4 1 0 Аз1 8 4 16 1 0 %. 5 5 25 1 0 A12 0 0 0 0 1 A22 12 2 -2 0 1 A32 16 4 -4 0 Ф A42 15 5 -5 0 1 хз i 1 0 0 0 x4 0 1 0 0 0 x5 0 .0 1 0 0 ПЧ 0 5 3 1 1 z I 0 0 0 0 An b 0 0 1 0 A21 8 Ф 4 1 0 A3i 8 4 16 1 0 A4i 5 5 25 1 0 A12 -16 -4 4 0 1 A22 -4 -2 2 0 1 A32 0 0 0 0 1 A42 — 1 1 -1 0 1 X3 \ 1 0 0 0 Xa 0 1 0 0 0 X5 0 0 1 0 0 ПЧ -16 1 7 1 1 z 1 0 0 0 0 Аи 0 0 0 1 0 A2i 0 1 0 0 0 Аз1 -8 2 8 -1 0 A4i -15 15 -§ 0 А» 0 _2 12 2 1 А22 4 -1 6 Ф 1 А32 0 0 0 0 1 А42 -5 \ -3 ~\ 1 *3 -1 -2 Л 0 х4 -4 -2 -* 0 xs 0 0 1 0 0 пч -20 \ 5 J 1
474 ГЛ. П. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ ? Аи A2i А31 A4i A12 A22 A32 А42 2 Л21 •Л22 х4 х, пЧ 1 б 0 0 0 -4 1 -6 1 -1 0 1 0 0 0 -4 1 14 -1 1 -9 1 24 -| § -8 0 0 2 -1 0 0 0 1 0 0 0 0 0 1 -3 0 0 -i -§ 0 1 _1 -2 0 1 -4 0 0 1 0 0 -22 1 2 1 Заметим, что во второй таблице tai не может быть введен в базис, так как при этом нарушилось бы правило, ограничиваю- ограничивающее ввод в базис. Из последней таблицы находим оптимальное решение (?ь?2,%ъ)т аппроксимирующей задачи АР, где 1 + 5Я41 —2, = 2Я22 + 4Я32 + 5А42 = 3, Соответствующее значение целевой функции аппроксимирующей задачи fB, 3, 0) = —22, а значение целевой функции исходной задачи Р в этой точке fB, 3, 0) = —23. Очевидно, что целевая функция и функции ограничений этой задачи удовлетворяют предположениям теоремы 11.2.1, так что можно было решать задачу обычным симплексным методом без правила, ограничи- ограничивающего ввод в базис, и получить то же самое оптимальное решение. Связь между оптимальными решениями исходной и аппроксимирующей задач Как утверждается в теореме 11.3.1, при соответствующих пред- предположениях выпуклости оптимальное решение аппроксимирую- аппроксимирующей задачи линейного программирования является допустимым для исходной задачи. Теорема 11.3.4 показывает, что если длина отрезков разбиения выбрана достаточно малой, то оптимальные значения целевых функций обеих задач могут быть сделаны сколь угодно близкими друг к другу. Для доказательства этого результата потребуется следующая теорема. 11.3.3. ТЕОРЕМА. Рассмотрим задачи Р и АР, определен- определенные соотношениями A1.19) и A1.22) соответственно. Предпо- Предположим, что при ]фЬ функции ff и gij, /= 1, ..., m, выпуклы, a ft и йа являются их кусочно-линейными аппроксимациями на отрезках [a/, bf]. Пусть при \фЬ величины Сц, /=1, ..., т, и с/ выбраны так, что \uu(xi)\<c4 и !//(*/)!<*/ ПРИ */е
II.3. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 475 <=[я/, bf]. Обозначим через б/, \фЬ, максимальную длину от- отрезков разбиения для переменной xj. Тогда где с = max 0<t<m и С; = 2 2^/уб/, / = 1, • •., т. 1&L Доказательство. Сначала покажем, что fj (xj) ^ /у (л:/) ^ ^ //(*/) — 2^/6/ при /<^L. Пусть i^L и */е[а/, 6/]. Тогда найдутся точки разбиения \ik и jlu+i, такие, что #/е[|л*, fife+i]. Кроме того, X/ = K\ik + A — ^) ц,А!+1 при некотором Хе[0, 1]. Учитывая, что f/ выпукла, ^е[0, 1], из определения f/ получаем h (xt) = V, Ы + A - Я) /7 (ц,+ 1) > /у 1Я|х4 + A - Я) |iA+1] = U (х,). Покажем, что fj(Xf)^ff(Xf) — 2с/б/. Легко видеть, что может быть представлена в виде (П.28) где s = [ff(\ik+\) — //(|А*)]/[ц*+1 — Ы. Тогда в силу теоремы 3 3 3 // (*/) > // Ы + (*, - Н) Г, {Н)- A1.29) Вычитая A1.29) из A1.28), получаем h w - // (xj) < (х, - н) [• - /;м. A1 -зо) По теореме о среднем значении существует уе[|ш*, \ik+\], такой, что s — /у(#). Тогда из предположений теоремы следует, что 5 ~~//0**) ^ 2с/в Так как #/ — ^^6/, то из A1.30) вытекает, что //(*/) — fi(xj)^.2Cj6f. Таким образом, доказано, что ti(xt)>ft(xl)>ti(xl)-2cfit ПРИ 1&L AШ) и при любом д:/е[а/, &/]. Суммируя A1.31) по всем /^1 и прибавляя к каждой части неравенства X //(*/), получим, что -c0. A1.32) Аналогичным образом можно показать, что -c, при /=1, ...f m. A1.33) В силу определения с из A1.32) и A1.33) следует утверждение теоремы. ¦
476 ГЛ. II. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ 11.3.4. ТЕОРЕМА. Рассмотрим задачу Р, описываемую соот- соотношениями A1.19). Пусть L = {/: fj и gtj при i= 1, ..., т — линейные функции}, f/, ?ц — кусочно-линейные функции, аппро- аппроксимирующие fj и Цц соответственно, t=l, ..., m. Пусть за- задача АР, определенная соотношениями A1.22), и задача LAP, определенная соотношениями A1.23), являются эквивалентными задачами, аппроксимирующими задачу Р. Предположим, что при \фЬ функции // и gif, i= I, ..., m, выпуклы. Пусть х — оптимальное решение задачи Р, a jfy, /ei, и A,v/> v = 1, ..., ft/, L9—оптимальное решение задачи LAP, такое, что вектор х, / компоненты которого при / е L суть к* и %* = ? A,v/#v/ при }фЬ, является оптимальным решением задачи АР. Пусть й/ ^0 — оптимальные множители Лагранжа, связанные с огра- ограничениями ?*(х) ^ 0, i = 1, ..., т. Тогда 1. х — допустимое решение задачи Р. 2. 0</(х) — /(х)<с ( 1 + Z^J, где с определено в тео- теореме 11.3.3. Доказательство. Вектор х является допустимым в задаче АР, т. е. §i(x) ^ pu i = 1, ..., m, и х ^ 0. По теореме 11.3.3 выпол- выполнение неравенств Ui{*)^Pi влечет выполнение неравенств gi(x)^Ph i= I, ..., /п, что и доказывает первое утверждение теоремы. Нетрудно проверить, что кусочно-линейная аппроксимация выпуклой функции также является выпуклой, так что функции f} и ёц выпуклы при i= 1, ..., m и 1фЬ. Поскольку сумма выпуклых функций выпукла, то целевая функция и функции ограничений задачи АР выпуклы. Следовательно, (х, и) удовле- удовлетворяет критерию оптимальности седловой точки для задачи АР, сформулированному в теореме 6.2.5. Таким образом, f (х) < ? (х) + ит [? (х) - р] для всех х > 0. A1.34) Так как gi(x)^pi, то по теореме 11.3.3 имеем ?;(х) — pt^c при t = l, ..., m. Положив в A1.34) х = х и заметив, что u ^ 0, получим ti ( Как было уже доказано, х —допустимая точка задачи Р и, следовательно, f (х) > / (х). По теореме 11.3.3 имеем / (х) ^
11.3. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 477 ^f(x)— с и, следовательно, f(x)^f(x)^f(x) — c. Из A1.35) в силу f (x) ^ /(х) следует, что т \ / т \ + Iim)>f(x)-c\<l + 'Ziity Ш Из только что доказанной теоремы следует, что множители Лагранжа щ, /= 1, ..., т, сразу же находятся из оптимальной симплексной таблицы для задачи LAP. После решения аппрок- аппроксимирующей задачи теорему 11.3.4 можно использовать для того, чтобы определить максимальное отклонение cl 1+ Ш &i) истинного оптимального значения целевой функции от получен- полученного. Заметим, что если длина отрезков разбиения сокращается, то с уменьшается и, следовательно, качество аппроксимации улучшается. Генерирование точек разбиения Можно заметить, что точность рассмотренной выше процедуры сильно зависит от числа точек разбиения для каждой перемен- переменной. Однако при увеличении числа точек разбиения возрастает и число переменных в аппроксимирующей задаче линейного программирования LAP, что усложняет ее решение. Один из подходов, позволяющих несильно увеличивать размерность аппроксимирующей задачи, состоит в использовании вначале грубого разбиения, а затем, в окрестности полученного прибли- приближения к оптимальному решению, — более точного разбиения. Заманчивым вариантом является построение точек разбиения по мере возникновения необходимости. Такой подход обсужда- обсуждается ниже. Рассмотрим задачу LAP, описываемую соотношениями A1.23). Пусть xvj, v=l, ..., kf, j ф L,— точки разбиения на данном этапе решения задачи, а х}- при /gLh A,v/, v = 1,..., k\ и /^L, —решение задачи LAP. Пусть, кроме того, й< ^ О, * = 1, ..., т, — оптимальные множители Лагранжа, связанные с первыми т ограничениями, a t\ при / ф L — множители Ла- гранжа, связанные с ограничениями X A,v/=1. Заметим, что &h Xv/, ui и 0/ удовлетворяют условиям Куна —Таккера для за- задачи LAP. Важно определить, нужно ли вводить дополнитель- дополнительные точки разбиения по некоторым переменным */, / ф L, для получения лучшей кусочно-линейной аппроксимации с тем, что- чтобы в задаче LAP, построенной с учетом новых точек разбиения, минимальное значение целевой функции уменьшилось. Предпо-
478 ГЛ. П. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ ложим, что для некоторых / ф L потребовалось введение точек разбиения Ху/. Можно проверить, что если U W + Ъ*Ф! (**/) + S/ > о, A1.36) то для вновь полученной задачи LAP при Ху1- = О условия Ку- Куна — Таккера выполняются. Однако, поскольку неизвестно, где новая точка разбиения будет находиться, ответить на вопрос, будут ли все точки xh такие, что а/ ^ х\ ^ bj при / ф L, удов- удовлетворять A1.36), можно только после того, как для каждого j ф L будет решена задача PS. Задача PS: т минимизировать fj (xf) + ? ПрИ УСЛОВИИ Я/ Если минимальное значение целевой функции неотрицатель- неотрицательно для всех ]фЬ, то невозможно найти новую точку разбиения, для которой не выполняется A1.36). Теорема 11.3.5 утверждает, что в этом случае текущее решение является оптимальным ре- решением исходной задачи Р. Если минимум целевой функции от- отрицателен хотя бы для одного j ф L, то можно построить луч- лучшую аппроксимацию задачи. Кроме того, теорема дает на каж- каждой итерации оценку сверху для оптимального значения целе- целевой функции задачи Р. 11.3.5. ТЕОРЕМА. Рассмотрим задачу Р, описываемую со- соотношениями A1.20). Пусть L={j: fj и gu при /==1, ..., т — линейные функции }. Без потери общности можно предположить, что функции // и gij при 1—1, ..., т, / е L имеют вид CjXj и atjXj соответственно. Пусть задача LAP при использовании точек разбиения *v/, v = 1, ..., &/, }ф L, описывается соотношениями A1.23). Предположим, что при }ф L функции // и g//, i= 1, ... ..., m, выпуклы. Пусть Jtj, / е L, и Xv/, v = 1, \.., Л/, / ф L, — оптимальное решение задачи LAP, а ?—оптимальное значение ее целевой функции. Обозначим через й/ ^ 0, i= 1, ..., m, множители Лагранжа, соответствующие первым т ограниче- ограничениям, а через Ь^}фЬу — множители Лагранжа, связанные с kj ограничениями X Kf—ly Для задачи LAP. Рассмотрим для каждого / ф L задачу т минимизировать f/ (xf) + 2 при условии ^
П.З. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 479 где [а/, 6/], а/, 6/^0, — интересующий нас интервал изменения переменной Xj. Пусть г/— оптимальное значение целевой функ- функции этой задачи. Тогда справедливы следующие утверждения: т п п ki ? г, - ? й,/?, < S f/ (*/) < Z f / (*/)<*, где *,= ? ?v/xv/ *1 / 1 /1 l при \ф.Ъ и x = (Jcb ..., хл)г— оптимальное значение задачи Р. 2. Если 2* + vj ^ 0 для / ф L, то х = (ib ..., Лп)Т — опти- мальное решение задачи Р. Более того, X 3. Пусть Zj + Vj < 0 для некоторого / ^ L. Обозначим через .% оптимальное решение, дающее z\ < —t)/. Тогда, добавляя к точкам разбиения, использованным в задаче LAP, точку %•, по- получим новую аппроксимирующую задачу LAP, минимальное значение целевой функции которой не больше z. Доказательство. Так как й{ и Vj — оптимальные множители Лагранжа задачи LAP, то можно проверить, что выполняются следующие условия: m Cf+ Цй^и^*® при /si. Умножим на Xj ^ 0 обе части соответствующего неравенства. Поскольку fj (xj) = CjXj, gij (xj) = atjXj, получаем т f/(*/) + Y*uigif(xi)^Q при /gL и всех Х/^0. A1.37) Далее, из определения 2/ имеем т fj(xj) ~Ь iLUieu(xj)^^/ при jф L и всех af^Xj^bj. A1.38) Суммируя A1.37) по /eL, A1.38) по /^L и вычитая из по- т лученной суммы J] й^р/, получаем ^ S^/— S й/р/ для всех aj^Xj^bj. A1.39) Заметим, что af <Jc7 <6/f Zft/(i/)<P/ и й*>0. Тогда из A1.39) следует, что Е fj(xf)> Z 2, — Ya^tPh Таким образом, доказана справедливость первого неравенства в утвержде- утверждении 1 теоремы. В силу теоремы 11.3.4 х = (ii, ..., &0г —
480 ГЛ. II. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ п п допустимое решение задачи Р, так что ? f/ (xj) ^ zl f/ (¦#/)• Наконец, из-за выпуклости /у при / ^ L имеем S т. е. утверждение 1 теоремы доказано. Чтобы доказать утверждение 2, рассмотрим задачу LAP, описываемую соотношениями A1.23). Можно проверить, что условия дополняющей нежесткости из условий Куна — Таккера обеспечивают выполнение следующих равенств: g = 0 при J&L, A1.40) Uv/ [f/ (*v/) + ? Utgi] (Xvf) + б/J = 0 При V = 1, . . ., kh \ф1, A1.41) ut ? gu (*/) + E E ^v/g// (*v/) — P< I = 0 при i = 1 m. L/eL /^i v=l J ) [I Первое слагаемое в A1.43) в точности совпадает с ?, второе т kj равно в силу A1.42) ? й{р{. Кроме того, Z iv/= 1 при j&L, так как ^v/ допустимы в задаче LAP, определяемой соотноше- соотношениями A1.23). Отсюда т 2+E^P<+Et)/ = 0. A1.44) A1.42) Суммируя A1.40) no /gL, a A1.41)—-no v=l, ..., k\ и / ^ L, получаем /^v=l J /=1 L/eL + I E ^v/g^/ (*v/)l + E S Xv/o, = o. (i 1.43)
/г 11.3. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 481 К тому же из утверждения 1 теоремы следует, что T,2,-?uiPi<tfi(*,). (П -45) 1ФЬ Ы\ / = 1 Складывая A1.44) и A1.45), получаем У. lzi+ 0#) + ? ^ п Y fj (*/). По предположению z} + fy ^ 0 при j фЬ.х Тогда ?^Z//(*/)• Используя утверждение 1, получаем, что 2^ /г /г « п < ? // (*/) < 5 f/ (*/) < z> т- е- Z f/ (*/) = Z // U/). Поскольку x = (ii, ..., хпУ — допустимое решение задачи Р, то утвержде- утверждение 2 доказано. Для доказательства утверждения 3 рассмотрим такое опти- оптимальное решение jcy/, при котором z/ < —й/. Для этого решения т f/ (xyi) + Z uiSti (xyf) + й/ < 0. Тогда если точку ху! включить, в построение задачи LAP, то одно из условий Куна — Таккера, а т именно fi (Xyf) + Z uieu (xyf) + $i ^ 0, будет нарушено. Легко проверить, что введение *Y/ в разбиение не сделает значение це- целевой функции задачи LAP больше чем z. Ш Алгоритм построения точек разбиения Описанная ниже процедура может быть использована для ре- п шения задач следующего вида: найти минимум Z//(*/) ПРИ п условиях 2 gij (xj) ^0, / = 1, ..., m, и х}^0, / = 1, ..., п. Пусть L = {j: функции fj и gij при /=1, ..., т линейны}. Если функции gih i = 1, .,., m, / ф L, выпуклы и //, / ф L, стро- строго выпукла, то эта процедура, использующая симплексный ме- метод без правила, ограничивающего ввод в базис, будет давать оптимальное решение. Начальный этап. Определить a/, bj ^ 0 таким образом, что- чтобы для всех допустимых точек выполнялось Х/е[а/, bj] при }фЬ. Для каждого ]фЬ выбрать множество точек разбиения. Положить kj равным числу точек разбиения для J&L и пе- перейти к основному этапу. Основной этап. Шаг 1. Решить задачу LAP, описываемую соотношениями A1.23). Пусть i/, /eL, и ^v/, v= 1, ..., ft/, 16 М. Базара, К. Шетти
482 ГЛ. If. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ \ф.Ь, — оптимальное решение, щ — множители Лагранжа, свя- связанные с первыми т ограничениями, vj, ]фЬ, — множители Лагранжа условий ? uv/= 1. Перейти к шагу 2. Шаг 2. Для каждого }фЬ решить задачу минимизации т fj(xf)-\-Y*uigij(xj) при условии, что Я/ ^ Xj ^ 6/. Пусть г/ — ее оптимальное значение. Если z/ + #/ ^ 0 при всех / ^ L, оста- остановить процедуру — найдено решение х исходной задачи. Ком- понентами х являются к\ при / е L и xf = В противном случае перейти к шагу 3. Ш 3 +й ( +^ ПРИ < О и *vp-~ оптималь- оптимальШаг 3. Пусть гр + йр = тт(гг ное решение, для которого zp < —vp. Положить v = kp+ 1, за- заменить Нр на kp + 1 и перейти к шагу 1. 11.3.6. ПРИМЕР. Рассмотрим следующую сепарабельную за- задачу: 1 минимизировать при условиях х\ — xi — хо х\ — 8х2 — Так как целевая функция и функции ограничений линейны только по х3, то L = {3}. Начнем процедуру построения точек разбиения, выбрав в качестве начальных точек разбиения х\\ = =3X12=5*0. (Соответствующие столбцы имеют вид @, 0, 1, 0)г и @, 6, 0, 1)', а значения целевых функций равны нулю. Обозна- Обозначив через *4, хь дополнительные переменные, получим приве- приведенную ниже первую таблицу. На этом этапе хъ вводится в ба- базис, а хА выводится. При этом получается вторая таблица. 2 *4 *5 An А,2 2 1 0 0 0 0 An 0 0 0 1 0 А12 0 0 0 0 1 0.5 ф 0 0 0 х4 0 1 0 0 0 0 0 1 0 0 пч 0 5 3 1 1
Аи А12 11.3. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 483 А12 *3 Х4 х5 ПЧ 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 -0.5 1 0 0 0 0 0 1 0 0 -2.5 5 3 1 1 Заметим, что xf = ? KjXvI при /= 1, 2. Из последней таб- лицы имеем Л,п ===== Я12 = 1, так что х\ = х2 = 0. Поэтому теку- текущим решением является х=@, 0, 5)г и f(x)—— 2.5. Множи- Множители Лагранжа й\ и й2, связанные с ограничениями х\ + х2 + + аг3<5 и х\ — а:2<5, равны элементам, стоящим в нулевой строке под ха и jcs, но с обратным знаком, т. е. й\ = 0.5, й2 = 0. Множители Лагранжа v\ и v2f соответствующие ограничениям ?a,v1=1 и Z^v2= 1, равны элементам таблицы, стоящим в v v нулевой строке под А,ц и %\2 также с обратным знаком, т. е. дх = v2 = 0. Для того чтобы определить, нужна ли нощая точка разбиения, решим следующие две задачи: 2 минимизировать f{(х{) + 2 u.gn (xx) = х\ — 5.5^ при условии 0^atj^5; 2 минимизировать /2 (л:2) + 2 й^2 (а:2) = х\ — 7.5#2 при условии В первой задаче оптимальное решение ?i=2.75, а оптимальное значение целевой функции z\ = —7.56. Так как z\ + v\ = а» —7.56 < 0, то введение точки разбиения х\ = 2.75 могло бы улучшить значение целевой функции. Во второй задаче опти- оптимальное решение ?2 = 3.75, а оптимальное значение гг — — —14.06. Поскольку z2 + 02 — —14.06 < 0, введение в ка- качестве точки разбиения х2 = 375 также могло бы улучшить значение целевой функции. Так как min {zf + vf) = z2 + б2 ¦¦ =: 14.06, то в качестве новой точки разбиения берется х22 = 5=^2=3.75. Переменная, связанная с x22i обозначается через Х22. Итерация 2 Заметим, что ^12(^22) = 3.75, §22(^22)=—3.75, так что стол- столбец, соответствующий x22, имеет вид C.75, —3.75, 0, 1)г. Этот столбец требуется преобразовать, предварительно умножив его 16*
484 ГЛ. 11. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ на матрицу В-1, обратную к базисной. Из последней таблицы видно, что В-1 = I, и, следовательно, преобразованный столбец, соответствующий Я22, равен C.75L— 3.75, О, 1)Г. В нулевой стро- строке новый коэффициент равен — (z2 + v2) = 14.06. Ниже сначала приведена модифицированная таблица, затем таблица, получен- полученная при введении в базис Я22. Z *з Аи Аи Z 1 0 0 0 0 Аи 0 0 0 1 0 А12 0 0 0 0 1 А22 14.06 3.75 -3.75 0 Ф *3 0 1 0 0 0 х4 -0.5 1 0 0 0 0 0 1 0 0 пч -2.5 5 3 1 1 An х3 х4 ПЧ 1 0 0 0 0 0 0 0 1 0 -14.06 -3.75 3.7$ 0 1 0 0 0 0 1 0 1 0 0 0 -0.5 1 0 0 0 0 0 1 0 0 -16.56 1.25 6.75 1 Г Из последней таблицы видно, что Яц = Я22= 1 и Ki2 = 0. Так как %t = ? Kjxvi ПРИ / = 1, 2, то х\ = 0, а х2 = 3.75. Поскольку Хг = 1.25, текущим решением является х = @, 3.75, 1.25)т и /(х) = —17.19. Из таблицы получаем й\ = 0.5, й2 = 0, v\—Q и v2= 14.06. Так как значения й\ и й2 остались теми же, что и на первой итерации, то х\ = 2.75 и х2 = 3.75 остаются оптималь- оптимальными. Значения целевых функций 2\=— 7.56, z2 = —14.06. По- Поэтому min {2f + t)/} = zx + v{ = — 7.56, и в качестве новой точки разбиения вводится х2\ = х\ = 2.75. Переменную, соответствую- соответствующую х2и обозначим через Х2\. Итерация 3 Заметим, что ?п(л:21) = 2.75, gi (x2i) = 7.56, так что х2{ соот- соответствует столбец B.75, 7.56, 1, 0)г. Из последней таблицы вид- видно, что обратная к базисной матрица В имеет вид Н 0 0 -3.75т 0 1 0 3.75 0 0 1 0 В -1. -0 0 0 1
11.3. СЕПАРАБЕЛЬНОЕ ПРОГРАММИРОВАНИЕ 485 Следовательно, преобразованный столбец для Х2\ равен В-1 B.75, 7.56, 1, ОO = B.75, 7.56, 1, 0)г. Элемент в нулевой строке, соответствующий Я2ь равен —Bi + #i) =—7.56. Ниже приведены сначала соответствующая этой ситуации таблица и затем таблица, полученная после ввода в базис %2\- Z Хз хь Ап А22 Z 1 0 0 0 0 Ап 0 0 0 1 0 А21 7.56 7.56 1 0 А,2 -14.06 -3.75 3.75 0 1 А22 0 0 0 0 1 х3 0 1 0 0 0 хА -0.5 1 0 с 0 х, 0 0 1 0 0 пч -16.56 1.25 6.75 1 1 Z 1 0 0 0 0 Ап 0 0 0 1 0 А2. 0 1 0 0 0 А12 -3.78 -1.36 14.03 1.36 1 ,А22 0 0 0 0 1 Ху -2.72 0.36 -2.72 -0.36 0 хл -3.22 0.36 -2.72 -0.36 0 0 0 1 0 0 пч -19.96 0.45 3.35 0.55 1 А2, Отсюда Ли = 0.55, \2\ = 0.45, ~%\2 = 0, %22 = 1. Тогда хх = = 1.25, ^2 = 3.75 и текущее решение равно х = A.25, 3.75, 0)г, а /(х) = — 21.88. Из последней таблицы щ = 3.22, й2 = 0, t>i = О и v2 = 3.78. Для того чтобы выяснить, требуется ли вводить но- новую точку разбиения, решим две следующие задачи: 2 минимизировать f{ (х^ + Д] u.gn (х{) = х\ — 2.78л: при условии минимизировать при условии /2 (х2) X = х\ ~~ 4.78д:2 Оптимальным решением первой задачи будет х\ = 1.39, а оптимальным значением г\ = —1.93. Оптимальным решением второй задачи будет *2 = 2.39, a z2 = —5.71. Тогда min {г/ + vf}= = z{ + v{ = г2 + ^2 = — 1-93. Поэтому в качестве новой точки разбиения можно вводить либо х\ = 1.39, либо #2 = 2.39. Заме- Заметим, что 2 2 ? г,- ?^ = -23.74, а /(?) — -21.8& /1 ii
486 ГЛ. II. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ В силу утверждения 1 теоремы 11.3.5 оптимальное значение це- целевой функции исходной задачи лежит между —23.74 и —21.88. На этой стадии остановим алгоритм, найдя допустимое решение х = A.25, 3.75, 0)т, для которого f(x) = — 21.88. При этом из- известно, что нижней границей значений целевой функции исход- исходной задачи является —23.74. Если желательна большая точ- точность при нахождении решения, то процесс можно продолжить, введя новую точку разбиения х%\ = 1.39 или xz2 = 2.39. 11.4. Дробно-линейное программирование В этом параграфе рассматривается задача, в которой целевая функция является отношением двух линейных функций, а огра- ограничения линейны. Такие задачи называются задачами дробно- линейного программирования и могут быть записаны следующим образом: ох -4- о, минимизировать Ит — при условиях Ах = Ь, х>0, где р, q — векторы из Еп, Ъ — вектор из Em, A — матрица по- порядка тХя> а и р —скаляры. Ниже будет показано, что если задача дробно-линейного программирования имеет оптимальное решение, то существует экстремальная точка, на которой оно достигается. Кроме того, каждый локальный минимум является и глобальным. Следовательно, процедура, при которой происхо- происходит движение от одной экстремальной точки к соседней, оказы- оказывается весьма привлекательной для решения такой задачи. При- Приведенная ниже лемма 11.4.1 дает некоторые важные свойства целевой функции. 11.4.1. ЛЕММА. Пусть f(x) = (prx + a)/(qrx + Р), S —вы- —выпуклое множество, причем qrx -f Р Ф 0 на S. Тогда / одновре- одновременно и псевдовыпукла, и псевдовогнута на S. Доказательство. Прежде всего заметим, что либо qrx + Р > О для всех х е5, либо qrx + р < О для всех xeS. В противном случае существуют такие xj и х2» что qrxi + р > 0, а qrX2 + Р < < Q, и, следовательно, найдется некоторая их выпуклая комби- комбинация х, для которой q7x + p = 0, что противоречит предполо- предположению. Покажем сначала, что функция f псевдовыпукла. Предполо- Предположим, что хь хцЕ^и (х2 —Xi)rV(xi) ^0. Требуется показать,
11.4. ДРОБНО-ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ 487 что f(x2)^/(xi). Заметим, что _ (qrx, + Р) Р - (рГх, + a) q Так как (х2 —XiO'V/(xi)> 0 и (qrxi + рJ> 0, то О < (х2 - х{р [(qTx{ + р) р - (pTXl + a) q] - = (ртх2 + а) (qrXl + р) - (qrx2 + Р) (ртхг + а). Поэтому (ргх2 + а) (qrxi + р) ^ (qrx2 + P) (prxi + а). Поскольку q7xi + Р и qrx2 + P одновременно либо положительны, либо от- отрицательны, то, разделив обе части неравенства на (qrxi )X X (qrx2 + p) > 0, получим и, следовательно, f — псевдовыпуклая функция. Аналогичным образом показывается, что если (х2 — x\)TVf(xi) ^ 0, то /(х2)^ ^ /(xi), т. е. что / — псевдовогнутая функция. ¦ Из этой леммы можно сделать следующие выводы относи- относительно задачи дробно-линейного программирования: 1. Так как целевая функция является как псевдовыпуклой, так и псевдовогнутой, то в силу теоремы 3.5.11 она является также квазивыпуклой, квазивогнутой, строго квазивыпуклой и строго квазивогнутой. 2. Так как целевая функция является как псевдовыпуклой, так и псевдовогнутой, то в силу теоремы 4.3.7 точка, удовлетво- удовлетворяющая условиям Куна — Таккера для задачи минимизации, является также точкой глобального минимума на допустимой области. Точно так же точка, удовлетворяющая условиям Куна — Таккера для задачи максимизации, является точкой глобального максимума на допустимой области. 3. Так как целевая функция как строго квазивыпукла, так и строго квазивогнута, то в силу теоремы 3.5.6 локальный мини- минимум является также и глобальным на допустимой области. Точ- Точно так же локальный максимум является глобальным на до- допустимой области. 4. Так как целевая функция как квазивыпукла, так и квази- квазивогнута, то в случае ограниченности допустимой области по тео- теореме 3.5.3 целевая функция достигает минимума в экстремаль- экстремальной точке. Максимум также достигается в экстремальной точке допустимой области. Полученные выводы относительно целевой функции / приво- приводят к очень полезным результатам, которые могут быть исполь-
488 ГЛ. П. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ зованы для построения Подходящих вычислительных процедур решения задач дробно-линейного программирования. В частно- частности, поиск может проводиться среди экстремальных точек много- многогранного множества {х: Ах = b, x ^ 0} до тех пор, пока не бу- будет найдена точка Куна — Таккера. Ниже будет показано, что эффективной процедурой решения задачи дробно-линейного про- программирования является выпуклый симплексный метод. Минимизация с помощью выпуклого симплексного метода Из-за специальной структуры целевой функции f выпуклый симплексный метод упрощается, превращаясь в незначительную модификацию симплексного метода решения задачи линейного программирования. Предположим, что задана некоторая экстре- экстремальная точка допустимой области с базисом В, для которой хв = В-1Ь>0, хлг = О. Напомним (§ 10.5), что в выпуклом симплексном методе увеличивается или уменьшается одна из внебазисных компонент и затем в соответствии с этим пересчи- тываются базисные переменные. Так как текущая точка яв- является экстремальной и Xn = 0, то уменьшение внебазисных пе- переменных невозможно, поскольку оно привело бы к нарушению условия неотрицательности. Поэтому процесс нахождения на- направления спуска упрощается следующим образом. Пусть г# — внебазисные компоненты приведенного градиента гг= V/(x)r — — V5/(x)rB-1A, т. е. Если rN ^ 0, то по теореме 10.5.1 текущая точка является точ- точкой Куна — Таккера, и процедура останавливается. В против- противном случае выберем —г/ = тах{—г г. ri ^ 0}, где п есть /-я ком- компонента вектора rN. Внебазисная переменная х\ увеличивается, а базисные пересчитываются так, чтобы сохранить допустимость решения. Подобная процедура эквивалентна движению вдоль направления d, базисные ds и внебазисные dw компоненты ко- которого определяются следующим образом: d# — вектор, у кото- которого на /-м месте стоит 1, а на остальных местах нули, a dB = = —В а/, где а/ есть /-й столбец матрицы А. По теореме 10.5.1 вектор d является возможным направлением спуска. Как будет показано в лемме 11.4.2, никакого линейного поиска вдоль на- направления d проводить не требуется. Действительно, при V/(xOd<0 в силу специальной структуры целевой функции функция / продолжает убывать при движении вдоль d. Таким образом, нужно двигаться вдоль d до тех пор, пока это возмож- возможно. Поскольку движение вдоль d эквивалентно увеличению вне- базисной переменной и преобразованию базисных переменных,
П.4. ДРОБНО-ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ 489 то нужно двигаться вдоль d, пока базисная переменная не пре- превратится в нуль и выйдет из базиса, порождая соседнюю экстре- мальную точку. Затем процесс повторяется. 11.4.2. ЛЕММА. Пусть /(х) = (ртх + a)/(qrx + p), 5 —вы- —выпуклое множество и qTx + Р ф О на 5. Зафиксируем некоторый xsS. Пусть вектор d таков, что Vf(x)rd<0. Тогда /(x + ^d) — убывающая функция от X. Доказательство. Заметим, что Положив y = x + A,d, 5 = [qr(x + ^d) + p]2>0 и 5/ = (q7'x-f + РJ > 0, получим = [дГ (* + *d) + Pip - [рГ (х + Ы) + a]q = V/ (Х+ Ad) Поэтому V/ (х + Ы)т d - ± V/ (xf d + A [(qrd) (p'd) - = ?V/(xfd. A1.47) Обозначим G (X) = / (x + Xd). Тогда из A1.47) следует, что Q'(%) = v/ (x + ^d)rd < 0 для всех Я. ¦ Таким образом, если заданы экстремальная точка х и на- правление d, для которого V/(xOd<0, то нет необходимости в минимизации / вдоль d, так как /(x + Ad) — убывающая функ- функция от X. Поэтому движение вдоль d производится до тех пор, пока это возможно, т. е. пока не будет получена соседняя экстре- экстремальная точка. Затем процесс повторяется. Более точное изло- изложение алгоритма, использующее таблицы для построения по- последовательности экстремальных точек, приведено ниже. Алгоритм Гилмора и Гомори для решения задачи дробно-линейного программирования Здесь приведен алгоритм, предложенный Гилмором и Гомори (Gillmore and Gomory [1963]), для решения задач дробно-ли- дробно-линейного программирования следующего вида: минимизировать (ргх + a)/(qrx + Р) при условии xgS = {x: Ax = b, х>0}.
490 ГЛ. 11. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ Будем предполагать, что S — ограниченное множество и qrx + р ф 0 при всех xeS. Начальный этап. Найти базисное допустимое решение Xi си- системы Ах = Ь, х ^ 0. Сформировать соответствующую таблицу, представляющую Хв + B-^Nx^ = B-1b. Положить k=\ и пе- перейти к основному этапу. Основной этап. Шаг 1. Вычислить вектор rTN == yNf (xk)T — —VBf (xkY B~lN. Если rN ^ 0, то остановиться; текущее решение xk оптимально. В противном случае перейти к шагу 2. Шаг 2. Пусть —r/ = max{—п\ л^О}, где г,- есть /-я ком- компонента вектора rN. Определить базисную переменную хв , вы- выводимую из базиса, где индекс г определяется при помощи сле- следующего критерия минимального отношения: |L: yu>0). УП Здесь b = B-!b, у/ = В а/, а/ есть /-й столбец матрицы А. Пе- Перейти к шагу 3. Шаг 3. Заменить переменную хв переменной xj. Преобра- Преобразовать таблицу в соответствии с ведущим элементом уП-. Обо- Обозначить текущее решение через х#+ь Присвоить k значение Л+1 и перейти к шагу 1. В упр. 11.32 показывается, что приведенный градиент г# мо- может быть легко вычислен, если ввести две дополнительные стро- строки, соответствующие ргх + а и qrx + p, и пересчитывать их на каждой итерации. Конечность числа шагов процедуры Предположим, что хв > 0 для каждой экстремальной точки. Алгоритм обеспечивает движение от одной экстремальной точки к другой. В предположении о невырожденности из леммы 11.4.2 следует, что целевая функция строго убывает на каждой итера- итерации, так что генерируемые процессом экстремальные точки раз- различны. Поскольку число точек конечно, то алгоритм остановится через конечное число шагов. Критерием остановки является не- неотрицательность приведенного градиента, показывающая, *Гго найдена точка Куна — Таккера. В силу леммы 11.4.1 эта точка является оптимальной-
II.4. ДРбВНО-ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ 491 D,6} @,4) (о, о) G, о; f Рис. 11.5 Допустимая область для примера 11.4.3. 11.4.3. ПРИМЕР. Рассмотрим задачу 2*i -f x2 + 2 минимизировать при условиях хх + Зл;2 хи х2 > 0. Допустимая область задачи изображена на рис. 11.5. Ее эк- экстремальными точками являются @, 0), @, 4), B, 6), D, 6) и G, 0). Целевая функция в этих точках принимает значения 0.5, 0.375, 0.167, 0.0 и —1.09 соответственно. Следовательно, оп- оптимальной является точка G.0). Вводя дополнительные переменные дгз, х*, *5, получим на- начальную экстремальную точку xi=@, 0, 4, 6, 14)т. Итерация 1 Результаты вычислений на этой итерации приведены в таб* лице. Х\ х% х$ Хд х$ ПЧ Хз *4 Xs Ж -1 0 2 1 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 - 4 6 14 -
ГЛ. it. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ Здесь q^i + P — 4 и t>fx,-fct = 2. Следовательно, из A1.46) Получаем, что V/ (х)*1 - (- -Ц. - 4" • °> °* °) • v«f(х)Г а _ ^ ~ JL) и VBf (Х)^(О, 0, 0). Столбцы <! й 1 образом получаем, что г? = (г,, г») = V*f (x,)r - VBf (x./lT'N = Заметим, что ттв = (г3, г4, г5) = @, 0, 0). Так как max {- г J = -jg , то х\ вводится в базис. По критерию минимального отношения Хъ выводится из базиса. Итерация 2 Результаты вычислений на этой итерации приведены в таб- таблице: х3 х4 г X, -Hi 0 0 1 0 х2 1 1 » xs О 1 0 0 0 х4 0 О 1 0 0 х5 О h 0 А пч - 11 6 7 - После замены хъ в базисе на хг получаем точку х? = *=G, 0, 11, 6,0). Тогда qrx2 + P=H и р71х2 + « = — 12, так что из A1.46) Vf (х2)г=(~-щ-, -§-, 0, 0, О). Матрица BN опре- определяется столбцами таблицы, соответствующими х2 и хь. Отсюда tTN = (r2, г5) = Vjvf (x2f - VBf (x/B""]N = Г 2 1 1 L 2 1 -. 2 0 i 2 J
11.4, ДРОЁНО-ЛИНЁЙНОЁ ПРОГРАММИРОВАНИЕ 403 Так как rN > 0, то процедура останавливается — найдено оптимальное решение: х\ — 7, хч = 0. Соответствующее значе- ние целевой функции равно —1.09. Метод Чарнса и Купера (Charnes and Cooper [1962J) Здесь будет описана другая процедура, использующая симплекс- симплексный метод для решения задачи дробно-линейного программи- программирования. Рассмотрим задачу минимизировать при условиях Предположим, что S = {х: Ах ^ Ь, х ^ 0} — компакт и qrx + Р > 0 для каждого х е S. Если сделать замену перемен- переменных, положив г=1/(ягх+Р) и у = гх, то рассматриваемая задача сведется к следующей задаче линейного программиро- программирования: минимизировать ргу + ог при условиях Ау — Ьг<0, Прежде всего отметим, что если (у, г) — допустимое решение этой задачи, то z > 0. Действительно, если z = 0, то у Ф 0, причем Ау ^ 0 и у ^ 0. Отсюда следует, что вектор у является направлением множества S, что противоречит компактности 5. Покажем теперь, что если (у, г) — оптимальное решение за- задачи линейного программирования, то x = y/z — оптимальное решение исходной задачи дробно-линейного программирования. Очевидно, что Ах < b и х ^ 0, т. е. х — допустимое решение исходной задачи. Для того чтобы показать, что х — оптималь- оптимальное решение, рассмотрим произвольный вектор х, для которого Ах ^ Ь, х ^ 0. По предположению qTx + р > 0, т. е. (у, г), где у = x/(q7x+ P) и z = l/(q7'x + P), — допустимое решение за- задачи линейного программирования. Так как (у, г)—оптималь- г)—оптимальное решение линейной задачи, то pry + az ^ ргу + ах. Подстав- Подставляя в это неравенство значения у> У и г, получим г(р7х + а)^ ^(pTx + a)/(qTx + P). Разделив левую часть неравенства на qry + рг = 1, убеждаемся в оптимальности х. Если же qrx + Р < 0 при всех х е 5, то, сделав замену —z= l/(qrx + p) и у = гх, получим следующую задачу ли-
494 ГЛ. II. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ нейного программирования: минимизировать — pry — az при условиях Ау — Ьг<0, — qry — рг=1, У>0, Точно так же, как и в предыдущем случае, показывается, что если (у, г) решение этой задачи, то x = y/z— решение исход- исходной задачи дробно-линейного программирования. Итак, показано, что задача дробно-линейного программиро- программирования может быть сведена к задаче линейного программирова- программирования с одной дополнительной переменной и одним дополнитель- дополнительным ограничением. Вид задачи линейного программирования за- зависит от знака qrx + р при всех xeS. Если существуют точки Xi, x2 e S, такие, что qTx\ + Р > 0, a qrx2 + Р < 0, то значения целевой функции задачи дробно-линейного программирования неограниченны на S. 11.4.4. ПРИМЕР. Рассмотрим задачу — 2х 1 y минимизировать LJ LJ , л Xi + 6Х2 + 4 при условиях — хх + х2 ^ 4, хих2>0. Допустимая область этой задачи изображена на рис. 11.5. Ре- Решим эту задачу, используя метод Чарнса и Купера. Заметим, что точка @,0) допустима и что —х\ + Ъх2 + 4 > 0 в этой точке. Следовательно, знаменатель в целевой функции положителен на всей допустимой области. Эквивалентная задача линейного про- программирования имеет вид минимизировать — 2ух + у2 + 2z при условиях — уг + у2 — Az < О, Уъ Уъ Можно проверить, что у\ = ур, у2 = 0, z = ур — оптималь- оптимальное решение этой задачи. Следовательно, оптимальным реше- решением исходной задачи является вектор {хи х2)т, где *i = y\/z = = 7, Х2 = У2/г = 0.
УПРАЖНЕНИЯ 495 Упражнения 11.1. Рассмотрим линейную задачу дополнительности, состоящую в нахо- нахождении такого вектора (w, z), что w — Mz = q, wrz = О и w, z > О, где M = 1 2- 0 1 -1 2 1 0 0 0 -1 1 0 0 -2 -2 > <j = -1 3 -2 -4 a) Является ли матрица М сильно коположительной? b) Примените приведенный в § 11.1 алгоритм Лемке для решения этой задачи. 11.2. Используя алгоритм Лемке, найдите полное базисное допустимое ре- решение системы w — Mz = q, wrz = 0, w, z ^ 0, где 1 2 1 1 3- 1 4 3 1 2 1 4 1 2 1_ > q -Г to. 1 11.3. Рассмотрим задачу линейного программирования: минимизировать сГх при условиях Ах = Ь, a) Выпишите систему Куна — Таккера для этой задачи» b) Используйте алгоритм дополнительного ведущего преобразования для решения системы Куна — Таккера для следующей задачи: минимизировать — Х\ — 3*2 ПрИ УСЛОВИЯХ Х\ + #2 хи с) Выполните задание „Ь" для случая, когда первое ограничение замене- заменено на Хг ^ 6. 11.4. В § 11.1 по ходу доказательства теоремы 11.1.8 было показано, что если система w — Mz = q, w, z ^ 0 совместна и матрица М сильно кополо- жительна, то система, определяемая соотношениями A1.1)—A1.3), разре- разрешима. Докажите это непосредственно. 11.5. Пусть в матричной игре двух лиц у первого игрока имеется m воз- возможных стратегий, а у второго /г. Если первый игрок выбирает стратегию /, а второй — стратегию /, то проигрыш первого равен а//, а второго — Ьц. Обозначим матрицы проигрыша игроков через А и В, где ац и &//—-элемен- &//—-элементы, расположенные в позиции // в матрице А и В соответственно. Если пер- первый игрок выбирает стратегию i с вероятностью xif а второй — стратегию /
496 ГЛ. П. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ с вероятностью *//, то ожидаемые потери двух игроков равны соответственно х^Ау и хгВу. Говорят, что пара стратегий (х, у) является равновесной, если —. т х^Ау <хгАу для всех х^О, таких, что ^ #* = 1, _____ п хгВу <х^Ву для всех у^О, таких, что J] ^/ = 1. a) Покажите, как найти равновесную пару (х, ~у), сформулировав подхо- подходящую линейную задачу дополнительности вида w — Mz = q, wTz = 0, w, z ^ 0. b) Исследуйте свойства матрицы М. Проверьте, имеет ли задача допол- дополнительности решение. c) Найдите равновесную пару для следующих матриц потерь: Г2 4 31 _ П 3 51 11.6. Следующая задача обычно называется нелинейной задачей допол- дополнительности. Найти такую точку х е Еп> что х ^ 0, g(x) ^ 0 и xrg(x)=0, где g: En-+En — непрерывная вектор-функция. a) Покажите, что линейная задача дополнительности является частным случаем сформулированной выше задачи. b) Покажите, что условия оптимальности Куна —- Таккера для задачи нелинейного программирования могут быть записаны в виде нелинейной за- задачи дополнительности. c) Покажите, что если g обладает сформулированным ниже свойством сильной монотонности, то нелинейная задача дополнительности имеет един- единственное решение. (Полное доказательство приведено у Карамардиана (Ка- ramardian [1969]).) Говорят, что функция g сильно монотонна, если существует такое е > 0, что (у - х)т [g (у) - g (х)] > е || у — х ||2. d) Можете ли вы построить схему решения нелинейной задачи допол- дополнительности? 11.7. В этом упражнении описывается метод главного ведущего элемента, предложенный Коттлом и Данцигом (Cottle, Dantzig [1968]), для решения линейной задачи дополнительности w — Mz = q, wrz = 0, w, Если система имеет решение, М — положительно определенная матрица и каждое базисное решение этой системы невырождено, то алгоритм останав- останавливается через конечное число шагов, приводя к полному базисному допу- допустимому решению. Начальный этап. Взять в качестве начального базисного решения w = q, z = 0 и сформировать соответствующую таблицу. Перейти к основному этапу. Основной этап. Шаг 1. Пусть (w, z) — полное базисное решение, у ко- которого z ^ 0. Если w ^ 0, то процедура останавливается; (w, г)— полное базисное допустимое решение. Пусть Wk < 0. Положить v равным дополни- дополнительной к Wk переменной и перейти к шагу 2,
УПРАЖНЕНИЯ 497^ Шаг 2. Увеличивать v до тех пор, пока либо до* станет равным нулю, либо какая-нибудь базисная положительная переменная уменьшится до нуля. В первом случае перейти к шагу 1, предварительно преобразовав таблицу. Во втором — преобразовать таблицу, выбрав ведущий элемент, положить v равным переменной, дополнительной к только что выведенной из базиса, и по- повторить шаг 2. a) Покажите, что на каждой итерации шага 2 ш* возрастает, пока не достигнет нулевого значения. b) Докажите, что алгоритм сходится к полному базисному допустимому решению за конечное число шагов. c) Может ли метод быть использован для решения задачи квадратичного программирования, где целевая функция строго выпукла? 11.8. Решите с помощью алгоритма дополнительного ведущего преобразо- преобразования систему Куна — Таккера для следующей задачи: минимизировать Бх{ + 6*2 •— 12лг3 + 2х] + 4*| + 6лг| — 2*1*2 — ПрИ УСЛОВИЯХ — *i + 2*2 < 4, Хи *2, #3 > 0. 11.9. Решите с помощью алгоритма дополнительного ведущего преобра- преобразования следующую задачу квадратичного программирования: минимизировать 2х{ — 3*2 — х\ — Ъх{х2 — 2х\ при условиях *i + 2*2 <[ 6, — *! +2*2<4, *Ь *2>0. 11.10. Рассмотрим задачу минимизировать стх + -^ хтИх при условиях Ах = Ь, х>0. a) Выпишите условия Куна — Таккера. b) Предположим, что х удовлетворяет условиям Куна — Таккера. Обяза- Обязательно ли х — точка глобального или локального минимума? c) Покажите, что если матрица Неположительно полуопределена на ко- конусе возможных направлений в точке х, то х — глобальное оптимальное ре- решение. т 1 г 11.11. Рассмотрим задачу минимизации сх + ~хНх при условиях Ах == Ь, х ^ 0. Кроме того, рассмотрим следующую задачу минимизировать сгх — Ъти при условиях Ах = Ь, vrx == 0, х, у > 0, и без ограничений.
496 ГЛ. И- ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ a) Покажите, что решение последней задачи дает точку с минимальным среди всех точек Куна — Таккера значением целевой функции. Следует ли отсюда, что решение этой задачи является глобальным минимумом? b) Приведите геометрическую интерпретацию целевой функции послед- последней задачи. c) Предложите процедуру решения последней задачи и проиллюстрируй- проиллюстрируйте ее, решив следующую задачу: минимизировать — {Х{ — IJ — (х2 — IJ при условиях — Xi + 2*2 + х3 =4, Х\ + Х2 +#4 =~4, 3*i — 2*2 + х5 = 8, 11.12. В этом упражнении описывается процедура, являющаяся модифи- модификацией метода, предложенного Вулфом (Wolfe [1959]), для решения задачи квадратичного программирования следующего вида: минимизировать стх + -^- хгНх при условиях Ах = Ь, х где А — матрица порядка тХ« ранга т. Условия Куна — Таккера для этой задачи могут быть записаны в виде Ах = Ь, Нх + Аги - v = - с, х, и В методе прежде всего находится базисное допустимое решение системы Ах = Ь, х ^ 0. Используя это решение и записывая А в виде [В, N] и соот- соответственно Н в виде [Hi, H2], где В — базис, можно переписать последнюю систему следующим образом: x^ + B-iNx^B-1!), [Н2 - H{B~lN] xN + ATu - v -» - Н{Ъ~1Ъ - с, BiNy, и без ограничений. Здесь вначале вводятся п искусственных переменных в последних п огра- ограничениях с коэффициентом,, +1, если (HiB-1b + с)/< 0, и с коэффициен- коэффициентом —1, если (HiB-^b+c) >0. Тогда получаем базисное допустимое ре- решение приведенной выше системы с начальным базисом, состоящим из х5 и искусственных переменных. Затем для нахождения точки Куна — Таккера используется симплексный метод. При этом минимизируется сумма искусственных переменных. Для сохранения условия дополняющей не- нежесткости принимается следующее правило, ограничивающее ввод в базис. Если Xj — базисная переменная, то V/ не может вводиться в базис до тех пор, пока по критерию минимального отношения Х\ не будет выведена из базиса. И наоборот, если vj — базисная переменная, то Xj не может вводиться в ба- базис, пока Vj не будет выведена из базиса по критерию минимального отно- отношения. а) Какие изменения требуется ввести в процедуру, если Ах = b заменено на Ах < Ь?
УПРАЖНЕНИЯ Ш Ь) Используйте этот метод для решения следующей задачи квадратичного программирования: минимизировать х\ -}- ххх2 + 6#| — %х{ + &*2 ПрИ УСЛОВИЯХ Х\ + 2*2 c) Покажите, что при отсутствии вырожденности и при выполнении лю- любого из приведенных ниже условий описанный метод приводит к точке Ку- Куна — Таккера за конечное число шагов. (i) Матрица Н положительно полуопределена и с = 0. (И) Матрица Н положительно определена. (ш) Матрица Н неотрицательная с положительными диагональными эле- элементами. d) Пусть Н — положительно полуопределенная матрица и минимальное значение суммы искусственных переменных не равно нулю. Покажите, что в этом случае задача квадратичного программирования не имеет ограниченного решения. e) Решите методом Вулфа следующую задачу квадратичного програм- программирования: минимизировать — 4хх — 6*2 -f х\ — 2х{х2 + х\ при условиях 2дг, + х2 < % т 1 т 11.13. Рассмотрим задачу минимизации <гх + -?-х'Нх при условиях Ах < Ь, х ^ 0. Для простоты будем считать, что b ^ 0. Условия Куна ~> Таккера для этой задачи могут быть записаны в виде r-b, -Нх-Аги + у«с, vrx = 0, ury — О, x, у, a. v > О. Введем искусственную переменную г и рассмотрим следующую задачу: минимизировать г при условиях Ах + у = Ь, х, у, u, v>0, где i-я компонента вектора е определяется по формуле '— 1, если Cf<0, О в противном случае. Приведем алгоритм модификации метода Вулфа, описанного в упр. 11.12, для решения системы Куна — Таккера.
goo гл. тт. линейная дополнительность Шаг 1. Начнем с у и v как с базисных переменных. Заметим, что некотб- рые компоненты вектора v могут быть отрицательными. Пусть vr — наиболь- наибольшая по абсолютной величине отрицательная компонента. Выбрать ведущий элемент в строке vr и столбце 2, так что vr выводится из базиса. Теперь имеем базисное решение, для которого z > 0 и все переменные неотрицатель- неотрицательны. Заметим, что x,vj = 0 и щуь = 0. Шаг 2. Минимизировать z симплексным методом с учетом правила, огра- ограничивающего ввод в базис, так что иф = 0 при i = 1, ..., т и vjXj = 0 при / = 1, ..., п. — a) Решите задачу из примера 11.2.1 предложенным методом. b) Предположим, что матрица Н положительно полуопределена. Пока- Покажите, что предложенный алгоритм либо приводит к решению исходной задачи, либо указывает, что целевая функция задачи неограниченна. c) Покажите, что если вычеркнуть строку целевой функции, то алгоритм дополнительного ведущего преобразования, обсуждаемый в § 11.1, может быть использован для решения системы Куна — Таккера. В этом случае пере- переменная вводится в базис автоматически, если на предыдущей итерации допол- дополнительная к ней переменная была выведена. Здесь */ и i>/, а также щ и щ — дополнительные переменные. 11.14. В этом упражнении описывается метод, предложенный Данцигом (Dantzig [1963]), для решения задачи квадратичного программирования сле- следующего вида: минимизировать -гх Нх при условиях Ах = Ь, х>0, где Н — положительно полуопределенная матрица. Условия Куна — Таккера для этой задачи имеют вид / 0, /—1, ...,«, x,v>0. Процедура строится так, что первые два условия и условие неотрица- неотрицательности х всегда выполняются. Ограничение v>0 выполняется только на оптимальном решении. Кроме того, на каждой итерации выполняется равен- равенство VfXf =*= 0 при всех /, за исключением, может быть, одного. Начальный этап. Пусть (х?, х#) — базисное решение системы Ах = Ь, х>0и v = (\гд, vjjj). Рассмотрим базисное решение всей системы с базис- базисными векторами хв, u, vn. Заметим, что это решение удовлетворяет всем огра- ограничениям, за исключением, быть может, v ^ 0. Так как на и не наложены ограничения и так как алгоритм допускает нарушение ограничения v ^ 0, когда переменная входит в базис, то для вывода из базиса могут выбираться топько переменные */. Основной этап. Шаг L Если v ^ 0, то процесс останавливается. Текущее решение оптимально. В противном случае положить vj = min {vr. vi < 0}. Перейти к шагу 2. Шаг 2. Ввести х\ в базис. Если выводится i>/, повторить *шаг 1. В про- противном случае выводится хг при некотором г. Перейти к шагу 3. Шаг 3. Ввести vr в базис. Если при этом выводится vj, перейти к шагу 1. Если же выводится Xk> повторить шаг 3, предварительно заменив vr на v*
УПРАЖНЕНИЯ B6i а) Используя описанный метод, решите следующую задачу: минимизировать х\ + 2х\ — х{х2 ПрИ УСЛОВИЯХ — Х\ + #2 < О, 2*1 + х2 < 10, b) Докажите, Что метод приводит к оптимальному решению за конечное число шагов. c) Рассмотрим задачу, предложенную Финкбейнером и Колом (Finkbeiner and Kail [1973]): минимизировать — х\ + тгх\ + 3atj + 7хг + *4 при условиях xi + 2х2 + *з =8, *i + 2*2 + *4 = 5, Примените к ее решению описанный выше алгоритм, взяв в качестве ба- базисных переменных Xi = 2, Хъ = 3, «i = 2, иг = 7, Уз = 9, U4 = —6. Заме- Заметим, что после одной итерации переменная Vi должна бы вводиться в базис, но нет подходящей переменной, которая могла бы покинуть базис, так что метод не приводит к успеху, если в целевую функцию входят линейные члены. d) Приведем модификацию шага 3, предложенную Финкбейнером и Ко- Колом. Если ни одна переменная не покидает базис при вводе в него vr, то уве- увеличить vr в случае, когда V/ не убывает, или уменьшить, когда Vj убывает, не нарушая неотрицательности вектора х. Решите этим методом задачу из п. „с" и покажите, что эта процедура работает и в общем случае. 11.16. В § 11.2 был описан метод дополнительного ведущего преобразо- преобразования для решения задачи квадратичного программирования следующего вида: минимизировать сгх + -^хтНх при условиях Ах = Ь, х^О. Было показано, что если Н — положительно полуопределенная матрица и с = 0 или если Н — положительно определенная матрица, то метод приводит к оптимальной точке. Приведенная ниже модификация метода, дающая воз- возможность использовать его, когда Н — положительно полуопределенная мат- матрица, аналогична методу, предложенному Вулфом (Wolfe [1959]). Шаг 1. Применить алгоритм дополнительного ведущего преобразования к задаче, в которой с заменено нулем. В силу теоремы 11.2.4 будет получено полное базисное допустимое решение следующей системы: я 0 при / = 1, ... , п, х, v > 0, и не имеет ограничений. Шаг 2. Взять в качестве начальной точки решение, полученное на шаге 1. Придерживаясь правила, что xj и v,- не могут быть в базисе одновременно,
602 ГЛ. II. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ решить симплекс-методом следующую задачу; минимизировать г при условиях Ах = Ь, * х, v ^ 0, г ^ 0, и не имеет ограничений. На оптимальном решении либо г = О, либо z = оо вдоль некоторого экстре- экстремального направления. В первом случае оптимальное решение задачи квадра- квадратичного программирования неограниченно. Во втором — оптимальное решение задачи квадратичного программирования определяется, если положить г = 1 вдоль луча, порождающего неограниченное решение. a) Покажите, что если оптимальное значение целевой функции задачи, решаемой на шаге 2, конечно, то оно должно быть равным нулю. Покажите, что в этом случае оптимальное значение целевой функции исходной задачи неограниченно. b) Покажите, что если оптимальное значение z = оо, то точка, лежащая на оптимальном луче, для которой г = I, все же сохраняет условие допол- дополняющей нежесткости и, следовательно, является оптимальным решением ис- исходной задачи. c) Решите задачу из примера 11.2.1 с помощью описанного метода. 11.16. В этом упражнении приводится метод Франка и Вулфа (Frank and Wolfe [1956]) для решения задачи квадратичного программирования. Этот метод обобщает аналогичные процедуры Баранкина и Дорфмана (Barankin and Dorfman [1955]). Рассмотрим задачу минимизации стх + -дГхГНх при условиях Ах ^ Ь, х ^5 0, где матрица Н положительно полуопределена. а) Покажите, что условия Куна — Таккера могут быть представлены в виде Ах + xs — b, Нх — u + Arv — — с, urx + vrx5 й- О, х, xs, u, v Эту систему можно переписать как Еу = d, у = 0, угу = 0, где ГА!О ° 1 b) Рассмотрим задачу минимизировать угу при условиях Еу =d, у>0. Покажите, что допустимая точка у, удовлетворяющая равенству угу я 0, является точкой Куна —• Таккера исходной задачи. c) Используйте метод Франка — Вулфа, описанный в упр. 10.11, для ре- решения задачи, сформулированной в п. „Ь". Покажите, что алгоритм упро-
УПРАЖНЕНИЯ 503 щается и сводится к следующему. Предположим, что на k-й итерации полу- получено базисное допустимое решение у* указанной выше системы ограничений и w* — допустимое решение той же самой системы, не обязательно базисное. Взяв в качестве начальной точки у*, решим следующую задачу линейного программирования: минимизировать при условиях Еу = d, У>0. Получим последовательность решений, приводящую к у = g, причем либо gJg^O, либо /w^yw^. В первом случае процесс прекращается; g— оптимальное решение. Во втором случае положим y*+i = g, a w*+1 най- найдем как выпуклую комбинацию y*+i и w* с минимальным значением функ- функции у^у. Заменим k на k + 1 и повторим процесс. Покажите, что эта процедура сходится к оптимальному решению, и про- проиллюстрируйте это, решив следующую задачу: минимизировать — 2х{ — 6х2 + х\ + х\ ПрИ УСЛОВИЯХ Х\ + 2X2 <[ 5, х\ + х2 < 3, d) Используйте метод Франка — Вулфа, описанный в упр. 10.11, непо- непосредственно для решения задачи квадратичного программирования, не запи- записывая первоначально условия Куна — Таккера. Проиллюстрируйте его, решив задачу из п. „с", и сравните полученные траектории. 11.17. Рассмотрим задачу квадратичного программирования, состоящую в минимизации сгх+—хгНх при условии Ах ^ Ь, где Н — положительно определенная матрица порядка п X я, А — матрица порядка ту, п. Пусть Scz{l, ..., т) — некоторое подмножество множества индексов ограничений. Обозначим через х« точку минимума функции сгх + — х^Нх на множестве, определяемом ограничениями с номерами из 5, рассматриваемыми как актив- активные. Пусть V(xs)— множество индексов ограничений, которые нарушаются в точке х*. a) Покажите, что если V(xs) Ф 0, то 5 может быть подмножеством множества 5 активных ограничений в оптимальной точке только в том слу- случае, если существует /iGSfl V(xs). b) Покажите, что если V(xs) = 0, то xs является оптимальным реше- решением исходной задачи тогда и только тогда, когда h <= V(xs-h) при всех Ле5. c) Используя результаты пп. „а" и „Ь", покажите, что описанная ниже схема, предложенная Тейлом и Ван де Пэнном (Theil and van de Panne [1961]), может быть использована для решения задачи квадратичного про- программирования. Вначале решим задачу без ограничений, в которой 5 = 0. Если V(x0)=0, то х0 —оптимальное решение. В противном случае по- построим множество вида 5Ь где Si = {/*}, h e= V(x0). Для каждого такого St найдем x5i# Если V(xSi) = 0 для некоторого Si, проверим по условию, сформулированному в п. „Ь", является ли xSi оптимальным решением. Если с помощью множеств Si не было построено оптимальное решение, то строим
504 ГЛ. 11. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ множества 5г с двумя активными ограничениями так, что S2 = «Si (J {/*}, где Si — множество с одним активным ограничением, такое, что Vfasi)*^® и h^V (xSl). Процесс повторяется, в результате чего находится xSz, который либо является оптимальным решением исходной задачи, либо приводит к по- построению множеств 53 с тремя активными ограничениями. d) Проиллюстрируйте метод Тейла и Ван де Пэнна, решив задачу из примера 11.2.1. e) Можете ли вы обобщить этот метод на случай задачи выпуклого про- программирования минимизировать f (x) ПрИ УСЛОВИЯХ gi (X) <0, /= 1, ... , /72, где f(x) —строго выпуклая, gi(x), i = I, .,., т, — выпуклые функции. 11.18. Рассмотрим следующую задачу: минимизировать eXl + еХ2 + х{ + 2х\ + х\ ПрИ УСЛОВИЯХ Х\ + 2*2 < 6, a) Покажите, что целевая функция строго выпукла, а функции ограниче- ограничений выпуклы. Тогда при решении задачи селарабельного программирования методом, описанным в § 11.3, ограничение на ввод в базис может быть опу- опущено. b) Используйте подходящие точки разбиения и решите эту задачу. 11.19. Рассмотрим задачу минимизировать 2хх — 6х2 + х \ — ххх2 + 2х\ при условиях Х\ + 2*2 < 12, X2 X{ •+• X2 = 8, Сделайте замену переменных так, чтобы задача стала сепарабельной. Вы- Выберите подходящие точки разбиения, постройте начальную симплексную таб- таблицу и затем решите аппроксимирующую задачу. Если бы пришлось решать эту задачу снова, как можно было бы использовать накопленную информа- информацию для получения лучшего разбиения? 11.20. Останется ли теорема 11.3.1 справедливой, если функции fi, ..., fn выпуклы, а не строго выпуклы? Если нет, измените формулировку теоремы так, чтобы она могла применяться в выпуклом случае. 11.21. Приведет ли симплексный метод с ограничением на ввод в базис к оптимальному решению аппроксимирующей задачи LAP в невыпуклом слу- случае? Докажите или приведите контрпример. 11.22. С помощью метода, описанного в § 11.3, решите следующую задачу: МИНИМИЗИрОВаТЬ -г-у + х\ при условиях х\ — х\ < 5, хи хч > 10. 11.23. Рассмотрим другой метод аппроксимации функции 8 на отрезке [а, Ь]. Отрезок \а,Ь] делится точками разбиения a = \iit ..., ц& «=6 ра
УПРАЖНЕНИЯ 505 меньшие отрезки. Пусть А/ = ц/-и — щ и Д8* = 8 (|i/+i) — 6 /=1, ... , fe—1. Рассмотрим точку х из отрезка [n-v»H-v + l]. Точку х можно V представить в виде л: = jbti -|- J] 6/Д/, а 8 (х) аппроксимировать функцией v 9 (*) = 9j + ? 6,Д8,, где 6V е= [0, 1], 6^=1 при / = 1, ..., v-1 и 9i ==e (лп). a) Приведите геометрическое истолкование такой аппроксимации функ- функции 9. b) Покажите, как такую аппроксимацию можно использовать при реше- решении симплексным методом с подходящим ограничением на ввод в базис сле- следующей сепарабельной задачи: п минимизировать V // (д:у) /-1 п при условиях ?) gu (xj) <0, /= 1, ... , т, =1, ... , о. Указание: пусть #v/, v = 1, ... , kj + 1, — точки разбиения для перемен» ной xj. Рассмотреть задачу » fey п минимизировать ? J] (Afv/) 5V/ + 2 f/ (а/) /= 1 v= 1 / = 1 П ki fl при условиях ? ? (A^/VNV/+ J] ?*/(*/)<0, /—1 т, О < 6V/ < 1, v = 1, ... , kl% j = 1, ... , п, 6vy>0=^6//==l при /<v, / = 1, ... , п, где A/v/ - / (*v + lf;) - f (*v/)f /igi}v == 8ц (xv +1§ ;) - gif (xVJ). с) Используйте процедуру, построенную в п. „b", для решения следующей задачи: максимизировать 2х{ + 5х2 — 2jcf — х\ при условиях 2^i + 6х2 <S 9, —Х\ + х2 > — 3, хь х2 > 0. 11.24. Рассмотрим задачу минимизировать eXl + х\ + 4х{ + 2х\ — 6^2 + 2лг3 При УСЛОВИЯХ JCj + е*2 + б^з < 15, х\ —- х2 + 5л:3 ^ 25, 0
506 ГЛ. П. ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ a) Взяв в качестве точек разбиения для *i точки 0, 2, 4, а для Хг— точ- точки 0, 1 и 2, решите задачу с помощью алгоритма для сепарабельного про- программирования. b) Взяв в качестве начальной точки оптимальное решение, полученное в п. „а", с помощью процедуры генерирования точек разбиения постройте еще три точки разбиения для получения лучшего решения. c) Используя оптимальное решение, полученное в п. „Ь", определите нижнюю и верхнюю границы значений целевой функции исходной задачи. 11.25. В § 11.3 для аппроксимации сепарабельной задачи использовано ^-представление. Другое представление, называемое ^-представлением, вве- введено в упр. 11.23. Рассмотрим переменную х на отрезке [а, Ь] и точки раз- разбиения Hi = а, ц2, ..., |я* = Ъ. Тогда точка х может быть представлена сле- следующим образом: к k 1. * = ]Г Я/ц/, ? Я/ = 1, Я/>0 при /= 1, ... , &, где XpXq = Ot если /1 /1 \ip и \ig не соседние точки разбиения. k-\ 2. x = \ii + Y< д/6/» 0<6/<1 при /=1,...,?, б/>0=Ф-б/ = 1 при Покажите, что эти два представления связаны соотношением /_1 — 6у при /= 1, ... , 6 — 1, y_i при / = k, где бо = 1. Покажите, что это соотношение можно записать в векторной форме к = Т6, где Т — верхняя треугольная матрица. 11.26. Решите с помощью обоих алгоритмов дробно-линейного програм- программирования, описанных в § 11.4, следующую задачу: — 2*i + 3* минимизировать при условиях 2*i *i Х\ Xl дач Хх + 2*2 + *3 " + 3*2 + *3 < + 2*2 > + *з< , *2, *з ^ 8*! +6*2 — 5 ¦Hi 12, 2, 8, 0. 11.27. Рассмотрим задачу максимизировать ^ при условиях *i + 3*! — 5*2 <! 6, *Ь Решите эту задачу методом Гилмора и Гомори. Решите эту задачу методом Чарнса и Купера. 11.28. Пусть область {х: Ах = b, x ^ 0} неограниченна. Предположим, кроме того, что при нахождении минимума некоторой дробно-линейной функ- функции на этом множестве получено возможное направление спуска d. Пусть вектор с1# состоит из нулей, кроме /-й позиции, в которой стоит единица, и йв = —В~4а/ ^ 0. Обязательно ли значение целевой функции неограниченно при движении из текущей экстремальной точки в направчении d? Если нет, то какие случаи могут встретиться?
КОММЕНТАРИИ 507 11.29. Рассмотрим функцию ! (х) = *' + 2*2 7 о - a) Нарисуйте в плоскости (*i, х2) следующие множества и определите, являются ли они выпуклыми: S=*{(xu х2): / 51 — {(*i. x2): 3Xl- 52 « К*ь х2): Зхх - х2 + 2 < 0} П 5. b) Как согласуются сделанные в п. „а" выводы с тем, что f квазивыпукла в области {(xi} х2): 3*1 — х2 + 2 ф 0}. 11.30. Пусть f(x)== РгХ + а И S = {x: qrx + P>0>. qrx + p Покажите непосредственно, что функция f квазивыпукла, квазивогнута, строго квазивыпукла и строго квазивогнута на S. 11.31. Пусть /: Еп -+• Е\ — квазивогнутая функция и 0(Х) «а/(х + Xd), где х — заданный вектор, ad — заданное направление. a) Покажите, что 0 квазивогнута по X. b) Рассмотрим задачу минимизации 9(А,) при ^е[о, Ь]. Покажите, что если ?/(x)rd<0, то К = Ь является оптимальным решением этой задачи. c) Положим /(х)=*—=; • Используйте результат п. „Ь", чтобы по- qx + P казать, что линейный поиск не нужен при решении задачи дробно-линейного программирования с помощью выпуклого симплекс-метода. 11.32. Предположим, что при решении задачи дробно-линейного програм- программирования к начальной таблице добавлены две следующие строки: z\ — ргх — а, *2 - <\тх — р. Когда задача решается выпуклым симплексным методом, коэффициенты при базисном векторе х* в этих строках равны нулю, так что преобразован- преобразованные строки имеют вид Покажите, что вектор г* приведенного градиента равен ,N где ^i«=a+ РвЪ~1Ъ и 22«P + q^B~lb. Заметим, что каждый член в вы- выражении для ryv сразу же получается из преобразованной таблицы. Решите задачу из примера 11.4.3, используя эту процедуру вычисления Гдг. Комментарии В первом параграфе настоящей главы была введена линейная задача до- дополнительности. В виде линейной задачи дополнительности могут быть пред- представлены условия оптимальности Куна — Таккера для задач линейного и ква- квадратичного программирования. Кроме того, такая задача возникает в различных
608 гл- п- ЛИНЕЙНАЯ ДОПОЛНИТЕЛЬНОСТЬ ситуациях, например в матричных играх двух лиц, инженерной оптими- оптимизации и др. Читателю, интересующемуся этими вопросами, можно рекомен- рекомендовать работы Cottle and Dantzig [1968], Dennis [1959], Du Val [1940], Kilmister and Reeve [1966], Lemke [1965, 1968], Lemke and Howson [1964] и Murty [1976]. В 1968 г. Лемке предложил алгоритм дополнительного ве- ведущего преобразования, описанный в § 11.1, для решения линейной задачи дополнительности. Лемке доказал, что если матрица М сильно коположитель- на, то алгоритм приводит к полному базисному допустимому решению иссле- исследуемой системы за конечное число шагов. Иве (Eaves [1971]) распространил этот результат на системы с более общим классом матриц. В 1974 г. ван де Пэнн разработал некоторый вариант метода Лемке для решения линейной задачи дополнительности. В работе Cottle and Dantzig [196S] предложен ме- метод главного ведущего преобразования, описанный в упр. 11.7. В работе Todd [1974] представлена общая схема ведущего преобразования, которая уста- устанавливает естественный подход к изучению алгоритмов дополнительного ве- ведущего преобразования. Обобщением линейной задачи дополнительности является нелинейная за- задача дополнительности. Условия оптимальности для задачи нелинейного про- программирования общего типа могут быть представлены в виде нелинейной задачи дополнительности. Известны многочисленные работы, связанные с ис- исследованием существования решений такой задачи, однако очень мало сде- сделано в области построения вычислительных схем для ее решения. См. работы Cottle [1966], Eaves [1971], Habetler and Price [1971, 1973] и Karamardian [1969, 1971, 1972]. Существуют различные подходы к решению задачи квадратичного про- программирования. Для решения этой задачи могут быть использованы методы возможных направлений, которые обсуждались в гл. 10. К этому классу от- относится метод Била (Beale [1955, 1959]), являющийся, по существу, некото- некоторым сужением выпуклого симплексного метода. Другой возможный подход — комбинаторный, при котором итеративно определяется множество активных ограничений в оптимальной точке. Это делается с помощью решения последо- последовательности задач с ограничениями-равенствами. По этому вопросу можно рекомендовать работы Boot [1961, 1964], Theil and van de Panne [1960] и van de Panne [1974]. Еще один подход, предложенный в работе Houthaker [I960], состоит в решении задачи с дополнительным ограничением вида ^ xf ^ Р и последовательном увеличении р. Одна из наиболее распространенных схем решения задачи квадратичного программирования заключается в решении системы Куна — Таккера. Эта схе- схема предложена в работах Barankin and Dorfman [1955] и Markowitz [1956]. Существуют различные методы решения системы Куна — Таккера. Вулф (Wolfe [1959]) разработал слабую модификацию симплексного метода для решения этой системы. Этот метод обсуждается в упр. 11.12. Как уже гово- говорилось ранее, для решения системы Куна — Таккера может быть использован метод дополнительного ведущего преобразования. В §§ 11.1 и 11.2 обсуждал- обсуждался метод Лемке в применении к решению задачи квадратичного программи- программирования. В методе Лемке ослаблялись требования к допустимости в прямой и двойственной задачах. Различные методы решения системы Куна — Таккера приведены в упр. 11.7, 11.13, 11.14 и 11.16. Более детально с ними можно познакомиться по работам Cottle and Dantzig [1968], Dantzig [1963], Frank and Wolfe [1956] и Shetty [1963]. Рассматриваемые выше методы имели дело с выпуклыми квадратичными задачами. Распространение на невыпуклый случай изучалось различными ис- исследователями. В упр. 11.11 задача нахождения оптимального решения ста- ставится как задача минимизации линейной целевой функции при ограничениях, представляющих собой линейную задачу дополнительности. Один из подходов к решению таких задач, рассматриваемый в Balas [1972], Balas and Burdet [1973], Burdet [1977], Ritter [1966] и Tui [1964], состоит в использовании
КОММЕНТАРИИ 509 метода секущих плоскостей. Другие подходы описаны в работах Cabot and Francis [1970], Mueller [1970], Mylander [1971], Taha [1973] и Zwart [1974]. В § 11.3 обсуждалось использование симплексного метода с ограничением на ввод в базис при решении задач сепарабельного программирования. Этот подход можно найти в работах Charnes and Cooper [1957], Dantzig, Johnson and White [1958] и Markowitz and Manne [1957]. Для дальнейшего изучения таких методов можно рекомендовать работы Miller [1963] и Wolfe [1963]. В невыпуклом случае даже тогда, когда оптимальность нельзя установить при правиле, ограничивающем ввод в базис, могут быть получены хорошие решения. В выпуклом случае показано, что, уменьшая отрезки разбиения, можно получить решение, достаточно близкое к оптимуму. В § 11.3 обсужда- обсуждалась также схема Вулфа (Wolfe [1963]) для построения точек разбиения. В ней точки разбиения не фиксированы заранее, а строятся по мере возникно- возникновения необходимости в них. В § 11.4 рассмотрены методы Чарнса и Купера (Charnes and Cooper [1962]) и Гилмора и Гомори (Gilmore and Gomory [1963]) для решения задачи дробно-линейного программирования. В первом методе заменой" пере- переменных задача сводится к эквивалентной задаче линейного программирова- программирования. Второй метод .является некоторой адаптацией выпуклого симплексного метода. Алгоритмы тесно связаны с первой работой Isbell and Marlow [1956]. Другие алгоритмы можно найти у Abadie and Williams [1968], Bitran and Novaes [1973] и Martos [1964, 1975]. Дорн (Dorn [1962]) предложил про- процедуру для решения такой задачи, которую можно рассматривать как обоб- обобщение двойственного симплексного метода. Дробно-линейное программирование является частным случаем класса задач, в которых целевая функция представляет собой отношение двух не- нелинейных функций. Свойства таких дробных функций исследуются в упр. 3.38 и 3.39. Имеются некоторые алгоритмы решения нелинейных дробных задач. Читателю, интересующемуся этими вопросами, можно рекомендовать работы Almogy and Levin [1971], Bector [1968], Dinkelbach [1967], Mangasarian [1969] и Swarup [1965].
Приложение А Математический обзор В этом приложении в конспективной форме даны основные опре- определения и результаты, касающиеся векторов, матриц и вещест- вещественного анализа, которые использовались на протяжении всей книги. Детальное изложение этих вопросов можно найти в кни- книгах Bartle 11976], Berge [1963], Berge and Ghouila-Houri [1965], Buck [1965], Cullen [1972], Flet [1966] и Rudin [1964]. АЛ. Векторы и матрицы Векторы Расположенные в определенном порядке п чисел х\9 ..., хп об- образуют п-мерный вектор х. Число х\ называется /-й координатой или j-й компонентой вектора х. Символ х представляет собой вектор-столбец, а хг — вектор-строку. Векторы обозначаются жирным шрифтом малыми буквами, такими, как а, Ь, с, х и у. Совокупность всех n-мерных векторов образует п-мерное евкли- евклидово пространство, обозначаемое через Еп. Специальные векторы Вектор, все компоненты которого равны нулю, называется нулевым и обозначается символом 0. Вектор, обозначаемый сим- символом 1, имеет все компоненты, равные 1. У координатных или единичных векторов, обозначаемых через е*, все компоненты, кроме i-й, нулевые, а 1-я компонента равна единице. - Сложение векторов и умножение вектора на скаляр Пусть х и у — два /г-мерных вектора. Суммой х + у векторов х и у называется вектор, /-я компонента которого равна xj + tth Произведение вектора х и скаляра а обозначается через ах и получается при умножении каждой компоненты вектора х на <х-
A.I. ВЕКТОРЫ И МАТРИЦЫ 511 Линейная независимость Векторы хь ..., xk из Еп называются линейно независимы- k ми, если равенство Х^/х/ = 0 выполняется только при %j = О для /= 1, ..., k. Линейная комбинация Говорят, что вектор уе?Л является линейной комбинацией векторов хь ..., xk из Еп, если он может быть представлен в виде у= ? Я/Х/, где Яь ..., %k— некоторые вещественные числа. Векторы-образующие Говорят, что пространство Еп натянуто на векторы хь ..., х* из Еп, если любой вектор из Еп может быть представлен в виде линейной комбинации векторов хь ..., х*. Векторы хь ..., х« в этом случае называются образующими векторами. Базис Совокупность векторов хь ..., х* из Еп называется базисом, если Еп натянуто на них и удаление любого из х/, / = 1, ..., k> приводит к тому, что Еп не натянуто на оставшиеся. Можно по- показать, что хь ..., \k образуют в Еп базис тогда и только тогда, когда они линейно независимы и k = п. Скалярное произведение Величина 2^ Х\У\ называется скалярным произведением двух векторов х и у из Еп и обозначается через хгу. Если ска- скалярное произведение векторов равно нулю, то эти векторы на- называются ортогональными. Норма вектора Норма вектора х из Еп обозначается через ]|х|| и опреде- определяется следующим образом: )
ПРИЛОЖЕНИЕ А. МАТЕМАТИЧЕСКИЙ ОБЗОР Неравенство Шварца Пусть х и у — векторы из Еп и |хгу|— абсолютное значение скалярного произведения хту. Тогда выполняется следующее не- неравенство, называемое неравенством Шварца: Матрицы Матрица — это прямоугольная таблица чисел. Если матрица имеет m строк и п столбцов, то говорят, что задана матрица порядка гаХя. Матрицы обозначаются жирными прописными буквами, такими, как А, В и С. Элемент, стоящий в /-й строке и в /-м столбце матрицы А, обозначается через а*/, а /-й стол- столбец матрицы А — через а/. Специальные матрицы Матрица порядка тХ«, все элементы которой равны нулю, называется нулевой матрицей и обозначается символом 0. Ква- Квадратная матрица порядка п X я называется единичной, если ац = 0 при i Ф / и аи = 1 при i = 1, ..., п. Единичная матрица порядка п X п обозначается обычно через I (или 1«, когда нужно подчеркнуть размерность). Сложение матриц и умножение матрицы на скаляр Пусть А и В — матрицы порядка тХ«. Суммой матриц А и В, обозначаемой через А + В, является матрица с элементами ац -|- bij. Произведение матрицы А на скаляр а есть матрица, элементами которой являются аац. Умножение млтриц Пусть А — матрица порядка т\п, В — матрица порядка Х Произведением АВ матриц называется матрица порядка элемент сц которой определяется следующим образом; / Hij при /=1, ..., т, /=1, ... , р. Транспонирование Пусть А — матрица порядка т\п. Матрица порядка пУСт называется транспонированной к А и обозначается через Аг, если (uifY = (ац), где {ац)т — элемент матрицы Аг, стоящий в i-й строке и в /-м столбце. Квадратная матрица А называется симметрической, если А = Аг.
АЛ. ВЕКТОРЫ И МАТРИЦЫ 513 Разбиение матриц Произвольная матрица может быть разбита на подматрицы. Например, матрица А порядка /пХл может быть представлена в виде [Аи I А12] LA21 | A22J где Ап — матрица порядка mi X Яь Ai2 — матрица порядка mi X «2, A2i — матрица порядка m2X^i и А22 — матрица поряд- порядка пг2 X п2. При этом пг = гп\ + т2, п = П\ + п2. Определитель матрицы Пусть А — квадратная матрица порядка п'Хп. Определи- Определитель, или детерминанту матрицы А, обозначаемый через det[A], итеративно вычисляется по следующей формуле: Здесь Ал — алгебраическое дополнение элемента аи, определяе- определяемое как произведение (—l)/fl и детерминанта матрицы, полу- полученной из А вычеркиванием i-й строки и первого столбца. Пола- Полагается, что определитель скаляра равен этому скаляру. Обращение матриц Квадратная матрица называется невырожденной *)• если су- существует такая матрица А'1, называемая обратной к А, что АА~* = А~1А= I. Если существует обратная к квадратной ма- матрице, то она единственна. Кроме того, квадратная матрица имеет обратную тогда и только тогда, когда ее определитель не равен нулю. Ранг матрицы Пусть А — матрица порядка m X л. Рангом матрицы А назы- называется максимальное число ее линейно независимых строк, или, что эквивалентно, максимальное число линейно независимых столбцов. Если ранг матрицы А равен min{m, л}, то говорят, что А — матрица полного ранга. *) Невырожденную матрицу называют также неособенной, несингулярной, обратимой. — Прим. перев. Уа17 М- Базара, К. Шеття
514 ПРИЛОЖЕНИЕ А. МАТЕМАТИЧЕСКИЙ ОБЗОР Собственные значения и собственные векторы Пусть А — матрица порядка пХп. Скаляр % и ненулевой вектор х, удовлетворяющие уравнению Хх = Ах, называются соответственно собственным значением и собственным вектором матрицы А. Для того чтобы вычислить собственные значения матрицы А, необходимо решить уравнение det[A — Я1] = 0. Вы- Выражение det[A — XI] является полиномом относительно Я, корни которого и являются собственными значениями матрицы А. Положительно (отрицательно) определенные и полуопределенные матрицы Пусть А — симметрическая матрица порядка пУ^п. Говорят, что матрица А положительно определена, если х7Ах > 0 для всех ненулевых х из Еп. Если хгАх ^ 0 для всех х из Еп, то А положительно полуопределена. Аналогично если хгАх < 0 для всех ненулевых х из Еп, то А называется отрицательно опреде- определенной матрицей, а если xrAx ^ 0 для всех х из Еп, то — отри- отрицательно полуопределенной. Матрица А положительно опреде- определена, положительно полуопределена, отрицательно определена, отрицательно полуопределена тогда и только тогда, когда ее собственные значения соответственно положительны, неотрица- неотрицательны, отрицательны и неположительны. А.2. Множества и последовательности Множеством называется совокупность элементов или объектов. Множество может быть определено перечнем его элементов или указанием свойств, которыми должны обладать его элементы. Например, множество 5 = {1, 2, 3, 4} можно представить в виде S = {х: 1 ^ х <; 4, х — целое}. Если х — элемент множества 5, то для обозначения этого пользуются записью х е S, если же х не является элементом множества S, то пишут х ф S. Множества обозначаются прописными буквами, такими, как S, X и Л. Пу- Пустое множество, обозначаемое символом 0, не содержит эле- элементов. Объединения, пересечения и подмножества Пусть заданы два множества S\ и S2. Множество, каждый эле- элемент которого принадлежит либо Si, либо S2, называется объ- объединением S\ и S2 и обозначается через Si U S2. Множество, элементы которого принадлежат Si и S2 одновременно, назы* адется пересечением S\ и S2 и обозначается через Sif|S2. Если
А.2. МНОЖЕСТВА И ПОСЛЕДОВАТЕЛЬНОСТИ 515 S\ — подмножество множества S2, то пишут Si a S2 или S2=>Si. Таким образом, запись SaEn означает, что все элементы мно- множества S являются точками из Еп. Замкнутые и открытые интервалы Пусть а и Ъ — действительные числа. Замкнутый интервал, или отрезок [а, Ь], включает в себя все действительные числа, удов- удовлетворяющие неравенству а ^ х ^ Ь. Совокупность действи- действительных чисел, удовлетворяющих неравенству а ^.х < 6, обо- обозначают через [а, 6), а удовлетворяющих неравенству а < х sg Ъ — через (а, Ь]. Наконец, множество точек х, таких, что а < х < Ь, обозначается через (а, Ь) и называется откры- открытым интервалом. Нижняя и верхняя грани множества Пусть S — множество действительных чисел. Нижней гранью (infinum) множества 5 называется максимальное из чисел а, для которых неравенство а ^ х выполняется при всех x^S. Инфинум обозначается через ini{x: x^S}. Верхней гранью (supremum) множества S называется минимальное из чисел а, для которых неравенство а ^ х выполняется при всех .vgS. Супремум обозначается через sup {a:: jcgS}. Окрестности Для заданных вектора xg?w и скаляра е>0 множество Afe(x)—{у: ||у — х|| ^ е} называется г-окрестностью точки х. Иногда неравенство, фигурирующее в определении Afe(x), за- заменяется на строгое. Внутренние точки и открытые множества Пусть S — некоторое множество из ?л и xgS. Точка х назы- называется внутренней точкой множества 5, если существует е-окрестность точки х, полностью содержащаяся в S, т. е. если найдется такое 8 > 0, что yGS для всех у, удовлетворяющих неравенству ||у — х|| ^ е. Совокупность всех таких точек назы- называется внутренностью множества и обозначается через intS. Множество S называется открытым, если 5 = int 5. Точки замыкания и замкнутые множества Пусть S — некоторое множество из Еп. Замыкание множества S, обозначаемое через с15, есть совокупность всех точек, сколь угодно близких к S. Точнее, точка х е cl S, если 5 f] Ne 00 Ф 0 7217*
516 ПРИЛОЖЕНИЕ А МАТЕМАТИЧЕСКИЙ ОБЗОР для любого е > 0, где NB(x) = {y: ||у —хЦ<е). Множество S называется замкнутым, если S = c\S. Граничные точки Пусть 5 — множество из Еп> Точка х называется граничной точ- точкой множества S, если при любом г > О окрестность Ne (х) = =={У: Ну — х|| ^ е} содержит как точки из S, так и точки, не принадлежащие S. Совокупность всех граничных точек назы- называется границей множества S и обозначается через dS. Последовательности и подпоследовательности Говорят, что последовательность векторов хь хг, х3, ... сходится к точке х, если ||х*— х|| —>0 при &--*оо, т. е. если для любого е > 0 найдется такое целое положительное число N, что Их* —х||< е для всех k^N. Последовательность обычно обо- обозначается через {х4, а для обозначения предельной точки х ис- используются записи вида х#->х при &->оо, или lim xk = x. Лю- А-»оо бая сходящаяся последовательность имеет единственную пре- предельную точку. Отбрасывая некоторые элементы последовательности {х*}, можно получить подпоследовательность. Обычно подпоследова- подпоследовательность обозначается через {xk}Xi где Ж — подмножество множества целых положительных чисел. Для примера рассмо- рассмотрим в качестве Ж множество всех четных положительных чи- чисел. Тогда {хк}ж представляет подпоследовательность {хг, Х4, Хб, ...}. При заданной подпоследовательности {хк}ж запись {хк+\}ж определяет новую подпоследовательность, получаемую добавлением единицы к индексам данной подпоследовательности {xk)x- К примеру, если Ж = {3, 5, 10, 15, ...}, то {xk+i}x озна- означает подпоследовательность {Х4, Хб, Хи, Xi6, ...}. Последовательность {х*} называется последовательностью Коши, если для любого е > 0 найдется такое натуральное N, что \\xk — xm|| < е при всех &, m^N1). Последовательность точек из Еп имеет предел только тогда, когда она является по- последовательностью Коши. Компактные множества Говорят, что множество S, принадлежащее Еп> является ком- пактным, или компактом, если оно замкнуто и ограниченно. Из *) Такая последовательность также называется фундаментальной, или удовлетворяющей признаку Коши. — Прим. перев.
А.З. ФУНКЦИИ 517 каждой последовательности {х*}, принадлежащей компакту 5, всегда можно выделить сходящуюся подпоследовательность, причем ее предельная точка принадлежит S. А.З. Функции Действительная функция /, определенная на подмножестве S пространства ?я, ставит в соответствие каждой точке х из Еп действительное число /(х). Запись /: S-+E\ означает, что об- областью определения функции / является S, а множеством зна- значений— действительные числа. Если / определена всюду в Еп или если область определения несущественна, то используется обозначение /: Еп-*Е\. Набор функций f\, ..., fm с действи- действительными значениями можно представить в виде одной вектор- функции f, /-й компонентой которой является //. Непрерывные функции Говорят, что функция f: S-+E\ непрерывна в точке xsS, если по любому е > О найдется такое б > 0, что |/(х) — /(х) | < е для всех х е 5, таких, что ||х—-х|<б. Вектор-функция непре- непрерывна в х, если все ее компоненты непрерывны в этой точке. Полунепрерывные сверху и снизу функции Пусть 5 — непустое множество из Еп. Говорят, что функция /: S -> Ei полунепрерывна сверху в точке х е 5, если по любому е > 0 найдется такое б > 0, что f (x) — f (х) < е для всех х е 5, удовлетворяющих неравенству ||х — х||< б. Аналогично f:S-**E\ полунепрерывна снизу в точке х, если по любому е > 0 найдется такое б > 0, что /(х)— f (х) > е для всех xgS, удовлетворяю- удовлетворяющих неравенству ||х — х||< б. Вектор-функция называется полу- полунепрерывной сверху или снизу, если каждая ее компонента яв- является полунепрерывной сверху или снизу функцией соответ- соответственно. Минимумы и максимумы полунепрерывных функций Пусть 5 — непустое компактное множество в Еп, f: S-+E\. Если f — полунепрерывная снизу функция, то она достигает своего минимума на 5, т. е. существует такая точка xeS, что /(х)^ ^f(x) для всех xeS. Аналогично если функция / полунепре- полунепрерывна сверху, то она достигает своего максимума на S. Так как непрерывная функция является полунепрерывной сверху и сни- снизу, то она достигает как минимума, так и максимума на любом компактном множестве. 17 М. Базара, К. Шетти
518 ПРИЛОЖЕНИЕ А. МАТЕМАТИЧЕСКИЙ ОБЗОР Дифференцируемые функции Пусть S — непустое множество в ?„, xeintS, f: S-*E\. Гово- Говорят, что функция f дифференцируема в точке х, если существует вектор V/(x) из Еп, называемый градиентом функции / в точке х, и функция р, удовлетворяющая условию р(х; х)->0 при х->-х, такие, что f(x) = f (х) + у/ (х)т (х - х) + ||х - х|| р (х; х) для любого xeS, Компонентами градиента являются частные производные функ- функции /, т. е. dx Функция / называется дважды дифференцируемой в точке х, если кроме градиента существуют симметрическая матрица Н(х) порядка яХя, называемая матрицей Гессе функции / в точке х, и функция р(х; х), такие, что р(х; х)->0 при х->х и + ||х — х||2р(х;х) для любого xsS. Элементом, стоящим на пересечении Z-й строки и /-го столб- столбца матрицы Гессе, является вторая частная производная d2f(x)/dxidxh Вектор-функция дифференцируема, если каждая ее компо- компонента является дифференцируемой функцией, и дважды диффе- дифференцируема, если каждая ее компонента дважды дифферен- дифференцируема. Теорема о среднем значении Пусть S — непустое открытое выпуклое множество в Еп, f: S->- Ei—дифференцируемая функция. Теорема о среднем значении утверждает, что для любых точек xi и х2, принадлежа- принадлежащих 5, справедливо равенство где х = Хх\ + A — %) х2 при некотором X <= @, 1). Теорема Тейлора Пусть S — непустое открытое выпуклое множество в Еп, /: S-*Ei — дважды дифференцируемая функция. Теорема Тейлора дает следующее представление функции /. Для любых х* и Х2 из S справедливо равенство f (х2) = f (Xl) + V/ (Xl)r (x2 - х,) + 4" (*2 - х,)гН (х) (х2 - хО, где Н(х)—матрица Гессе функции f в точке х, a + A—%)х2 при некотором Яе@, 1).
Приложение В Краткая сводка основных положений выпуклого анализа, условий оптимальности, двойственности В этом приложении конспективно излагаются результаты, свя- связанные с выпуклостью, условиями оптимальности и двойст- двойственностью. Оно предназначено для того, чтобы обеспечить ми- минимальную подготовку, необходимую для чтения гл. 8—11, исключая анализ сходимости. В.1. Выпуклые множества Говорят, что множество 5 из Еп выпукло, если для любых хь x2eS отрезок прямой, соединяющий эти точки, т. е. все точки вида Xxi + A — Я)х2 при Jie[0, 1], принадлежит множе- множеству S. Точки вида х = kxi +A —¦ Х)х2 при Я, е [0, 1] называют- называются выпуклыми комбинациями точек xi и Хг. На рис. В.1 изображены выпуклое и невыпуклое множества. Ниже приведены примеры выпуклых множеств, часто встре- встречающихся в математическом программировании. 1. Гиперплоскость. S = {x: ргх = а}, где р — ненулевой век- вектор из Еп, называемый нормалью к гиперплоскости, а — скаляр. 2. Полупространство. S = {х: р^х^а}, где р — ненулевой вектор из Еп, а — скаляр. 3. Открытое полупространство. S= {x: ргх < а}, где р — ненулевой вектор из Еп, а — скаляр. 4. Многогранное множество. S = {х: Ах^Ь}, где А — ма- матрица порядка тХ^Ь-m-мерный вектор. 5. Многогранный конус, S = {х: Ах^О}, где А — матрица порядка тХя- 6. Конус, натянутый на конечное число векторов. 5 = {м \ х: х=2М/» Л/^°> 1=1* •••> М >, где аь ..., ам—за- ам—заданные векторы из Еп. 7. Окрестность. S={x: ||x — х||^е}, где х — фиксированная точка из гЕп, е > 0. Если в Еп заданы два непусты^ множества S\ и S2, таких, что Si П S2 = 0, то существует гиперплоскость Н = {х: ргх = а}, 17*
620 ПРИЛОЖЕНИЕ В. КРАТКАЯ СВОДКА ПОЛОЖЕНИЙ ВЫПУКЛОГО АНАЛИЗА (в) (Ь) Рис. В.1. Выпуклость, а —выпуклое множество; Ь — невыпуклое множество. (а) (Ь) Рис. В.2. Опорные и разделяющие гиперплоскости, а — разделяющая гипер- гиперплоскость; Ь — опорная гиперплоскость. которая разделяет их, т. е. ргх ^ а для всех xgSi и prx ^ a для всех xeS2. Такая гиперплоскость называется разделяю- разделяющей, ее нормалью является вектор р ф 0. Близко связано с предыдущим понятие опорной гиперпло- гиперплоскости. Пусть S — непустое выпуклое множество в Еп, х— его граничная точка. Тогда существует гиперплоскость Н = {х: р?х = а}, опорная к 5 в точке х, т. е. такая, что ргх = а и ргх<!а для всех xgS. Ha рис. В.2 изображены разделяющая и опорная гиперпло- гиперплоскости. Следующие две теоремы используются при доказательстве условий оптимальности, соотношений двойственности и при уста- установлении критериев остановки алгоритмов. ТЕОРЕМА ФАРКАША. Пусть А—матрица порядка /пХй, с есть я-мерный вектор. Тогда разрешима только одна из еле-
В.2. ВЫПУКЛЫЕ ФУНКЦИИ И ИХ ОБОБЩЕНИЯ 621 дующих систем: система 1: Ах < О, сгх > 0, хе Еп; система 2: Агу = с, у>0, уе?т. ТЕОРЕМА ЖОРДАНА. Пусть А —матрица порядка п%Хп. Тогда разрешима только одна из следующих систем: система 1: Ах < 0, хб?п. -система 2: Агу = 0, у>0, Важным понятием в выпуклом анализе является понятие экстремальной точки. Пусть 5 — непустое выпуклое множество в Еп. Вектор xg5 называется экстремальной точкой множества 5, если представление x = Axi + (l— А)х2 при хь x2eS и А,е@, 1) возможно только в случае, когда х = xi = x2. Дру- Другими словами, точка х является экстремальной, если ее нельзя представить в виде выпуклой комбинации двух отличных от х точек из S. В частности, если S = {x: Ах = b, х^О}, где А — матрица порядка /пХ«и ранга m, a b есть m-мерный вектор, то х — экстремальная точка множества 5 тогда и только тогда, когда выполняется следующее условие. Матрица А может быть разбита на подматрицы А = [В, N], где В — обратимая матрица порядка wXm, и хг = (х?, х^), где хв = В~*Ь ^ 0, xN = 0. Другим важным понятием, используемым в случае, когда выпуклое множество неограниченно, является понятие направ- направления. Если 5 — неограниченное замкнутое выпуклое множество, то вектор d задает направление множества S, если x + Wg5 при всех % ^ 0 и всех х е S. В.2. Выпуклые функции и их обобщения Пусть 5 — непустое выпуклое множество в Еп. Говорят, что функция /: S-*?i выпукла, если f [Ххх + A - А) х2] < А/ (хх) + A - Я) / (х2) для всех хь x2eS и всех Хе[0, 1]. Говорят, что / строго вы- выпукла, если неравенство выполняется как строгое для всех раз- различных хь x2eS и всех Ае@, 1). Функция / вогнута (строго вогнута), если —/ — выпуклая (строго выпуклая) функция. На рис. В.З изображены выпуклые и вогнутые функции. Ниже приведены примеры выпуклых функций. Взяв эти функции с обратным знаком, получим примеры вогнутых функций: 1) f(x) = 3x + 4, 2)
622 ПРИЛОЖЕНИЕ В. КРАТКАЯ СВОДКА ПОЛОЖЕНИЙ ВЫПУКЛОГО АНАЛИЗА f -Х)х2 х2 (си (Ь) I I х2 (с) Рис. В.З. Выпуклые и вогнутые функции, а-*выпуклая функция; b—вогну- b—вогнутая функция; с — функция, не являющаяся ни выпуклой, ни вогнутой. 3) /(*)-**-2*, 4) /(*) — -х1*, если *>0, 5) Г{х19х2)ш 6) / {х19 х2, *8) = х\ - 24 + 3*§ - 4^ - 4*2*3. Во многих случаях предположение о выпуклости функции может быть заменено более слабыми предположениями о квази- квазивыпуклости или псевдовыпуклости функции. Пусть S — непустое выпуклое множество в Еп. Говорят, что функция /: S^E\ квазивыпукла, если для всех xi, X2eS вы- выполняется неравенство -~Я)х2]<тах{/(х1), /(х2)} при любом , 1). Функция / строго квазивыпукла, если неравенство выпол- выполняется как строгое при /(xi)=t^/(x2). Если же неравенство вы- выполняется как строгое для любых Xi Ф х2, то говорят, что f — сильно квазивыпуклая функция. Пусть S — непустое открытое выпуклое множество в Еп. Го- Говорят, что /: S -¦ Е\ — псевдовыпуклая функция, если для любых xi, x2gS, таких, что ?/(xi)r(x2 — Xi)> 0, выполняется нера- неравенство f(x2) ^/(xi). Если для любых различных xi и х2 из S, таких, что V/(xiO(x2 —xi) ^ 0, справедливо неравенство /(х2)> С> /(xi), то / — строго псевдовыпуклая функция. Все полученные обобщения выпуклости распространяются на вогнутые функции заменой / на —/. На рис. В.4 иллюстрируются эти понятия. На рис. В.5 приведена схема связей различных типов вы- выпуклости. Приведем краткую сводку важных свойств разных типов вы- выпуклых функций. Всюду здесь /: S->?| и S —непустое выпук- выпуклое множество в Еп.
В.2. ВЫПУКЛЫЕ ФУНКЦИИ И ИХ ОБОБЩЕНИЯ 523 (а) It) (с) Рис. В.4. Квазивыпуклость и псевдовыпуклость, а — функция квазивыпукла и псевдовыпукла; Ь — функция квазивыпукла, но не псевдовыпукла; с — функция не квазивыпукла и не псевдовыпукла. Строгая выпуклость Диффврвицирувмость Выпуклость Строгая псевдо выпукл ость Сильная квазивыпуклост]»» Дифференцируе- Псевдо выпукл ость Строгая квазивыпуклость Полунепрерывность снизу Квазивыпуклость Рис. В.5. Связь различных типов выпуклости.
524 ПРИЛОЖЕНИЕ В. КРАТКАЯ СВОДКА ПОЛОЖЕНИЙ ВЫПУКЛОГО АНАЛИЗА Строго выпуклые функции 1. Функция / непрерывна в intS. 2. Множество {(х, у)\ xeS, y^f(x)} выпукло. 3. Множество {xeS: /(x)^a} выпукло для каждого дейст- действительного а. 4. Дифференцируемая функция / строго выпукла тогда и только тогда, когда Дх)>/(х)+V/(x)r(x —х) при всех раз- различных x,xeS, 5. Пусть / дважды дифференцируема. Тогда если матрица Гессе Н(х) положительно определена для каждого xg5, to f — строго выпуклая функция. Кроме того, если / строго выпук- выпукла, то матрица Гессе Н(х) положительно полуопределена для каждого xgS. 6. Каждый локальный минимум функции / на выпуклом мно- множестве X cz S является единственным глобальным минимумом. 7. Если Vf(x) = 0, то х — единственная точка глобального минимума функции f на множестве S. 8. Функция f достигает максимума на компактном много- многогранном множестве X czS в экстремальной точке этого мно- множества. Выпуклые функции 1. Функция f непрерывна в intS. 2. Функция / выпукла тогда и только тогда, когда множе- множество {(х, у): xgS, #^/(x)} выпукло. 3. Множество {xgS: f(x)^a} выпукло для каждого дейст- действительного а. 4. Дифференцируемая функция f выпукла тогда и только тогда, когда /(х) ^/(х) + V/(x)r(x —х) при всех х, xeS. 5. Дважды дифференцируемая функция / выпукла тогда и только тогда, когда матрица Гессе Н(х) положительно полу- полуопределена для всех х е 5. 6. Каждый локальный минимум функций f на выпуклом мно- множестве X czS является глобальным. 7. Если V/(x)=0, то х — точка глобального минимума функции f на множестве S. 8. Функция f достигает максимума на компактном много- многогранном множестве XczS в экстремальной точке этого мно- множества. Псевдовыпуклые функции 1. Множество {xeS: f(x)^a} выпукло для каждого дейст- действительного а. 2. Каждый локальный минимум функции / на выпуклом мно- множестве X cz S является глобальным.
В.З. УСЛОВИЯ ОПТИМАЛЬНОСТИ 525 3. Если V/(x)=0, то х — точка глобального минимума функции / на множестве 5. 4. Функция / достигает максимума на компактном много- многогранном множестве XczS в экстремальной точке этого мно- множества. Квазивыпуклые функции 1. Функция / квазивыпукла тогда и только тогда, когда мно- множество {xeS: f(x)^a} выпукло для любого действитель- действительного а. 2. Функция / достигает максимума на компактном много- многогранном множестве XczS в экстремальной точке этого мно- множества. 3. Дифференцируемая функция / на множестве S квазивы- квазивыпукла тогда и только тогда, когда из xi, x2gSh /(xi)^/(x2) следует, что V/(x2)r(xi — x2)< 0. Локальный минимум строго квазивыпуклой функции на вы- выпуклом множестве X czS является также и глобальным. Если, кроме того, функция сильно квазивыпукла, то минимум дости- достигается в единственной точке. Если функция / является и строго квазивыпуклой и полунепрерывной снизу, то она квазивыпукла, так что она обладает всеми перечисленными свойствами. В.З. Условия оптимальности Задача Р: минимизировать f (x) при условиях g*(x)^0 при /=1, ..., т, А/(х) = 0 при /=1, ..., /, X6I, где f, gu he Еп-*Е\ и X — непустое открытое множество в Еп. Ниже будут сформулированы необходимые условия оптимально- оптимальности Ф. Джона. Если х — точка локального оптимума рассматри- рассматриваемой задачи, то существует такой ненулевой вектор («о, u, v), что + ? utVgi (x) + Z vuVht (x) = 0, т.
526 ПРИЛОЖЕНИЕ В. КРАТКАЯ СВОДКА ПОЛОЖЕНИЙ ВЫПУКЛОГО АНАЛИЗА Здесь и и v соответственно m-мерный и /-мерный векторы с ком- компонентами щ и vi. Скаляры по, щ и v-t называются множителями Лагранжа. Множитель щ связан с целевой функцией, множитель m — с /-м ограничением-неравенством g"/(x)^0, а множитель Vi — с i-M ограничением-равенством А/(х)=0. Условие iiigi(x)~ = 0 называется условием дополняющей нежесткости и указы- указывает, что либо щ = 0, либо gi(x)=0. Таким образом, если gi{x) < 0, то щ = 0. Обозначив через / множество индексов ак- активных ограничений-неравенств в точке х, т. е. / ={/: g/(x) = 0}, перепишем условие Ф. Джона в следующей эквивалентной фор- форме. Еслих — локальное оптимальное решение задачи Р, то най- найдется такой ненулевой вектор (щу U/, v), где U/ — вектор мно- множителей Лагранжа, связанных с ограничениями g;(x)^0 при fe/, что «oV/ (х) + Z UtVgi (х) + ZviVht (х) = 0, Если ио = 0, то условия Ф. Джона фактически становятся бесполезными, так как в сущности они просто указывают, что градиенты функций, определяющих активные ограничения-не- ограничения-неравенства, и градиенты функции, задающих ограничения-равен- ограничения-равенства, образуют систему линейно зависимых векторов. При соот- соответствующих предположениях, называемых условиями регуляр- регулярности, гарантируется положительность ио и условия Ф. Джона переходят в условия Куна — Таккера. Типичным условием ре- регулярности является требование линейной независимости си- системы векторов, состоящей из градиентов функций, задающих ограничения-неравенства при / е /, и градиентов функций, за- задающих ограничения-равенства, в точке х. Необходимые условия оптимальности Куна — Таккера мож- можно сформулировать в следующем виде. Пусть х — локальное оп- оптимальное решение задачи Р и выполняется некоторое подходя- подходящее условие регулярности. Тогда существует такой вектор (u, v), что tflgi (x) + g vflhi (x) = 0, ) = 0, /=l, ..., m, W/>0, *= 1, ..., m. Так же, как и прежде, щ и vi — множители Лагранжа, связан- связанные с ограничениями g/(x)=^0 и ft/(x)=O, Uigi(x)=0 — усло- условие дополняющей нежесткости. Если положить / = {i: gi(x)= 0),
В.З. УСЛОВИЯ ОПТИМАЛЬНОСТИ 527 то необходимые условия Куна — Таккера можно переписать в виде V (Ю = Е utVgi (x) + Z VtVhi (х) = О, щ > О, / <= /. При подходящих предположениях о выпуклости условия Ку- Куна— Таккера становятся также и достаточными условиями опти- оптимальности. В частности, пусть х — допустимое решение задачи Р и пусть для этой точки выполняются условия Куна — Таккера, т. е. V/ (х) + ? uflgi (х) + I VtVhi (х) - О, где /={/: ?;(х) = 0}. Если / — псевдовыпуклая функция, gi — квазивыпуклые при / е /, Ы — квазивыпуклые при vi > 0 и ква- квазивогнутые при Vi < 0 функции, то х — оптимальное решение задачи Р. Для пояснения условий Куна — Таккера рассмотрим следую- следующую задачу: минимизировать (х{ — ЗJ + (#2 — 2J при условиях х\+ Задача иллюстрируется на рис. В.6. Оптимальной точкой яв- является х = B, 1)г. Прежде всего проверим, что в точке х вы- выполняются условия Куна — Таккера. В этой точке множество индексов активных ограничений / = {1, 2}, так что в соответст- соответствии с требованием дополняющей нежесткости должны выпол- выполняться равенства мз = И4 = 0. Так как V/(x) = (—2, —2)г, Vgi(x) = D,2)', Vg2(x) = (l,2r, то V/() + V() + g() () g) r 1 2 + M2Vg2(x) = 0 при «i = j и «2=3-. т. е. в точке х выпол- выполняются условия Куна — Таккера. Поскольку /, gu g2 — выпук- выпуклые функции, условия Куна — Таккера являются достаточными для оптимальности, т. е. х — действительно оптимальная точка. Проверим теперь, выполняются ли условия Куна—Таккера в точке х = @, 0)г. Здесь / = {3, 4}, так что в соответствии с требованием дополняющей нежесткости должны выполняться
528 ПРИЛОЖЕНИЕ В. КРАТКАЯ СВОДКА ПОЛОЖЕНИЙ ВЫПУКЛОГО АНАЛИЗА @,2) . ч ф Безусловный \ \ \ минимум 44 Линии уровня / (ч/в; о) Рис. В.6. Условия Куна — Таккера. равенства и\ = и2 = 0. Так как V/(x) = (—6, —4)г, Vg3(x) = = (-1, ОO-, V?4W = @,-ir, то Vf(x) + «3V^3(x) + t/4Vgr4(x) = = 0 при Us = —6 и ^4 = —4. Условие неотрицательности мно- множителей Лагранжа нарушено. Это показывает, что х не является точкой Куна — Таккера и, следовательно, не может быть опти- оптимальной. На рис. В.6 показаны градиенты целевой функции и функций активных ограничений как в точке х, так и в х. Заметим, что —V/(x) лежит в конусе, натянутом на градиенты функций ак- активных ограничений в точке х, а — V/(x) не принадлежит соот- соответствующему конусу. Условия Куна — Таккера для задачи с ограничениями-неравенствами можно геометрически пояснить следующим образом. Вектор х является точкой Куна — Таккера тогда и только тогда, когда вектор —V/(x) лежит в конусе, на- натянутом на градиенты функций активных ограничений в точке х. В.4. Двойственность по Лагранжу Для заданной задачи нелинейного программирования, назы- называемой прямой задачей, существует тесно связанная с ней за- задача, называемая двойственной к ней. Эти две задачи сформу- сформулированы ниже.
Ё.4. ДВОЙСТВЕННОСТЬ ПО ЛАГРАИЖУ 520 Прямая задача Р Минимизировать / (х) при условиях gHx)^0 при /=1, ..., т, АДх)==0 при /== 1, ..., /, Здесь /, gt, he En-+Eu X — непустое множество в Еп. Обозна- Обозначим через g и h соответственно /n-мерную и /-мерную вектор- функции с компонентами gi и hi. Двойственная задача D Максимизировать 8 (u, v) m при условиях г где 6 (u, v) = inf j / (х) + ? utgi (х) + ? 0*А, (х): х s X и vg?/. Каждая /-я компонента вектора и называется двой- двойственной переменной или множителем Лагранжа, связанным с ограничением g*(x)^:0, а /-я компонента vt вектора v назы- называется двойственной переменной или множителем Лагранжа, связанным с ограничением А/(х) = 0. Можно заметить, что 9 — вогнутая функция даже при отсутствии каких-либо предполо- предположений о выпуклости или вогнутости функций /, gi9 hi и выпук- выпуклости множества X. Ниже будет приведена краткая сводка соотношений между прямой и двойственной задачами. 1. Если х — допустимая точка задачи Р, a (u, v) — допусти- допустимая точка задачи D, то /(x)^0(u, v). Таким образом, inf{/(x): g(x)<0, h(x) = 0, xe *}>sup{9(u, v): u>0}. Этот результат называют слабой теоремой двойственности. 2. Если sup{0(u, v): u^0}=cx>, то не существует таких точек хеХ, что g(x)^0 и h(x) = 0, т. е. допустимая область прямой задачи пуста. 3. Если inf{/(x): g(x)=^0, h(x)=0, xel}=-oo, то 9(u, v) = —oo для всех (u, v), для которых u ^ 0. 4. Если существуют допустимые точки прямой задачи х и двойственной (u, v), такие, что Дх)= 8 (u, v), то х — оптималь- оптимальное решение задачи Р, a (u, v)—оптимальное решение задачи D. Кроме того, выполняются условия дополняющей нежесткости Uigi(x) = 0 при i = 1, ..., m. 5. Предположим, что X — выпуклое множество, /, gr. En-+E\ при i=l, ..., га — выпуклые функции, h(x)= Ах — Б, где А —
530 ПРИЛОЖЕНИЕ В. КРАТКАЯ СВОДКА ПОЛОЖЕНИЙ ВЫПУКЛОГО АНАЛИЗА матрица порядка тУ^п, Ъ есть /л-мерный вектор. При выпол- выполнении соответствующих условий регулярности оптимальные зна- значения целевых функций задач PhD совпадают, т. е. inf{f(x): xgI, g(x)<0, h(x) = 0} = sup{9(u, v): u>0}. Кроме того, если значение нижней грани конечно, то верхняя грань достигается в некоторой точке (u, v), для которой п ^ 0. Если нижняя грань достигается в некоторой точке х, то uigi(x) = = 0 при /=1, ..., т. Этот результат называют сильной тео- теоремой двойственности.
Список литературы Abadie, J. (Ed.), Nonlinear Programming, North ifoTIand "Publishing Company?; Amsterdam, 1967a. Abadie, J., "On the Kuhn Tucker TheoYeTit^ jffl Nonlinear'Programming, J. Abadie (Ed.), 1967b. Abadie, J. (Ed.), Integer and Nonlinedf Programming; Korth Holland Publishing Cont- pany, Amsterdam, 1970a. Abadie, J., "Application of the GRG Algorithm to Optimal Control," in Integer and Nonlinear Programming, J. Abadie (Ed.), 1970b. Abadie, J., and J. Carpentier, "Some Numerical Experiments with the GRG"Method for* Nonlinear Programming," paper НИ 7422, Blectricite de France, 1967. Abadie, J., and J. Carpentier, "Generalization of the Wolfe Reduced Gradient Method to the Case of Nonlinear Constraints," in Optimization, R. Fletcher (Ed.), 1969. Abadie, J., and J. Guigou, "Numerical Experiments with the GRG Method," in Integef and Nonlinear Programming, J. Abadie (Ed.), 1970. Abadie, J., and A. C. Williams, "Dual and Parametric Methods in Decomposition," in Recent Advances in Mathematical Programming, R. L. Graves and P. Wolfe (Eds.)? 1968. Abou-Taleb, N., I, Megahed, A. Moussa, and A. Zaky, "A New Approach to the Solution of Economic Dispatch Problems," Winter Power Meeting, New York, 1974- Adachi, N., "On Variable Metric Algorithms," /, Optimization Theory and Applications, 1, pp. 391-4.W, 1971. Adams, N., F. Beglari, M. A. Laughton, and G. Mitra, "Math Programming Systems in Electrical Power Generation, Transmission and Distribution Planning," jn Proc. 4th Power Systems Computation Conference, 1972. Afriat, S. N., "The Progressive Support Method for Convex Programming," $IAM J, Numerical Analysis, 7, pp. 447-457, 1970. Afriat, S. N., "Theory of Maxima and the Method of Lagrange," SIAM /. Applied Mathematics, 20, pp. 343-357, 1971. Agunwamba С С, "Optimality Condition; Constraint Regularjzation," Mathematical Programming, 13, pp. 38-48, 1977. Almogy, Y., and O. Levin, "A Class of Fractional Programming Problems," Operation?- Research, 19, pp. 57-67, 1971. Altman, M., "A General Separation Theorem fox Mappings, Saddle-Points, Duality, and Conjugate Functions," Studia Mathematics 36, pp. 131-166, 1970. Anderssen, R. S., L. Jennings, and D. Ryan (Eds.), Optimization, University of Queensland Press, St. Lucia, Queensland, 1972. * ^Aoki, M., Introduction to Optimization Techniques, MacMillan, New»York, 1971, Argaman Y., D. Shamir, and E. Spivak, "Design of Optimal Sewage Systems,'* J. Environmental Engineering Division American Society of Civil Engineers, 99, PP- 703-716, 1973. Arrow, K. J. and A. C. Enthoven, "Quasi-jConcaye Programming," Eco/iometrica, 29f pp. 77?-80Q; 1Я61,
632 СПИСОК ЛИТЕРАТУРЫ Arrow, К. J., F. J. Gould, and S. M. Howe, "A General Saddle Point Result for Constrained Optimization," Mathematical Programming, 5, pp. 225-234, 1973. Arrow, K. J., L. Hurwicz, and H. Uzawa (Eds.), Studies in Linear and Nonlinear Programming, Stanford Univeristy Press, Stanford, 1958. Arrow, K. J., L. Hurwicz, and H. Uzawa, "Constraint Qualifications in Maximization Problems," Naval Research Logistics Quarterly, 8, pp. 175-191, 1961. Arrow, К J , and H Uzawa, "Constraint Qualifications in Maximization Problems, II," Tech. Report No. 84, Institute of Mathematical Studies in Social Sciences, Stan- Stanford, I960. Asaadi, J., "A Computational Comparison of Some Nonlinear Programs," Mathemati- Mathematical Programming, 4, pp. 144-156, 1973. Asimov, M., Introduction to Design, Prentice-Hall, Englcwood Cliffs, N J., 1962. Avriel, M., ''Fundamentals of Geometric Programming," in Applications of Mathemati- Mathematical Programming Techniques, E. M. L. Beale (Ed.), 1970. Avriel, M., "r-Convex Functions," Mathematical Programming, 2, pp. 309-323, 1972. Avriel, M., "Solution of Certain Nonlinear Programs Involving r-convex functions, J. Optimization Theory and Applications, 11, pp. 159-174, 1973. Avriel, M., Nonlinear Programming: Analysis and Methods, Prentice Hall, Englewood Cliffs, N.J., 1976. Avriel, M., M. J. Rijkacrt, and D. J. Wilde (Eds.), Optimization and Design, Prentice* Hall, Englewood Cliffs, N.J., 1973. Avriel, M., and A. C. Williams, "Complementary Geometric Programming," SIAM J( Applied Mathematics 19, pp. 125-141, 1970a. Avriel, M., and A. C. Williams, "On the Primal and Dual Constraint Sets in Geometric Programming," J. Mathematical Analysis and Applications, 32, pp. 684-688, 1970b* Avriel, M., and I. Zang, "Generalized Convex Functions with Applications to Nonlinear, Programming," in Mathematical Programs for Activity Analysiss P, Van Moeseki ЦЕсЦ, 1974. Balakrishnant A. V. (Ed.), Techniques of Optimization Academic Press4 New York, 1972. Balas, E., and C. A. Burdet, "Maximizing a Convex Quadratic Function Subject to Linear Constraints," Management Science Research Report #299, 1973. Balas, E., "Nonconvex Quadratic Programming via Generalized Polars," SIAM J. Applied Mathematics, 28, pp. 335-349, 1975. Balinski, M. L., (Ed.), Pivoting and Extensions', Mathematical Programming Stud), No. 1, American Elsevier, New York, 1974. Balinski, M. L., and W. J. Baumol, "The Pual in Nonlinear Programming and Its Economic Interpretation," Review Economic Studies, 35, pp. 237-256, 1968. Balinski, M. L^ qn<J jE. Helleman (Eds.), Computational Practice in Mathematical Programming, Mathematical Programming Study, No. 4, American Elsevier, New, Yprk, 1975. Balinski, M. L., and P. Wolfe, (Eds.)? ftQtidiffwntiable Optimization, Mathematical Programming Study, No. 2, American Elsevjer New York, 1975. Bandler, J. W. and C. Charalambous, "Nonlinear Programming Using Minimax Techni-» ;. Optimization Theory Qn? Applications* 13, pp, 6U7-&12* 1974*
СПИСОК ЛИТЕРАТУРЫ 533 Barankin, E. W and R. Dorfman, i4On Quadratic Programming/* University of , California Publications in Statistics, 2, pp. 285-318, 1958. Bard, Y., "On Numerical Instability of Davidon-like Methods," Mathematics of Computation, 22, pp. 665-666, 1968. Bard, Y., "Comparison of Gradient Methods for the Solution of Nonlinear Parameter, Estimation Problems/' SIAM J. Numerical Analysis, 7, pp. 157-186, 1970. Bartle, R. G., The Elements of Real Analysis Bnd Edition), John Wiley & Sons, New York, 1976. J3att, J. R., and R. A. Gellatly, "A Discretized Program for the Optimal Design o? Complex Structures," AGARD Lecture Series M70, NATO, 1974. Bazaraa, M. S., "A Theorem of the Alternative with Application to Convex Program.-» ming: Optimality, Duality, and Stability," J. Mathematical Analysis and Ap~ plications, 41, pp. 701-715, 1973a. JBazaraa, M. S., "Geometry and Resolution of Duality Gaps," Naval Research Logistics Quarterly, 20, pp. 357-365,1973b. Bazaraa, M. S., "An Efficient Cyclic Coordinate Method for Constrained Optimiza* tion," Naval Research Logistics Quarterly, 22, pp. 399-404, 1975. Bazaraa, M. S., and J. J. Goode, "Necessary Optimality Criteria in Mathematical Programming in the Presence of Differentiability," Jt Mathematical Analysis and, Applications, 40, pp. 509-621, 1972. Bazaraa, M. S., and J. J. Goode, "On Symmetric Duality in Nonlinear Programming,'1 Operations Research, 21, pp. 1-9,1973a. Bazaraa, M. S., and J. J. Goode, "Necessary Optimality Criteria in Mathematical Programming in Normed Linear Spaces," /. Optimization Theory and Applications^ 11, pp. 235-244,1973b. Bazaraa, M. S., and J. J. Goode, "Extension of Optimality Conditions via Supporting; Functions," Mathematical Programming, 5, pp. 267-285,1973c, Bazaraa, M. S., and J, J. Goode, "The Travelling Salesman Problem; A Duality Approach," Mathematical Programming, 13, pp. 221-237, 1977. Bazaraa, M, S,, J. J. Goode, and С. М. Shetty, "Optimality Criteria Without Different liability," Operations Research, 19, pp. 77-86,197 U, Bazaraa, M. S., J. J. Goode, and С М. Shetty, "A Unified Nonlinear Duality Formulation," Operations Research, 19, pp. 1097-U00,1971b. Bazaraa, M. S., J. J. Goode, and C. M. Shetty, "Constraint Qualifications Revisited,'* Management Science, 18, pp. 567-573, 1972. Bazaraa, M. S., and J. J. Jarvis, Linear Programming and Network Flows, John Wiley and. Sons, N.Y., 1977. Bazaraa, M, SM and С, М. Shetty, Foundations of Optimization, Lecture Notes in. Economics and Mathematical Systems, No, 122, Springer-Verlag, New York, 1976, Beale, E. M. L. "On Minimizing a Convex Function Subject to Ltaear Inequalities," /, Royal Statistical Society. Ser. B^ 17, pp. 173-184, 1955. Beale, E. M. L., "On Quadratic Programming/' Naval Research Logistics Quarter^ 6{ pp. 227-244, 1959. Beale, E. M, L, "Numerical Methods," in Nonlinear Programming h Abadie,
534 список литературы Beale, E. M. L., "Nonlinear Optimization* Ъу Sim'plex-LIke Methods," ffl OptimitdffoH, R. Fletcher (Ed.), 1969. „ Beale, E. M. L. "Computational Methods for Least Squares," in Integer Utid Nontineaf Programming, J. Abadie (Ed.), 1970a. Beale, E. M. L. (Ed.), Applications of Mathematical Programming Techniques, English Universities Press, London, 1970b. Beale, E. M. L., "Advanced Algorithmic Features for General Mathematical Pro- Programming Systems," in Integer and Nonlinear Programming, J. Abadie (Ed.)? % 1970c. Beckenbach, E. F., and R. Bellman, Inequalities, Springer-Verlag, Berlin, 1961. Beckman, F S., "The Solution of Linear Equations by the Conjugate Gradient Method," in Mathematical Methods for Digital Computers, A. Ralston and H; Wilf (Eds.), John Wiley & Sons, New York, 1960. Beckmann, M. J. and K. Kapur, "Conjugate Duality: Some Applications to Economic Theory," /. Economic Theory, 5, pp. 292-302, 1972. Bector, C. R., "Programming Problems with Convex Fractional Functions," Operations' Research, 16, pp. 383-391, 1968. Bector, C. R., "Some Aspects of Quasi-Convex Programming," Zeitschrift fur Angewandte Mathematik und Mechanik, 50, pp. 495-497, 1970. Bector, C. R., "Duality in Nonlinear Fractional Programming," Zeitschrift fur Operations Research, 17, pp. 183-193,1973a. Bector, C. R., "On Convexity, Pseudo-Convexity and Quasi-Convexity of Composite Functions," Cahiers Centre Etudes Recherche Operationnelle 15, pp. 411-428r 1973b. JBeglari, F., and M. A. Laughton, "The Combined Costs Method for Optimal Economic Planning of an Electrical Power System," IEEE Transactions Power Apparatus and Systems, PAS-94, pp. 1935-1942, 1975. Bellman, R. (Ed.), Mathematical Optimization Techniques, University of California Press, Berkeley, 1963. Bellmore, M., H. J. Greenberg, and J. J. Jarvis, "Generalized Penalty Function Concepts in Mathematical Optimization," Operations Research^ 18, pp. 229-252, 1970. jBeltrami, E. J., "A Computational Approach to Necessary Conditions in Mathematical Programming," Bull. International Journal of Computer Mathematicsf 6, pp. 265- 273, 1967. peltrami, E. J., "A Comparison of Some Recent Iterative Methods for the Numerical Solution of Nonlinear Programs," in Computing Methods'in Optimization Problems, Lecture Notes in Operations Research and Mathematical Economics, No. 14, Springer-Verlag, New York, 1969. Beltrami, E.. J., An Algorithmic Approach to Nonlinear Analysis and Optimization, Academic Press, New York, 1970. Bereanu, В., "A Property of Convex, Piecewise Linear Functions with Applications to Mathematical Programming," Unternehmensforschung, 9, pp. 112-119, 1965. pereanu, В., "On the Composition of Convex functions," Revue Roumaine Mathematiques Pures et Appliquees, 14, pp. 1077-1084, 1969,
СПИСОК ЛИТЕРАТУРЫ 535 Bereanu, В., "Quasi-Con vexity, Strict Quasi-Convexity and Pseudo-Convexity of Composite Objective Functions," Revue Francaise Automatique, Informatique Re- Recherche Operationnelle, 6, R-l, pp. 15-26, 1972. Berge, C, Topological Spaces, Macmillan, New York, 1963. Berge, C, and A. Ghoulia-Houri, Programming, Games, and Transportation Networks, John Wiley and Sons, New York, 1965. Berman, A., Cones, Matrics and Mathematical Programmir* Lecture Notes in Economics and Mathematical Systems, No. 79, Springer-Verlag, New York, 1973. Bertsekas. D. P., "On Penalty and Multiplier Methods for Constrained Minimization,'* in Nonlinear Programming-!., O. L. Mangasarian, R. Meyer, and S. M. Robinson (Eds.), Academic Press, New York, 1975. Bertsekas, D. P., and S. K. Mitter, "A Descent Numerical Method for Optimization Problems with Nondifferentiable Cost Functionate," SIAM J. Control 11, pp. 637-652, 1973. Best, M. J., "A Method to Accelerate the Rate of Convergence of a Class of Optimization Algorithms," Mathematical Programming, 9, pp. 139-160, 1975. Bcveridge, G., and R. Schechter, Optimization: Theory and Practice, McGraw-Hill, New York, 197Q. Bhatia, D., "A Note on Duality Theorem for a Nonlinear Programming Problem," Management Science, 16, pp. 604-606, 1970. Bhatt, $. K., and S. K. Misra, "Sufficient Optimality Criteria in Nonlinear Programming in the Presence of Convex Equality and Inequality Constraints," Zeitschrift fur Operations Research, 19, pp. 101-105, 1975. Bitran, G. R., and T. L. Magnanti, "Duality and Sensitivity Analysis for Fractional Programs," Operations Research, 24, pp. 657-699, 1976. Bitran, G. R., and A. G. Novaes, "Linear Programming with a Fractional Objective Function," Operations Research, 21, pp. 22-29, 1973. Blum, E., and W. Oettli, "Direct Proof of the Existence Theorem for Quadratic Programming," Operations Research, 20, pp. 165-167, 1972. Blum, E., and W. Oettli, Mathematische Optimierung-Grundlager und Verfahren, Econometrics and Operations Research, No. 20, Springer-Verlag, New York, 1975. Boot, J. С G., "Notes on Quadratic Programming: The Kuhn-Tucker and Theil-van de Panne Conditions, Degeneracy and Equality Constraints," Management Science, 8, pp. 85-98, 1961. Boot, J. C. G., "On Trivial and Binding Constraints in Programming Problems,'* Management Science, 8, pp. 419-441, 1962. Boot, J. C. G., "Binding Constraint Procedures of Quadratic Programming," Economet- rica, 31, pp. 464-498,1963a. Boot, J. С G. "On Sensitivity Analysis in Convex Quadratic Programming Problems," Operations Research, 11, pp. 771-786,1963b. Boot, J. C. G., Quadratic Programming, North-Holland, Amsterdam, 1964. Box, M. J., "A Comparison of Several Current Optimization Methods, and the Use of Transformations in Constrained Problems," Computer Journal 9, pp» 07-77» 1966.
636 список «Во*, М JT., rtA Mew Method of Constrained Optimization ancf a Compandor? Vith Other Methods," Computer Journal, 8, pp. 42-52, 1965. Box, M. J., D. Davies, and W. H. Swann, Nonlinear Optimization Techniques, I.C.I, Monograph, Oliver and Boyd, Edinburgh, 1969. Bracken, J., and G. P. McCormick, Selected Applications of Nonlinear Programming, ' John Wiley and Sons, New York, 1968. Bram, J., "The Lagrange Multiplier Theorem for Max-Min with Several Constraints/' SIAM J. Applied Mathematics, 14, pp. 665-667, 1966. Braswell, R. N., and J. A. Marban, "Necessary and Sufficient Conditions for the Inequality Constrained Optimization Problem Using Directional Derivatives," In- International J. Systems Science, 3, pp. 263-275, 1972. Brent, R. P., Algorithms for Minimization without Derivatives, Prentice-Hall, Engfewood Cliffs, N.J., 1973. Brodlie, K. 'W,.y "An Assessment of Two Approaches to Variable Metric Methods,'1 Mathematical Programming, 12, pp. 344-355, 1977. Br0ndsted, A., and R. T. Rockafeller, "On the Subdifferential of Convex Functions,'* Proceedings of American Mathematical Society, 16, pp. 605-611, 1965. Brooks, R., and A. Geoflfrion, "Finding Everett's Lagrange Multipliers by Linear Programming," Operations Research, 16, pp. 1149-1152, 1966. Brooks, S. H., "A Discussion of Random Methods for Seeking Maxima," Operations Research, 6, pp. 244-251, 1958. Brooks, S. H., "A Comparison of Maximum Seeking Methods," Operations Research, 7, pp. 430-457, 1959. Broyden, C. G., "A Class of Methods for Solving Nonlinear Simultaneous Equations, Mathematics of Computation, 19, pp. 577-593, 1965. Broyden, C. G., "Quasi-Newton Methods and Their Application to Function Minimiza- Minimization/' Mathematics of Computation, 21, pp. 368-381, 1967. Broyden, C. G., "The Convergence of a Class of Double Rank Minimization Al- Algorithms 2. The New Algorithm," J. Institute of Mathematics and Its Applications) 6, pp. 222-231, 1970. Broyden, C. G., J. E. Dennis, and J. J. More, "On the Local and Superlinear Convegence of Quasi-Newton Methods," J. Institute of Mathematics and Jts ap- applications, 12, pp. 223-245,1973. Buck, R. C, Mathematical Analysis, McGraw-Hill, New York, 1965. Buras, N., Scientific Allocation of Water Resources, American Elsevier, N.Y., 1972". Burdet, C. A., "Elements of a Theory in Nonconvex Programming," Naval Research Logistics Quarterly, 24, pp. 47-66, 1977. Jiurley, D. M., Studies in Optimization, John Wiley, New York, 1974. •Cabot, V. A., and R. L. Francis, "Solving Certain Nonconvex Quadratic Minimfzation Problems by Ranking Extreme Points," Operations Research, 18, f>p. 82-86, 1970. Camerini, P. M., L. Fratta, and F. Maffioli, "On Inproving Relaxation Methods by" \ Modified Gradient Techniques," in Nondifferentiable Optimization, M. L. Balinski and P. Wolfe (Eds.), 1975. Camp, G. D., "Inequality-Constrained Stationary-Value Problems/' Operations Rg« search, 3, pp. 548-550, 1955.
СЛИСОК ЛИ1ЕРАГУ?Ы 53? Carfdfer* W., a'ricf ft 1 TbvviTsley*, "The Maximization of a Quadratic Function of Variables Subject to JJnear Inequalities'," Management Science, 10, pp. 515-523, 1964. Canon, M. D., and C. D. Cullum*, "A Tight Uppper Bound on the Rate of Convergence of the Frank-Wolfe Algorithm/' SIAM J. Control 6, pp. 509-516, 1968. Canon, M. D., C. D. Cullum, and E. Polak, ''Constrained Minimization Problems in Finite Dimensional Spaces," SIAM J. Control, 4, pp. 528-547, 1966. Canon, M, D., C. Cullum, and E. Polak, Theory of Optimal Control and Mathematical Programming, McGraw-Hill; New York, 1970. Canon, M. D., and J. H. Eaton, "A New' Algorithm for a Class of Quadratic Programming Problems, with Application to Control," SIAM J. Control, 4, pp. 34-44, 1966. Cantrell, J. W. "Relation Between the Memory Gradient Method and the Fletcher- Reeves* Method," /. Optimization Theory and. Applications, 4, pp. 67-71, 1969. Carnillo M. J., "A Relaxation Algorithm for the Minimization of a Quasiconcave* Function on a Convex Polyhedron," Mathematical Programming, 13, pp. 69-80, •1977. Carroll, C. W., "The Created Response Surface Technique for Optimizing Nonlinear Restrained Systems," Operations Research, 9, pp. 169-184, 1961. Cass, D., "Duality: A Symmetric Approach from the Economist's Vantage Point," /. Economic Theory, 1, pp. 272-295, 1974. Charnes, A., and W. W. Cooper, "Nonlinear Power of Adjacent Extreme Point. Methods of Linear Programming," Econometrica, 25, pp. 132-153, 1957. Charnes, A., arid W. W. Cooper, "Chance Constrained Programming," Management Science, 6, pp. 73-79, 1959. Charnes, A.-, and W. W. Cooper, Management Models and Industrial Applications of Linear Programming, 2 volumes, John Wiley & Sons, New York, 1961. Charnes, A., and W. W. Cooper, "Programming with Linear Fractionate," Naval Research Logistics Quarterly, 9, pp. 181-186, 1962. Charnes, A.,'and W. W. Cooper, "Deterministic Equivalents for Optimizing and. Satisfying Under Chance Constraints," Operations Research, 11, p. 18-39, 1963. Cbarnes, A., W. W. Cooper, and К. О. Kortanek, "A Duality Theory for Convex Programs with Convex Constraints," Bull. American Mathematical Society, 68, pp. 605-608, 1962. Charnes, A., M. J. L. Kirby/ and W. M. Raike, "Solution Theorems in Probablistic Programming: A Linear Programming Approach," J. Mathematical Analysis and Applications, 20,'pp. 565-582, 1967. Citron, S. J., Elements of Optimal Control, Holt, Rinehart, and Winston, New York, 1969. Cohen, A., "Rate of convergence of Several Conjugate Gradient Algorithms," SIAMJ. Numerical Analysis, 9, pp: 2487259, 1972. Cohn, M. Z. (Ed.), An Introduction to Structural Optimization, University of Waterloo* Press, 1969. Colville, A. R., "A Comparative Study of Nonlinear Programming Codes," in Pro- Proceedings of the Princeton Symposium on Mathematical Programming, H. Kuhn (Ed.), 1970,
538 СПИСОК ЛИТЕРАТУРЫ Conn, A., R. "Constrained Optimization Using a Nondifferentiable Penalty Function," SIAM J. Numerical Analysis, 10, pp. 760-784, 1973. Conti, R., and A. Ruberti (Eds.), 5th Conference on Optimization Techniques, Part 1, Lecture Notes in Computer Science, No. 3), Springer-Verlag, New York, 1973. Cottle, R. W., "A Theorem of Fritz John in Mathematical Programming/* RAND Corporation Memo, RM-3858-PR, 1963a. Cottle, R. W., "Symmetric Dual Quadratic Programs/' Quart. Applied Mathematics, 21, pp. 237-243,1963b. Cottle, R. W., "Note on a Fundamental Theorem in Quadratic Programming," SIAMJ% Applied Mathematics, 12, pp. 663-665, 1964. Cottle, R. W., "Nonlinear Programs With Positively Bounded Jacobians," SIAM J. Applied Mathematics, 14, pp. 147-158, 1966. Cottle, R: W., "On the Convexity of Quadratic Forms Over Convex Sets/* Operations Research, 15, pp. 170-172, 1967. Cottle/ R. W., "The Principal Pivoting Method of Quadratic Programming," in. Mathematics of the Decision Sciences, G. B. Dantzig and A. F. Veinott (Eds.), 1968. Cottle, R. W., and G. B. Dantzig, "Complementary Pivot Theory of Mathematical Programming/' Linear Algebra and Applications, 1, pp. 103-125, 1968. Cottle, R. W., and G. B. Dantzig, "A Generalization of the Linear Complementarity Problem/' J. Combinational Theory, 8, pp. 79-90, 1970. Cottle, R. W., and J. A. Ferland, "Matrix-Theoretic Criteria for the Quasi-Convexity and Pseudo-Convexity of Quadratic Functions," 7. Linear Algebra and Ap~ plications, 5, pp. 123-136, 1972. Cottle R. W., and С Е. Lemke (Eds.), Nonlinear Programming, American Mathematical Society, Providence, R.I., 1976. Crabill, Т. В., J. P. Evans, and F. J. Gould, "An Example of an Ш-Conditioned NLP Problem," Mathematical Programming, 1, pp. 113-116, 1971. Cragg, E. E., and A. V. Levy, "Study on a Supermemory Gradient Method for the Minimization of Functions," /, Optimization Theory and Applications, 4, pp. 191— 205, 1969. Craven, B. D., "A Generalization of Lagrange' Multipliers/' Bull, Australian Mathematical Society, 3, pp. 353-362, 1970. Crowder, H,, and P. Wolfe, "Linear Convergence of the Conjugate Gradient Method," IBM J. Research and Development, 16, pp. 407-411, 1972. Cryer, C. W., "The Solution of a Quadratic Programming Problem Using Systematic Overtaxation," SIAM J. Control, 9, pp. 385-392, 1971. Cullen, C. G., Matrices and Linear Transformations Bnd Edition), Addison-Wesley, Reading, Mass. 1972. Cullum, J., "An Explicit Procedure for Discretizing Continuous Optimal Control Problems," J. Optimization Theory and Applications, 8, pp. 15-34, 1971, Curry, H. В., "The Method of Steepest Descent for Nonlinear Minimization Problems/' Quart. Applied Mathematics, 2, pp. 258-263, 1944. Dajani, J. S., R. S. Gemmel, and E. K. Morlok, "Optimal Design of Urban Waste. Water Collection Networks," J. Sanitary Engineering Division, Am. Soc, Civilit /Engineering, 98-SAG, pp. 853-86.7, 1972.
СПИСОК ЛИТЕРАТУРЫ 539 Daniel, J. "Global Convergence for Newton Methods in Mathematical Programming," J. Optimization Theory and Applications, 12, pp. 233-241, 1973. Panskin, J. W., The Theory of Max-Min and Its Applicants to Weapons Allocation Problems, Springer-Verlag, New York, 1967. Pantzig, G. В., "Maximization of a Linear Function of Variables subject to Linear Inequalities," in Activity Analysis of Production and Allocation, Koopman (Ed.), Cowles Commisson Monograph, 13, John Wiley & Sons, New York, 1951. Dantzig, G. В., "Linear Programming Under Uncertainty," Management Science, 1, pp. 197-206, 1955. Dantzig, G. В., "General Convex Objective Forms," in Mathematical Methods in the Social Sciences, K. Arrow, S. Karlin, and P. Suppes (Eds.), Stanford University Press, Stanford, I960. *TDantzig, G. В.. Linear Programming and Extensions, Princeton University Press, Princeton, N.J., 1963. Dantzig, G. В., "Linear Control Processes and Mathematical Programming," SIAM J. Control, 4, pp. 56-60, 1966. Dantzig, G. В., Е. Eisenberg, and R. W. Cottle,. "Symmetric Dual Nonlinear Prog- Programs/'. Pacific J. Mathematics, 15, pp. 809-812, 1965. Dantzig, G. В., S. M. Johnson, and W. B. White, "A Linear Programming Apprach to .the Chemical Equilibrium Problem," Management Science, 5, pp. 38-43, 1958. Dantzig, G. В., and A. Orden, "Duality Theorems," RAND Report RM-1265, The RAND Corporation, Santa Monica, Calif., 1953. Dantzig, G. В., and A. F. Veinott, (Eds.), Mathematics of the Decision Sciences, Part 1, 2 Lectures in Applied Mathematics, Nos. 11, 12, American Mathematical Society, Providence, R.I., 1968. Davidon, W. C, "Variable Metric Method for Minimization," АЁС Research Develop* ment Report, ANL-5990, 1959. Davidon, W. C, "Variance Algorithms for Minimization," in Optimization, R. Fletcher (Ed.), 1969. # Davies D., "Some Practical Methods of Optimization," in Integer and Nonlinear Programming, J. Abadie (Ed.), 1970. DavieSf D., and W. H. Swann, "Review of Constrained Optimization," in Optimization, R. Fletcher (Ed.), 1969. ?)eb, A. K;, and A. K. Sarkar, "Optimization in Design of Hydraulic Networks," J, Sanitary Engineering Divison* American Society Civil Engineers 97-SA2, pp. 141- 159, 1971. Demyanov, V. F., "Algorithms for some Minimax Problems," J. Computer and,System Sciences, 2, pp. 342-380, 1968. Demyanov, V. F., "On the Maximization of a Certain Nondifferentiable Function," J. Optimization Theory and Applications, 1, pp. 75-89, 1971. Demyanov, V. F., and A. M. Rubinov, "The Minimization of a Smooth Convex Functional on a Convex Set," J. SIAM Control, 5, pp. 280-294, 1967. *?>ennis, J. В., Mathematical Programming and Electrical Networks, M.I.T. Press and John Wiley, New York, 1959. Pinkelbach, W., "On Nonlinear Fractional Programming," Management Science 13» pp. 4^2-4^, 1V&7.
540 СПИСОК ЛИТЕРАТУРЫ Dixon, U С. W., "Quasi-Newton Technique's*Generate Identical Points II The Proofs of Four New Theorems," Mathematical Programming, 3, pp. 345-35S, 1972a. Dixon, L. C. W., "The Choice of Step Length, A Crucial Factor in the Performance Of Variable Metric Algorithms," in Numerical Methods for Nonlinear Optimization, F, A. Lootsma (Ed.), 1972b. Dixon, L. С W.} Nonlinear Optimization» The English Uni\cisiticS Press, London, 1972c. Dixon, L. C. W., "Variable Metric Algorithms: Necessary and Sufficient Conditions for Identical Behavior of Nonquadratic Functions," J. Optimization Theory and Ap* plications, 10, pp. 34-40, 1972d. Dixon, L. C. W., "ACSIM—An Accelerated Constrained Simplex Techniques," Cum* puter Aided Design, 5, pp. 23-32, 1973. pixon, L. C. W., (Ed.), Optimization in Action, Academic Press, New York, 1976. Dorfman, R., P. A, Samuelson, and R. M Solow, Linear Programming and Economic Analysis. McGraw-Hill, New York, 1958. Dorn, W. S., "Duality in Quadratic Programming," Quart. Applied Afaf/iemaf/cs, 1& pp. 155-162, 1960. Dorn, W. S., "On Lagrange Multipliers and Inequalities," Operation Research 9, p?>, 95-104, 1961. Dorn, W. S., "Linear Fractional Programming/" IBM Research Report, RC-830, 1062, Dorn, W. S., "Nonlinear Programming—A Survey," Management Science, 9. pp. 171-208, 1963. Du Val, P., "The Unloading Problem for Plane Curves," American J. Mathematics, 623 pp, 307-311, 1940. Dubois, J.. "Theorems of Convergence for Improved Nonlinear Piogrammir\g Al- Algorithms," Operations Research, 21, pp. 328-332, 1973. i)ubovitskii, M. D., and A. A. Milyutin, "Extremum Problems in the Presence Of Restriction," USSR Computational Mathematics and Mathematical Physics* 5* pp« 1-80, 1965. Duffin, R. J. "Convex Analysis Treated by Linear Programming," Mathematical Prog- ramming, 4. pp. 125-143, 1973. Dufrin, R. J., and E. L. Peterson, "The Proximity ol (Algebraic) Geometric Progra~m> ming to Linear Programming,'* Mathematical Programming, 3, pp. 250-253, 1972. Duffin, R. J., and E. L. Peterson, 'Geometric Programming with Sigriomials,*1 J. Optimization Theory and Application, 11, pp. 3-35, 1973. Duffin, R. J., E. L. Peterson, and С Zcnert Geometric Programming, John Wiley» New York, 1967. Eaves, B. C, "On the Basic Theorem of Complementarity^1 Mothemaiicj&iProgram- Mothemaiicj&iProgramming, *,ppt 68-75,197lat paves, B. Q.t "The Linear Complementarity Problem,1' Management Science^ Г74 pp. 612-634,1971b. feaves, B. C* "On Quadratic Programming»41 Management Sciencet 174 pp. 698-711, 1971c. Eaves, B. C, ''Computing Kakutani Fks& Pfiinte*11 SiAM У. Aj?J>lkd Mathematics* 21, ЕР* 23&2&&. lZLkL'
СПИСОК ЛИТЕРАТУРЫ 541 E3ves\ В. С, and W. I. Zangwifi, "Generalised Cutting Plane Algorithms," SIAM Л Control 9, pp. 529-542, 1971. Eckhardt, U., "Pseudo-complementarity Algorithms for Mathematical Program* ming," in Numerical Methods for Nonlinear Optimization, F. A. Lootsma (Ed.), 1972. Eggleston, H. G., Convexity, Cambridge University Press, Ca, ibridge, i958, Eisenberg, E., ''Supports of a Convex Function," Bull. American Mathematical Society, 68, pp. 192-195, 1962. Eisenberg, E. "On Cone Functions," in Recent Advances in Mathematical Program- Programming, R. L. Graves and P. Wolfe (Eds.), 1963.- Eisenberg, E., "A Gradient Inequality for a Class of Nondifferentiable Functions," Operations Research, \4, pp. 157-163, 1966. Elmaghraby, S. E., "Allocation Under Uncertainty When the Demand Has Continuous d.f./' Management Science, 6, pp. 270-294, 1960. Elzinga, J. and T. G. Moore, "A Central Cutting Plane Algorithm for the Convex Programming Problem/' Mathematical Programming, 8, pp. 134-145, 1975. Evans> J. P., "On Constraint Qualifications in Nonlinear Programming," Naval Re- Research Logistics Quarterly, 17, pp. 28,1-286, 1970. Evans, J. P., and F. J. Gould, "Stability in Nonlinear Programming," Operations Re- Research, 18, pp. 107-118, 1970. Evans, J. P., and F. J. Gould, "On Using Equality-Constraini lgorithms for Inequality Constrained Problems," Mathematical Programming, 2, pp. 324-329, 1972a. Evans) J. P., and F. J. Gould, "A Nonlinear Duality Theorem Without Convexity,'* Econometrica, 40, pp. 487-496, 1972b. tvan§, J. P,, and P. J. Gould, "A Generalized Lagrange Multiplier Algorithm for Optimum or Near Optimum Production Scheduling," Management Science, 18, pp. 299-311, 1972c. Evans, J. P., and F. J. Gould, "An Existence Theorem for Penalty Function Theory/* SIAM J. Control, 12, pp. 509-516, 1974. Evans, J. P., F. J. Gould, and S. M. Howe, "A Note on Extended GLM/' Operations' Research, 19, pp. 1079-1080, 1971. Evans, J. P., F. J. Gould, and J W. Tolle, "Exact Penalty Functions in Nonlinear Programming," Mathematical Programming, 4, pp. 72-97, 1973 Everett, H., "Generalized LaGrange Multiplier Method for Solving Problems. of Optimum Allocation of Resources," Operations Research 11, pp. 399-4t7f .. 1963. EvefS, W. H., "A New Model for Stochastic Linear Programming," Management Science, 13. pp 680-693, 1967. *Fadeey', D. K., and V. N. Fadeva, Computational Methods of Linear Algebra, W. H; fteeman, San Francisco, 1963. fallc, X, "Ё. "Lagrange Multipliers 'and' Nonlineaf t?/6grarnmfngjJ1 / Mathematical AnaTysis and Applications, 19,-pp, t4t-159, l%t Falk, J. IS, frtagrange Multipliers arid ttfonconvex Programs," SfAMJ. Control, 7, pp. 534-545, \Щ. Fal)c, J. E., "Conditions for Global Optirria]itj? In JNbfllineax Programming/' Operations Research 21, pp.
542 СПИСОК ЛИТЕРАТУРЫ Farkas, I, "Uber die Theorie cfer einfachert Ungleichungefi,* /. fur die Reine Und Angewandte Mathematik. 124, pp. 1-27, 1902. Faure, P., and P. Huard, "Resolution des Programmes UfathematiqUeS 5 Fonctioa Nonlinearire par la Methode der Gradient Rediut/' Revue Fjancalse de'Recherche/ Operationelle, 9, pp. 167-205, 1965. Fenchel, W., "On Conjugate Convex Functions,*' Canadian /. Siathemdtics} 1, pp# 73-77, 1949. Fenchel, W,, '/Convex Cones, Sets, and Functions," Lecture Notes (mimeographed)* Princeton University, 1953. Ferland, J. A., "Mathematical Programming Problems with Quasi-Convex Objective, Functions," Mathematical Programming 3, pp. 296-301, 1972. Fiacco, A. V., "A General Regularized Sequential Unconstrained Minimization Techni-» que," SIAM J. Applied Mathematics, 17, pp. 1239-1245, 1969. fiacco, A. V., "Penalty Methods for Mathematical Programming in E* with General Constraint Sets," J. Optimization Theory and Applications, 6, pp. 252-268, 1970. fiacco, A. V., "Convergence Properties of Local Solutions of Sequences of Mathematb cal Programming Problems in General Spaces," J. Optimization Theory and Ap* plications, 13,' pp. 1-12, 1974. Fiacco, A. V., "Sensitivity Analysis for Nonlinear Programming Using Penalty Methods/' Mathematical Programming, 10, pp. 287-311, 1976. Fjacco, A. V., and G. P. McCormick "The Sequential Unconstrained Minimization Technique for Nonlinear Programming, A Primal-Dual Method/2 Management Science, 10, pp. 360-366, 1964a. Fiacco, A. V. and G. P. McCormick, "Computational Algorithm for the Sequential Unconstrained Minimization Technique for Nonlinear Programming," Management Science, 10, pp. 601-617,1964b. Fjacco, A. V., and G. P. McCormick, "Extensions of SUMT for Nonlinear Prdgram- ming: Equality Constraints an4 Extrapolation/1 Management Science, J.2, pp. 816-828, 1966. Fiacco, A. V., and G. P. McCormick, "The Slacked Unconstrained Minimization Technique for Convex Programming," SI AM J, Applied, Mathematics, 15, pp. 505-515^1967a. Fiacco, A, V., and G. P. McCormick, "The Sequential Unconstrained Minimization Technique (SUMT), without Parameters/' Operations Research, 15, pjpt 820-827, 1967b., *FiaCcoA.A. V., and G. P. McCormick, Nonlinear Programming: Sequential Unconstrained Minimization. Techniques, John Wiley & Sonst New York, 1968. tti^ B, De^ ltSulla stratificazoni cony^Oe/* Annali di Mafematica Puf$$&Applicata 141* Pp. 173-183, 1949. ^ В., and P. Kail, "Direct Algorithms in Quadratic Programming^ Zeitschrift fur Operations, Research, 17, pp. 45-54, 1973, Fisher, M, L., and F.J. Gould, A Simplicial Algorithm for the Nonlinear Complemen- Complementarity Problem," Mathematical Programming, 6, pp. 281-300, 1974. Fi§her, M, L., W. D. Northup, and J. F. Shapiro, "Using Duality to Solve Discrete Optimization Problems: Theory and Computational Experience/' i^ kQ Bki and ?A Wol^ IB* Ъ127J»
СПИСОК ЛИТЕРАТУРЫ 543 Ш, Тм №ih№aftcaIAMhst*McGtewAW]}fcMYc>rki 1966. Flctchci, R.. ' Function Minimization without Evaluating berivativcs — A Review/* Computer Journal «S, pp 33-41» 1965. Fletcher, R (Ed ), Optimization, Academic Press, London, 1969a. Fletchei. R . "A Rc\icw of Methods for Unconstrained Optimization," In Optimization. R. Fletcher (Ed.), pp !-i2.J969b, Fletcher. R , "A New Approach to VaifabfeMetric Algorithms/1 Computer Journal. 13. pp. 317-322.1970a. Fletcher, R . "A Class of Methods fof HonTfneaf Programming with Termination and Convergence "Properties," Tn Integef'urid Nonlinear Programming, J. Abadie (Ed.), 1970b/ Fletcher, R.V"A <Jci16ra( OuacfrftfiC Wogfarrtrriing Algorithm/' J. Institute of Mathema* iu s c'ui'J Jin Applications, 7, pp- 76-91, 1971. Fletcher. R* л'А Class of Methods for Nonlinear Programming III: Rates of Con-, A'Cfi*onc<*%" hi Numerical Method* for Nonlinear Optimization, F. A. Lootsma (Ed ), 1972a, Ffelcher, R.. "Minimizing General Functions Subject to Linear Constraints." in Numcr* ical Methods for Nonlinear Optimizatidn. F. A.'Lootsma (Ed.), 1972b. Ffctcher, R.. "An Algorithm for Solving Linearly Constrained Optimization Problems." Mathematical Programming. 2% pp. 133-161, 1072c. Fletcher, R., "An Exact Penalty Function for Nonlinear Programming with In-* equalities/' Mathematical Programming, 5, pp. -129*150, 1973. FFfitchcr. R . and S. Lill. "A Class of Methods for Nonlinear Programming II: Computa- Computational Experience/' in Nonlinear Programming* }. Bt Roscnt O. L. Mangasarian, K» Kilter (Eds.). 1971. Fletcher, R. and A.: McCanrr, ^AcccFeration TecTinfques fof Nonlinear Programming/' in Optimization. R, Fletcher (Ed.), 1969, Fletcher, R.. and M Powell» 4*A Rapidly Convergent Descent Method for Minimiza- Minimization/" Computer Journal 6, pp. 163-168, 1963. FfcTcher, R., and 0* Recvcst "Function Minimfzatioaby Conjugate Gradients/' Com-* pilfer Journal 7. pp. 149-154, 1964. Forty the. C, and T. Motzk'in. "Acceleration Of the Optimum Gradient Method/' Butt* American Mathematical Society 57, pp. 304-305, 1951, Го*. R. L.. "Mathematical Methods in Optimization/4 in An Introduction to Structural Optimization M. Z, Cohn (Ed.), University of Waterloo, 1969. Го*, "R. L,, Optimization Methods for Engineering Designx Addison-Wesley, Reading» Mass, 197 L ., ancf P. WoIte/^Art Arjgonthnt fof Quadratfc Programming/*'Nflt-fl/ Research Logistics Quarterly, 3, pp. 95-110, 1956. cI, R, J., 'The- tntroductiort of Wsfc'With,ВP/Ogrflmming Model/' Econometrica, 24, pp. 253-263, 1956. Fr/edTriian, 1*.г arid K, U Kndei\ €tOfc)tmiTzatroft 6f SfmuTdtfort Model of a Chemical, "Plan!/' Industrial and Engineering Chemistry Product Research and Development, N IU pp. 512-520, 1972, (Jarstka, S. J., "Regufanty Condftibn? fof^t Cte of Convex Programs," Management * Science, 20, pp! 373-377, 1973-
544 список литературы iGehner, К. R , "Necessary and Sufficient" OptFmalTty Conditions" for* tbe Vftii: Joftr» ' Problem with Linear Equality Constraints/1 SIAM J. Control, 12, pp. 140-J49, 1974. Geoffnon, A. M , "Strictly Concave Parametric Programming, I, II," Management Science, 13, pp. 244-253, 1966, and 13, pp. 359-370, 1967a. Geoffrion, Л M., "Reducing Concave Programs with Some Linear Constraints," SIAM J. Applied Mathematics, 15, pp. 653-664, 1967b. Geoffrion, A. M., "Stochastic-Programming with Aspiration or Fractile Criteria," Management Science, 13, pp. 672-679. 1967c. Geoffrion, A. M., "Proper Efficiency and the Theory of Vector Maximization,'* J. Mathematical Analysis and Applications, 22, 618-630, I96S Geoffrion, A. M.. "A Markovian Procedure for Strictly Concave Programming with Some Linear Constraints," in Proceedings of the Fourth International Conference on Operational Research, Wiley-Interscience, New York, 1969. Geoffrion, AM, "Primal Resource-Directive Approaches for Optimizing Nonlinear Decomposable Systems," Operations Research, IS, pp. 375-403, 1970a. Geoffrion, A. M . "Elements of Large-Scale Mathematical Programming, I, II/* Management Science. 16, pp 652-675. 676-691. 1970b. Geoffrion, A. M., "Large-Scale Linear and Nonlinear Programming," in Optimization Methods for Large-Scale Systems. D. A. Wismer (Ed.). 1971a Geqffnon. A. M . "Duality in Nonlinear Programming- A Simplified Applications- Oriented Development," S/AftTReuiew, 13, pp. 1-37, 1971b. Geoffrion, A M . "Generalized Benders Decomposition/* J. Optimization Theory and Applications. 10. pp. 237-260. 1972a. Geoffrion, A M (Ed ). Perspectives on Optimization, Addison-Wesley, Reading, Mass., 1972b. Geoffrion, A. M., "Objective Function Approximations in Mathematical Program- Programming," Mathematical Programming, 13, pp. 23-37, 1977. Gerencscr, L., "On a Close Relation Between Quasi-Convex and Convex Functions'and Related Investigations," Mathematische Operationsforschung und Statist, 4r pp. 201-211, 1973. •Ghani, S. N , "An Improved Complex Method of Function Minimization/1' Computer Aided Design, 4, pp. 71-78, 1972. Gilbert, E. G , "An Iterative Procedure for Computing the Minimum of a Quadratic Form on a Convex Set," SIAM J. Control, 4, pp. 61-80, 1966. Gill, P. E., and W. Murray, "Quasi-Newton Methods for Unconstrained Optimization/4 J. Institute of Mathematics and Its Applications, 9, pp.-91-108, 1972. Gill, P. E., and W. Murray, "Newton-Type Methods for Unconstrained and Linearly Constrained Optimization," Mathematical Programming, 7, pp. 311-350, 1974a. *Gill, P. E., and W. Murray. Numerical Methods for Constrained Optimization, Academic Press, New York, 1974b Gill, P. E., W. Murray, and P A Pitfield, "The Implementation of Two Revised Quasi-Newton Algorithms for Unconstrained Optimization/1. Report NAC-11, ' National Physical Lab., 1972. Cillmore, P. C, and R. E. Gomory, "A Linear Programming Approach to the Cutting Stock Problem, Part II/' ОрегаЦтДешкПг U, pp. 863-888, 1903.
СПИСОК ЛИТЕРАТУРЫ 546 G'irsanbv, I. V., Lectures on Mathematical Theory ofExtremum Problems, Lecture Notes * in Economics and Mathematical Systems, No. 67, Springer-Verlag, New York. 1972. Gittleman, A., "A General Multiplier Rule/' J. Optimization Theory and Applications, 7, pp. 29-38, 1970. Glass, H., and L. Cooper, "Sequential search: A Method for Solving Constrained Optimization Problems," J. Association Computing Machinery, 12, pp. 71-82, 1965. ' ' Goldfarb, D., "Extension of Davidon's Variable Metric Method to Maximization Under Linear Inequality and Equality Constraints," SIAM J. Applied Mathematics 17, pp. 739-764,1969a. Goldfarb, D., "Sufficient Conditions for the Convergence of a Variable Metric Al- Algorithm/' in Optimization, R. Fletcher (Ed.), 1969b. Goldfarb, D., "A Family of Variable Metric Methods Derived by Variational Means,'1 Mathematics of Computation, 24, pp. 23-26, 1970. Goldfarb, D., "Extensions of Newton's Method and Simplex Methods for Solving Quadratic Programs," in Numerical Methods for Nonlinear Optimization, F. A. Lootsma (Ed.), 1972. Goldfarb, D., and L. Lapidus, "A Conjugate Gradient Method for Nonlinear Program- Programming," Industrial and Engineering Chemistry Fundamentals, 7, pp. 142-151, 1968. Goldfeld, S. M., R. E. Quandt, and M. F. Trotter, "Maximization by Improved Quadratic Hill Climbing and Other Methods," Econ.. Res. Memo 95, Princeton University Research Program, 1968. Goldstein, A. A., "Cauchy's Method of Minimization," Numerische Mathematik, 4, pp. 146-150, 1962. Goldstein, A. A., "Convex Programming and Optimal Control," SIAM J. Control, 3, pp. 142-146, 1965a. Goldstein, A. A., "On Steepest Descent," SIAM J. Control, 3, pp. 147-151, 1965b. Goldstein, A. A., "On Newton's Method," Numerische, Mathematik, 7, pp. 391-393, 1965c. Goldstein, A. A., and J. F. Price, "An Effective Algorithm for Minimization/* Numerische Mathematik, 10, pp. 184-189, 1967. Golub, G. H., and M. A. Saunders, "Linear Least Squares and Quadratic Program- Programming," in Nonlinear Programming, J. Abadie (Ed.), 1970. Gomory, R., "Large and Nonconvex Problems in Linear Programming," Proc. Sym- Symposium Applied Mathematics, 15, pp. 125-139, American Mathematical Society, Providence, R.I. 1963. Gottfred, B. S., and J. Weisman, Introduction to Optimization Theory^ Prentice-Hall, Englewood Cliffs, N.J., 1973. 'i Gould, F. J., "Extensions of Lagrange Multipliers in Nonlinear Programming/' SIAM J. Applied Mathematics 17, pp. 1280-1297, 1969. Gould, F. J., "A Class of Inside-Out Algorithms for General Programs/7 Management Science, 16, pp. 350-356, 1970. Gould, F. J., "Nonlinear Pricing: Applications to ?oncave programming," Operations* Research, 19, pp. 1026-1035, 1971.
546 СПИСОК ЛИТЕРАТУРЫ Gould, F. j., and J. W. Tolle, "A Necessary aricf Suftfcfenf duafificatibn for Corisframecfi Optimization," SIAM J. Applied Mathematics, 20, pp. 164-172, 1971. 'Gould, F. J., and J. W. Tolle, "Geometry of Optimality Conditions and Constraint Qualifications," Mathematical Programming, 2, pp. 1-18, 1972. Graves, R. L., "A Principal Pivoting Simplex Algorithm for Linear and Quadratic Programming," Operations Research, 15, pp. 482-494, 1967. Graves, R. L., and P. Wolfe, Recent Advances in Mathematical Programming, McGraw- Hill, New York, 1963. Greenberg, H. J., "A Lagrangian Property for Homogeneous Programs," /. Optimiz- Optimization Theory and Applications, 12, pp. 99-102, 1973a. Greenberg, H. J. "The Generalized Penalty-Function/Surrogate Model," Operations Research, 21, pp. 162-178, 1973b. ' Greenberg, H. J., "Bounding Nonconvex Programs by Conjugates," Operations Re- Research, 21, pp. 346-348,1973c. Greenberg, H. J., and W. P. Pierskalla, "Symmetric Mathematical Programs," Management Science, 16, pp. 309-312, 1970. Greenberg, H. J., and W. P. Pierskalla, "Surrogate Mathematical Programming," Operations Research, 18, pp. 924-939, 1970a. Greenberg, H. J., and W. P. Pierskalla, "A Review of Quasi-Convex Functions/ Operations Research, 29, pp. 1553-1570, 1971b. Greenberg, H. J., and W. P. Pierskalla, "Extensions of the Evans-Gould Stability Theorems for Mathematical Pro-ams," Operations Research, 20, pp. 143-153,1972. Greenstadt, J., "On the Relative Efficiencies of Gradient Methods," Mathematics of Computation, 21, pp. 360-367, 1967. Greenstadt, J., "Variations on Variable Metric Methods," Mathematics of Computation^ 24, pp. 1-22, 1970. Greenstadt, J., "A Quasi-Newton Method with No Derivatives," Mathematics of Com- Computation 26, pp. 145-166, 1972. Griffith, R. E., and R. A. Stewart, "A Nonlinear Programming Technique for the; Optimization of Continuous Processing Systems," Management Science, 7, pp, 379-392, 1961. Grinold, R, C, "Lagrangian Subgradients," Management Science, 17, pp. 185-188,, 1970. Grinold, R. C, "Mathematical Programming Methods of Pattern Classification,"* Management Science, 19, pp. 272-289,1972a. Grinold, R. C, "Steepest Ascent for Large-Scale Linear Programs," SIAM Review 14V pp. 447-464, 197-2b. Griinbaum, В., Convex Polytopes, John Wiley, New York, 1967 Guignard, M., "Generalized Kuhn-Tucker Conditions for Mathematical Programming Problems in a Banach Space," SIAM J. Control, 7, pp. 232-241, 1969. Guin, J: A., "Modification of the Complex Method of Constrained Optima," Computer Journal, 10, pp. 416-417, 1968. HaarhofT, P. C, and J. D. Buys, "A New Method for the Optimization of a Nonlinear1. Function Subject to Nonlinear Constraints," The Computer Journal 13, pp. 178- 184,-1970»
СПИСОК ЛИТЕРАТУРЫ 547 Habetler, G. J., and A. L. Price, "Existence Theory for Generalized Nonlinear Complementarity Problems," J. Optimization Theory and Applications, 7, pp, 223-239, 1971. Habetler, G. J., and A. L. Price, "An Iterative Method for Generalized Nonlinear Complementarity Problems," J. Optimization Theory and Applications, 11, ppt 36-48, 1973. JJaclamard, J., "Etude sur les proprietes des fonctions entieres et en particulier dune fpnctioa consfcleree Par Riemann/' /, Mathematiques JPures'ej Appliquees, 58, pp> 171-213^1893. / ffadley, G., Linear Programming, Addjson-Wesley, Reading, Mass., 1962. Hadley, G.3 Nonlinear and Dynamic Programming, Addison-Wesley, Reading, Mass.t ftadley, G., and Т. М? Whitin, Analyses of Inventory Systems, Prentice-Hall, Englewood Cliffs N.J., 1963> Haimes, Y. Y., "Decomposition and Multi-level Approach in Modeling and Manage- Management of Water Resources Systems," in Decomposition of Large-Scale Problems, D, M, Himmelblau, (Ed.), 1973, rfaimes, Y. Y., Hierarchical Analyses of Water Resources Systems: Modeling and Optimization of Large-Scale Systems, McGraw-Hill, New York, 1977. Hfoimes, Y. Y., and W. S. Nainis, "Coordination of Regional Water Resource Supply and Demand Planning Models," Water Resources Research, 10, pp, 1051-1059^ 1974. Halkin, H., and L. W. Neustadt, ''General Necessary Conditions or Optimization* Problems," Proc. National Academy of Sciences, USA, 56, pp. 1066-1071, 1966. IJammer, P. L. and G. Zoutendijk (Eds.), Mathematical Programming in Theory and Practice, Proceedings of the Nato Advanced Study Institute, Portugal, North-Holland Publishing Company, New York, 1974. Hancock, H., "Theory of Maxima and Minima," Dover Publications, New York (original publication 1917), 1960. Hans Tjian, T. Y., and W. I. Zangwill, "Analysis and Comparison of the Reduced Gradient and the Convex Simplex Method for Convex Programming," paper presented at ORSA 41st Nat'l Meeting, New Orleans, April 1972. Hanson, M. A., "A Duality Theorem in Nonlinear Programming with Nonlinear Constraints," Australian J. Statistics, 3, pp. 64-72, 1961. Hanson, M. A., "An Algorithm for Convex Programming," Australian J. Statistics, 5t pp. 14-19, 1963. Hanson, M. A., "Duality and Self-Duality in Mathematical Programming," SIAM /t ? Applied Mathematics, 12, pp. 446-449, 1964. frfardy, G. H., J. E. Littlewood, and G. Polya, Inequalities Cambridge University Press, Cambridge, England, 1934-. Hartley, H. O., "Nonlinear Programming by the Simplex Method," Econortietrfca, 29^ pp, 223-237, 1961. Hartley, H, O., and R. R. Hocking, "Convex Programming by Tangential Approxima- Approximation," Management Science, 9, pp. 600-612, 1963. Hartley, H. O., and R. C. PfafTenberger, "Statistical Control of Optimization/1 ia Optimizing Methods in Statistics, h S, Rustagi (Ed.O Academic Press, New 122 К
548 СПИСОК ЛИТЕРАТУРЫ Hausdorff, F., Set Theory, Chelsea, New York, 1962. Held M., and R. M. Karp, "The Travelling Salesman Problem" and MfnmlUm Spannfrtg1 Trees/' Operation Research, 18, pp. 1138-1162, 1970. Held, M., P. Wolfe, and H. Crowder, "Validation of Subgradient Optimization/» Mathematical Programming, 6, pp. 62-88, 1974., Hensgen, C, "Process Optimization 6y Non-Linear Programming," Fnstitut Beige de Regulation et d'Automatisme. Revue A., 8, pp. 99-104, 1966. Hestenes, M. R., Calculus of Variations and Optimal Control Theory, John Wiley & Sons, New York, 1966. Hestenes, M. R., "Multiplier and Gradient Methods/' J. Optimization Theory and Applications, 4, pp. 303-320, 1969. Hestenes, M. R. and E. Stiefel, "Methods of Conjugate Gradients for Solving Linear Systems/' J. Research National Bureau of Standards, 49, pp. 409-436, 1952. Hildreth, C, "A Quadratic Programming Procedure," Naval Research Logistics Quar- Quarterly, 4, pp. 79-85, 1957. Himmelblau, D. M., Applied Nonlinear Programming, McGraw-Hill, New York, 1972a. Himmelblau, D. M., "A Uniform Evaluation of Unconstrained Optimization Techni- Techniques/' in Numerical Methods for Nonlinear Optimization, F. A. Lootsma (Ed.), pp. 69-97,1972b. Himmelblau, D. M. (Ed.), Decomposition of Large-Scale Problems, North-Holland, Amsterdam, 1973. Hogan, W. W., "Directional Derivatives for Extremal-Value functions with Applica* tions to the Completely Convex Case," Operations Research, 21, 'pp. 188-209, 1973a. Hogan, W. W., "The Continuity of the Perturbation Function of a Convex Program," Operations Research, 21, pp. 351-352,1973b. Hogan, W. W., "Applications of a General Convergence Theory for Outer Approxima- Approximation Algorithms," Mathematical Programming, 5, pp. 151-168, 1973c. Hogan, W. W., "Point-to-Set Maps in Mathematical Programming," SIAM Review, 15, pp. 591-603,1973d. Hohenbalken, B. von, "Simplical Decomposition in Nonlinear Programming Al- Algorithms/' Mathematical Programming, 13, pp. 49-68, 1977. Holder, O., Uber einen Mittelwertsatz, Nachrichten von der Geseltschaft der Wis- senschaften zu Gotting/гп, pp. 38-47, 1889. Holloway, C. A., "A Generalized Approach to Dantzig-Wolfe Decomposition for Concave Programs," Operations Research, 21, pp. 210-220, 1973. Holloway, C. A., "An Extension of the Frank and Wolfe Method of Feasible Direc- Directions," Mathematical Programming, 6, pp. 14-27, 1974. Holt, C. C, F. Modigliani, J. F. Muth, and H. A. Simon, Planning Production, Inventories, and Work Force, Prentice-Hall, Englewood Cliffs, N.J., 1960. Hooke, R., and T. A. Jeeves, "Direct Search Solution of Numerical and Statistical Problems" J. Association Computer Machinery, 8, pp. 212-229, 1961. Houthaker, H. S., "The Capacity Method of Quadratic Programming," Econometrica\ 28, pp. 62-87, 1960. Howe, S., "New Conditions for Exactness of a Simple Penalty Function," SIAM /, Control, 11, pp. 378-331, 1973,
СПИСОК ЛИТЕРАТУРЫ 549 Howe* S., "A Penalty Function Procedure for Sensitivity Analysis of Concave Prog-' rams," Management Science, 21, pp. 341-347, 1976. Huang, H. Y., "Unified Approach to Quadratically Convergent Algorithms for Func- Function Minimization," J. Optimization Theory and Applications, 5, pp. 405-423,1970. Huang, H. Y., and J. P. Chamblis, "Quadratically Convergent Algorithms and One- Dimensional Search Schemes," /. Optimization Theory and Applications, 11, pp. 175-188, 1973. Huang, H. Y., and A. V. Levy, "Numerical Experiments on Quadratically Convergent Algorithms for Function Minimization," /. Optimization Theory and Applications, 6, pp. 269-282, 1970. Huard, P., "Resolution of Mathematical Programming with Nonlinear Constraints by the Method of Centres," in Nonlinear Programming, J. Abadie (Ed.), 1967. Huard, P., "Optimization Algorithms and Point-to-Set Maps," Mathematical Program* ming, 8, pp. 308-331, 1975. Hwa, C. S., "Mathematical Formulation and Optimization of Heat Exchanger Networks Using Separable Programming," Proceedings of the the joint American Institute of Chemical Engineers/Institution of Chemical Engineersy London Symposium, June, 4,' pp. 101-106, 1965. Intriligator, M. D., Mathematical Optimization and Economic Theory, Prentice-Hall, Englewood Cliffs, N.J., 1971. Isbell, J. R., and W. H.%Marlow, "Attrition Games," Naval Research Logistics Quar* terly, 3, pp. 71-94, 1956. Jacoby, S. L. S., "Design of Optimal Hydraulic Networks," J. Hydraulics Division American Society of Civil Engineers, 94-HY3, pp. 641-661, 1968. Jacoby, S. L. S., J. S. Kowalik, and J. T. Pizzo, Iterative Methods for Nonlinear Optimization Problems, Prentice-Hall, Englewood Cliffs, N.J., 1972. Jacques, G., "A Necessary and Sufficient Condition to have Bounded Multipliers in. Nonconvex Programming," Mathematical Programming, 12, pp. 136-138, 1977. Jagannathan, R., "A Simplex-Type Algorithm for Linear and Quadratic Programm- Programming—A Parametric Procedure," Econometrica, 34, pp. 460-471, 1966a. Jagannathan, R., "On Some Properties of Programming Problems in Parametric Form Pertaining to Fractional Programming," Management Science, 12, pp. 609-615, 1966b. Jagannathan, R., "Duality for Nonlinear Fractional Programs," Zietschrift fur Operations Research A 17, pp. 1-3, 1973. Jagannathan, R., "A Sequential Algorithm for a Class of Programming Problems with Nonlinear Constraints," Management Science, 21, pp. 13-21,. 1974. Jensen, J. L. W. V., "Om Konvexe Funktioner og Uligheder mellem Middelvaerdier," Nyt Tidsskrift for Matematik, 16B, pp. 49-69, 1905. Jensen, J. L. W. V., Sur les fonctions convexes et les integalites entre les valeurs moyennes, Ada Mathematica, 30, pp. 175-193, 1906. John, F,, "Extremum Problems with Inequalities as Side Conditions," in Studies and Essays, Courant Anniversary Volume, K. O. Friedridis, O. E. Neugebauer, and J. J, Stoker (Eds.), Wiley-Interscience, New York, 1948. Johffeon, R. C, Optimum Qesign of Mechanical System^ John Witey & Sons, New
550 СПИСОК ЛИТЕРАТУРЫ Johnson, 1R. С, Mechanical Design Synthesis \vith Optimization Examples, Van Wos- trand Reinhold, New York, 1971. Kail, P.\ Stochastic Linear Programming, Lecture Note^s in Economics and Mathematical Systems, No. 21, Springer-Verlag, New York, 1976. Kapur, K. C, "On Max-Min Problems," Naval Research Logistics Quarterly, 20, pp. 639-644, 1073. Karamadian, S., "Strictly Quasi-Convex (Concave) Functions and Duality in Mathemat- Mathematical Programming," J. Mathematical Analysis and Applications, 20, pp. 344-358, 1967. Karamardian, S., "The Nonlinear Complementarity Problem with Applications,*' I, II,' J. Optimization Theory and Applications, 4, pp. 87-98, pp. 167-181, 1969. Karamardian, S., "Generalized Complementarity Problem," J. Optimization Theory and Applications, 8, pp. 161-168, 1971. Karamardian, S., *The Complementarity Problem," Mathematical Programming, 2, pp, 107-129, 1972. Karlin, S., Mathematical Methods and Theory in Games, Programming,-and Economics, Vo). II, Addison-Wesley, Reading Mass., 1959. Karush, W., "Minima of Functions of Several Variables With Inequalities as Side Conditions," M.S. Thesis, Department of Mathematics, University of Chicago,. 1939. Kawamura, K., and R. A. Volz, "On the Rate of Convergence of the Conjugate Gradient Reset Methods with Inaccurate Linear Minimizations," IEEE Transac- Transactions on Automatic Control 18, pp. 360-366, 1973. Keefer, D. L., "SIMPAT: Self-bounding Direct Search Method for Optimization," /. Industrial and Engineering Chemistry Products Research and Development, 12, No. ' 1, 1973. Keller, E. L., "The General Quadratic Optimization Problem," Mathematical Program' mmg, 5, pp. 311-337, 1973. . Keiley, J. E., "The Cutting Plane Method for Solving Convex Programs," STAM J. Industrial and Applied Mathmematics, 8, pp. 703-712, 1960. Kiefer, J., "Sequential Minimax Search for a Maximum," Proceedings of the American Mathematical Society, 4, pp. 502-506, 1953. Kilmlster, C. W., and J. E. Reeve, Rational Mechanics, American Elsevier, New York, 1966. i Kirchjjiayer, L. K., Economic Operation of Power Systems, John Wiley, New York, 1958. Klee, V., "Separation and Support Properties of Convex Sets — A Survey,'* in Calculus of Variations and Optimal Control, Balakrishnan (Ed.), pp. 235-303, 1969. Klessig, R., "A'General Theory of Convergence for Constrained Optimization Al- Algorithms that Use Antizigzagging Provisions," SIAM J. Control, 12, pp. 598-608, 1974. Klessig, R., and E. Polak, "Efficient Implementation of the Polak-Ribiere Conjugate Gradient Algorithm,'; SIAM J. Control, 10, pp. 524-549, 1972. Klingman, W. R. and D. M. Himmelblau, "Nonlinear Programming with the Aid of Multipler Gradient Summation Technique," /, Association for Computing Machin- Machinery* И,рр. 400-415, 1964.
СПИСОК ЛИТЕРАТУРЫ 551 Kojima\ M., "A Unification of the Existence Theorem of the Nonlinear Complementar- Complementarity Problem/' Mathematical Programming, 9, pp. 257-277, 1975. Kowalik, J., "Nonlinear Programming Procedures and Design Optimization," Acta Polytechica Scandinavica, 13, pp. 1-47, 1966. Kowalik, J., and M. R. Osborne, Methods for Unconstrained Optimization Problems, American Elsevier, New York, 1968. Kuester, J. L., and J. H. Mize, Optimization Techniques With Fortran, McGraw-Hill, New York, 1973. Kuhn, H. W., "Duality, in Mathematical Programming,*' Mathemajical Systems Theory and Economics I (Lecture Notes in Operations Research and Mathematical Economics, No. 11), pp. 67-9 К Springer-Verlag, New York, 1969. Kuhn. H. W. (Ed.), Proceedings of the Princeton Symposium on Mathematical Program* mini*. Princeton University Press, Princeton, N.J., 1970. Kuhn, H. W., "Nonlinear Programming: A Historical View," in Nonlinear Programming^ R. W. Cottle and С. Е. Lemke (Eds.), 1976. Kuhn, H. W., and A. W. Tucker, "Nonlinear Programming," Proceedings 2nd Berkeley Symposium on Mathematical Statistics and Probability, J. Neyman (Ed.), Univeristy of California Press, Berkeley, Calif. 1951. *Kuhn, H. W., and A. W. Tucker (Eds.), "Linear Inequalities and Related Systems,'* Ann. Math. Study, 38, Princeton University Press, Princeton, N.J., 1956. *Kunzi, H. P.. W. Krelle, and W. Oettli, Nonlinear Programming, Blaisdell, Amsterdam, 1966. Kuo, M. Т., and D. I. Rubin, "Optimization Study of Chemical Processes," Canadian J% Chemical Engineering, 40, pp. 152-156, 1962. Lasdon, L. S., "Duality and Decomposition in Mathematical Programming," IEEE Transactions, Systems Science and Cybernetics, 4, pp. 86-100, 1968. *•' Lasdon, L. S., Optimization Theory for Large Systems, Macmillan, New York, 1970. Lasdon, L. S., "An Efficient Algorithm for Minimizing Barrier and Penalty Functions," Mathematical Programming, 2, pp. 65-106, 1972. Lasdon, L. S., and M. W. Ratner, "An Efficient One-Dimensional Search Procedure for Barrier Functions," Mathematical Programming, 4, pp. 279-296, 1973. Lavi, A., and T. P. Vogl (Eds.), Recent Advances in Optimization Techniques, John. Wiley, New York, 1966. Leitmann, G. (Ed.), Optimization Techniques, Academic Press, New York, 1962. Lemarechal, C, "Note on an Extension of Davidon Methods to Nondifferentiable ' Functions," Mathematical Programming, 1, pp. 384-387, 1974. Lemarechal, C, "An Extension of Davidon Methods to Nondifferentiable Problems," in Nondifferentiable Optimization, M. Balinski, and P. Wolfe (Eds.), 1975. Lemke, С. Е., "A Method of Solution for Ouadratic Programs," Management Sciencet 8, pp. 442-455, 1962. Lemke, С. Е., "Bimatrix Equilibrium Points and Mathematical Programming," Management Science, 11, pp. 681-689, 1965. Lemke, С. Е., "On Complementary Pivot Theory," in Mathematics of the Decision Sciences, G. B. Dantzig and A. F. Veinott (Eds.), 1968. Lemke, С. Е., "Recent Results on Complementarity Problems," in Nonlinear Program** L U, Rgsen, Qs L, Mangasarian, and Kt Ritter (Eds.), \Щ
5 52 СПИСОК ЛИТЕРАТУРЫ Lemke, 'С. Е., and J. Т. Howson, "Equilibrium Joints or fei-matrix Games,** SfAMj. Applied Mathematics, 12, pp. 412-423, 1964. Lenard, M. L., "Practical Convergence Conditions for Unconstrained Optimization/* Mathematical Programming, 4, pp. 309-323, 1973. Lenard, M. L., "Practical Convergence Condition for the Davidon-Fletcher-Powell Method," Mathematical Programming, 9, pp. 69-86, 1975. lenard, M. L., "Convergence Conditions for Restarted Conjugate Gradient Methods 1 with Inaccurate Line Searches," Mathematical Programming, 10, pp. 32-51,1976. JLeon, A., "A Comparison Among Eight Known Optimizing Procedures," in Recent Advances in Optimization Techniques, A. Lavi and T. P. Vogl (Eds.), 1966. 1Л11, S. A., UA Modified Davidon Method for Finding the Minimum of a Function Using Difference Approximations for Derivatives," Computer Journal, 13, pp. 111-113, 1970. 1Л11, S. A., "Generalization of an Exact Method for Solving Equality Constrained Problems to Deal with Inequality Constraints," in Numerical Methods for Nonlinear Optimization, F. A. Lootsma (Ed.), 1972. Lootsma, F. A. "Constrained Optimization Via Parameter-Free Penalty Functions," Philips Research Reports, 23, pp. 424-437, 1968a. Lootsma, F. A., "Constrained Optimization Via Penalty Functions," Philips Research Reports, 23, pp. 408-423, 1968b. Lootsma, F. A. (Ed.), Numerical Methods for Nonlinear Optimization, Academic Press, New York, 1972a. Lootsma, F. A., **A Survey of Methods for Solving Constrained Minimization Problems via Unconstrained Minimization," in Numerical Methods for Nonlinear Optimize ation, F. A. Lootsma (Ed.), 1972b. Luenberger, D. G., "Quasi-Convex Programming," SIAM J, Applied Mathematics 16, pp. 1090-1095, 1968. JLuenberger, D. G., Optimization by Vector Space Methods, John Wiley & Sons, New York, 1969. JLuenberger, D. G., "The Conjugate Residual Method for Constrained Minimization Problems," SIAM J. Numerical Analysis, 7, pp. 390-398, 1970. Luenberger, D. Q., "Convergence Rate of a Penalty-Function Scheme," /. Optimization Theory and Applications, 7, pp. 39-51, 1971. Luenberger, D. G., "Mathematical Programming and Control Theory: Trends of Interplay," in Perspectives of Optimization, A. M. Geoffrion (Ed.), pp. 102-133, 1972. Luenberger, D. G., Introduction to Linear and Nonlinear Programming, Addison- Wesley, Reading, Mass., 1973a. Luenberger, D. G., "An Approach to Nonlinear Programming," J, Optimization Theory and Applications, 11, pp. 219-227,1973b. Luenberger, D. G., "A Combined Penalty Function and Gradient Projection. Method for Nonlinear Programming," J. Optimization Theory and Applications, 14, pp* 477-495, 1974. Maass, AM M. M. Hufschmidt, R. Dorfman, H. A. Thomas Jr., S. A. Marglin, and G. M. fair, Design of ЩШ-RmMSZ $Х$Ш$> ЩгЩЙ UjWYersjty Press, Cambridge, Mass., W
СПИСОК ЛИТЕРАТУРЫ 55# Macfansky, AM "Some Results and Problems in Stochastic Linea-F Programming,*' The RAND Corporation Paper P-1596, 1959. Madansky, A., "Methods of Solution of Linear Programs Under Uncertaimty/* Operations Research, 10, pp. 463-471, 1962. Magnanti, T. L., "Fenchel and Lagrange Duality ^re Equivalent,*' Mathematical Prog- Programming, 7, pp. 253-258, 1974. Mahajan, D. G, and M. N. Vartak, "Generalization of Some Duality Theorems in Nonlinear Programming," Mathematical Programming, 12, pp. 293-317, 1977. Majid, K. I., Optimum Design of Structures, John Wiley & Sons, New York, 1974. Majthay, A., "Optimality Conditions for Quadratic Programming," Mathematical Prog- Programming, 1, pp. 359-365, 1971. Mangasarian, O. L., "Duality in Nonlinear Programming,1' Quarterly of Applied Mathematics 20, pp. 300-302, 1962. Mangasarian» O. L., "Nonlinear Programming Problems with Stochastic Objective Functions," Management Science, 10, pp. 353-359, 1964. Mangasarian, O. L., "Pseudo-Convex Functions," SIAM J. Control, 3, pp. 281-290, 1965. Mangasarian, O. L., Nonlinear Programming, McGraw-Hill, New York, 1969a. Mangasarian, O. L., "Nonlinear Fractional Programming," /. Operations. Research Society of Japan, 12, pp. 1-10,1969b. Mangasarian, O. L., "Optimality and Duality in Nonlinear Programming," in Pro- Proceedings of Princeton Symposium on Mathematical Programming, H. W. Kuhn (Ed.), / pp. 429-443, 1970a. Mangasarian, O. L., "Convexity, Pseudo-Convexity and Quasi-Convexity of Composite Functions,1' Cahiers Centre Etudes Recherche Opperationelle, 12, pp. 114-122, 1970b. Mangasarian, O. L., "Linear Complementarity Problems Solvable by a Single Linear Program," Mathematical Programming, 10, pp. 265-270, 1976. Mangasarian, O. L., and S. Fromovitz, "The Fritz John Necessary Optimality Condi- Conditions in the Presence of Equality and Inequality Constraints," J. Mathematical Analysis and Applications, 17, pp. 37-47, 1967. Mangasarian, O. L., R. R. Meyer and S. M. Johnson (Eds.), Nonlinear Programming, Academic Press, New York, 1975. . Mangasarian, O. L., and J. Ponstein, "Minimax and Duality in Nonlinear Program- Programming," Jt Mathematical Analysis and Applications, 11, pp. 504-518, 19654. Markowitz, H. M., "Portfolio Selection," Journal of Finance, 7, pp. 77-91, 1952. Markowitz, H. M., "The Optimization of a Quadratic Function Subject to Linear Constraints," Naval Research Logistks Quarterly, 3, pp. 111—133, 1956. Marjcowitz, H. M., and A. S. Manne, vkOn the Solution of Discrete Programming Problems," Econometrica, 25, pp. 84-110, 1957. Marquardt, D. W., "An Algorithm for Least Squares Estimation'of Nonlinear Par .me- .meters," SIAMJ. of Industrial & Applied Mathematics, 11, pp. 431-441, 1963. Martensson, K., "A New Approach to Constrained Function Optimization," Л Op- Optimization Theory and Applications, 12, pp. 531-554, 1973. JMartos, В., "Hyperbolic Programming," Naval Research Logistics Quarterly, Ц, pp. 135-155,1964. 18 М Базара, К Шеттй
654 СПИСОК ЛИТЕРАТУРЫ Martos, В., "The Direct Power of Adjacent Vertex Programming Methods," Management Science, 12, pp. 241-252, 1965, errata, ibid. 14, pp. 255-256,1967a. Martos, В., "Quasi-Convexity and Quasi-Monotonicity in Nonlinear Programming," Studia Scientiarum Mathematicarum Hungarica, 2, pp. 265-273,1967b. Martos, В.,- "Subdefinite Matrices and Quadratic Forms," SIAM J. Applied Mathema- Mathematics, 17, pp. 1215-1233, 1969. Martos, В., "Quadratic Programming with a Quasiconvex Objective Function," Operations Research, 19, pp. 87-97, 1971. Martos, В., Nonlinear Programming: Theory and Methods, American Elsevier, New York, 1975. Massam, H., and S. Zlobec, "Various Definitions of the Derivative in Mathematical Programming," Mathematical Programming, 1, pp. 144-161, 1974. Matthews, A., and D. Davies, "A Comparison of Modified Newton Methods for Unconstrained Optimization," Computer Journal, 14, pp. 293-294, 1971. McCormick, G. P., "Second Order Conditions for Constrained Minima," SIAM J. Applied Mathematics, 15, pp. 641-652, 1967. McCormick, G. P., "Anti-Zig-Zagging by Bending," Management Science, 15, pp. 315-320, 1969a. McCormick, G. P., "The Rate of Convergence of the Reset Davidon Variable Metric Method," MRC Technical Report #1012, Mathematics Research Center, Univer- University of Wisconsin, 1969b. McCormick, G. P., "The Variable Reduction Method for Nonlinear Programming," Management Science Theory, 17, pp. 146-160,1970a. McCormick, G. P., "A Second Order Method for the Linearly Constrained Nonlinear Programming Problems," in Nonlinear Programming, J. B. Rosen, O. L. Man- gasarian, K. Ritter (Eds.), 1970b. McCormick, G. P., "Penalty Function Versus Non-Penalty Function Methods for Constrained Nonlinear Programming Problems," Mathematical Programming, 1, pp. 217-238, 1971. McCormick G. P., "Attempts to Calculate Global Solutions of Problems that may have Local Minima," in Numerical Methods for Nonlinear Optimization, F. A. Lootsma (Ed.), 1972. McCormick, G. P., and J. D. Pearson, "Variable Metric Method and Unconstrained Optimization," in Optimization, R. Fletcher (Ed.), 1969. McCormick, G. P., and K. Ritter, "Methods of Conjugate Direction versus Quasi- Newton Methods," Mathematical Programming, 3, pp. 101-116, 1972. McCormick, G. P. and K. Ritter, "Alternative Proofs of the Convergence Properties of the Conjugate Gradient Methods," /. Optimization Theory and Applications, 13, pp. 497-515, 1974. McMillan, C. Jr., Mathematical Programming, John Wiley, New York, 1970. Mehndifatta, S. L. "General Symmetric Dual Programs," Operations Research, 14, pp. 164-172, 1966. Mehndiratta, S. L., "Symmetry and Self-Duality in Nonlinear Programming," Numerische Mathematik, 10, pp. 103-109, 1967a. Mehndiratta, S. L., "Self-Duality in Mathematical Programming," SIAM J. Applied Mathematics 15, pp. 1156-1157,1967b.
СПИСОК ЛИТЕРАТУРЫ 555 Mehndiratta, S. L., "A Generalization of a Theorem of Sinha on Supports of a Convex Function," Australian J. Statistics, 11, pp. 1-6, 1969. Mereau, P., and J. G. Paquet, "A Sufficient Condition for Global Constrained Extrema," International J. Control, 17, pp. 1065-1071,1973a. Mereau, P., and J. G. Paquet, "The Use of Pseduo-Convexity and Quasi-Convexity in Sufficient Conditions for Global Constrained Extrema," International J. Control, 18,' pp. 831-838, 1973b. Mereau, P., and J. G. Paquet, "Second Order Conditions for Pseudo-Convex Func- Functions," SIAMJ. Applied Mathematics 27, pp. 131-137, ;974. Messerli, E. J., and E. Polajc, "On Second Order Necessary Conditions of Optimality," SIAM J. Control 7, pp. 272-291; 1969. Meyer, G. G. L., "A Derivable Method of. Feasible Directions," SIAM J. Control, 11, pp. 113-118, 1973. Meyer, G. G. L., "Nonwasteiulness of Interior Iterative Procedures," J. Mathematical Analysis and Applications, 45, pp. 485-496, 1974. Meyer, G. G. L., "Accelerated Frank-Wolfe Algorithms," SIAM J. Control, 12, pp. 655-663, 1974. Meyer, R. R., "The Validity of a Family of Optimization Methods," SIAMJ. Control, 8, pp. 41-54, 1970. Meyer R. R., "Sufficient Conditions for the Convergence of Monotonic Mathematical Programming Algorithms," J. Computer and System Sciences, 12, pp. 108-121, 1976. Miele, A., and J. W. Cantrell, "Study on a Memory Gradient Method for the Minimization of Functions," /. Optimization Theory and Applications, 3, pp. 459-470, 1969. 'Miele, A., E. E. Cragg, R. R. Iyer, and A. V. Levy, "Use of the Augmented Penalty Function in Mathematical Programming Problems: Part I," /. Optimization Theory and Applications, 8, pp. 115-130, 1971. Miele, A., E. E. Cragg, and A. V. Levy, "Use of the Augmented Penalty Function in Mathematical Programming: Part 2," J. Optimization Theory and Applications, 8, <- pp. 131-153, 1971. Miele, A., P. Moseley, A. V. Levy, and G. H. Coggins, "On the Method of Multipliers for Mathematical Programming Problems," /. Optimization Theory and Ap- Applications, 10, pp. 1-33, 1972. Mifflin, R., "A Superlinearly Convergent Algorithm for Minimization Without Evaluat- Evaluating Derivatives," Mathematical Programming, 9, pp. 100-117, 1975. Miller, С. Ем "The Simplex Method for Local Separable Programming," in Recent Advances in Mathematical Programming, R. L. Graves and P. Wolfe (Eds.), 1963. Minch, R. A., "Applications of Symmetric Derivatives in Mathematical Programming," Mathematical Programming, 1, pp. 307-320/ 1974. Minhas, B. S., K. S. Parikh, and T. N. Srinivasan, "Toward the Structure of a Production Function for Wheat Yields with Dated Inputs of Irrigation Water," Water Resources Research, 10, pp. 383-393, 1974. Minkpwskij H.j Gesammelte Abhandlugen, Teubner, Berlin, 1911. 18*
556 СПИСОК ЛИТЕРАТУРЫ Mitchell, R. A., and j. L Kaplan, "Nonlinear Constrained Optimization by a Nonran- dom Complex Method," J. Research of the National Bureau of Standards* Section C, Engineering and Instrumentation, 72-C, pp. 249-258, 1968-. Mobasheri, F., "Economic Evaluation of a Water Resources Development Project in a Developing Economy," Contribution 126 Water Resources Center, University of California, Berkeley, 1968. . Moeseke, van P. (Ed.), Mathematical Programs for Activity Analysis, North-Holland, Amsterdam, 1974. Mond, В., "A Symmetric Dual Theorm for Nonlinear Programs,'* Quarterly of Applied Mathematics, 23, pp. 265-269, 1965. Mond, В., "On a Duality Theorem for a Nonlinear Programming Problem," Operations Research, 21, pp. 369-370, 1973. Mond, В., "A Class of Nondifferentiable Mathematical Programming Problems," J. Mathematical Analysis and Applications, 46, pp. 169-174, 1974. Mond, В., and R. W. Cottle, "Self-Duality in Mathematical Programming," SlAM J. Applied Mathematics, 14, pp. 420-423, 1966. More, J. J., "Class of Functions and Feasibility Conditions in Nonlinear Complementar- Complementarity Problems," Mathematical Programming, 6, pp. 327-338, 1974. Moreau, J. J., "Convexity and Duality," in Functional Analysis and Optimizationi'E* R» Caianiello (Ed.), Academic Press, New York, 1966. Motzkin, T. S., Beitrage zur theorie der Linearen Ungleichungen Dissertation* University of Basel, Jerusalem, 1936. Mueller, R. K., "A Method for Solving the Indefinite Quadratic Programming Prob- Problem," Management Science, 16, pp. 333-339, 1970. Murphy, F. H., "Column Dropping Procedures for the Generalized Programming Algorithm," Management Science, 19, pp. 1310-1321,1973a. Murphy, F. H. "A Column Generating Algorithm for Nonlinear Programming*" Mathematical Programming, 5, pp. 286-298,1973b. Murphy, F. H., "A Class of Exponential Penalty Functions," SIAM J. Control 1% PP* 679-^87, 1974. Murray, W. (Ed.), Numerical Methods for Unconstrained Optimizationi Academic Press* London, 1972a. Murray, W., "Failure, the Causes and Cures,'* in Numerical Methods for Unconstrained Optimization, W. Murray (Ed.), 1972b. Murtagh, B. A., and R. W. H. Sargent, "A Constrained Minimization Method with Quadratic Convergence," in Optimization, R.. Fletcher (Ed.)", 1969. Murtagh, B. A., and R. W. H. Sargent, "Computational Experience with Quadratf- cally Convergent Minimization Methods," Computer Journal, 13, pp. 185-194, 1970. Murty, K., Linear and Combinatorial Programming, John Wiley & Sons, New Yorfc$ 1976. Myers, G., "Properties of the Conjugate Gradient and Davidon Methods," J. Optimize ation Theory and Applications, 2, pp. 209-219, 1968. Mylander, W. C, "Nonconvex Quadratic Programming by a Modification of LemkeS Methods^" Report №>, RAC-TP-4X4, Research Analysis Corporation, 1973U
СПИСОК ЛИТЕРАТУРЫ 557 Mylander, W. С, "Finite Algorithms for Solving (Juasiconvex Qoadratic Programs," Operations Research, 20, pp. 167-173, 1972. Nashed, M. Z., "Supportably and Weakly Convert Functional^ Nvitb Applications, to Approximation Theory and Nonlinear Programming," J. Mathematical Analysis and Applications, 18^ pp. 504-521, 1967. tfefder, J. A., and R. Mead, "A Simplex Method for Function Minfmizationy1 Coniputer Journal, 7, pp. 308-313, 1964. Nelder, J. A., and R. Mead, "A Simplex Method for Function Minimization"—'Errata," Computer Journal, 8, pp. 27, 1965. NTemhauser, G. L, and W. B. Widhelm, "A Modified Linear Program for Columnar Methods in Mathematical Programming," Operations Research, 19, pp. 1051-1060, 1971. ftfeustadt, L. W., "A General Theory of Extremals," J. Computer and System Sciences, 3, pp. 57-92, 1969. Neustadt, L. W., Optimization, Princeton University Press, Princeton, N.J., 1974, ¦Nikaido, H., Convex Structures and Economic Theory, Academic Press, New York, 1968. O'Laoghaine, D. Т., and D, M. Himmelblau, Optimal Expansion of a Water Resources System, Academic Press, New York, 1974. Orden, A., "Stationary Points of Quadratic Functions Under Linear Constraints," Computer Journal, 1, pp. 238-242, 1964. Oren, S. S., "On the Selection of Parameters in Self-Scaling Variable Metric Al- Algorithms," Mathematical Programming, 1 pp. 351-y367, 1974. Ortega, J. M., and W. C. Rheinboldt, "A General Convergence Result for Uncon- Unconstrained Minimization Methods," SIAMJ. Numerical Analysis, 9, pp. 40-43* 1972. Osborne, M. R., and D. M. Ryan, "On Penalty Function Methods for Nonlinear Programming Problems," J. Mathematical Analysis and Applications, 31, pp. 559-578, 1970. Osborne, M. R., and D. M. Ryan, "A Hybrid Algorithm for Nonlinear Programming" in Numerical Methods for Nonlinear Optimization, F. A. Lootsma (Ed.), 1972. Panne, C. van de, Methods for Linear and Quadratic Programming, North-Holland;. Amsterdam, 1974. ftftfrie, C. van de, "A Complementary Variant of Lemke's Method for the. Linear- Complementary Problem," Mathematical Programming, 1, pp. 283-310, 1976. Patine, C. van de, and A. Whinston, "Simplicial Methods for Quadratic Programming," Naval Research Logistics Quarterly, 11, pp. 273-302, 1964a. Panne; C. van de, and A. Whinston, "The Simplex and the Dual Method for Quadratic Programming," Operational Research Quarterly, 15, pp. 355^388,1964b. Panne, C. van de, and A. Whinston, "A Parametric Simplicial Formulation of Houthak- ker's Capacity Method," Econometrica, 34, pp. 354-380, 1966a. I%nne, C. van de, and A. Whinston, "A Comparison of Two Methods for Quadratic Programming," Operations Research, 14, pp. 422-441, 1966b. Panne, C. van de, and A. Whinston, "The Symmetric Formulation of the Simplex Method for Quadratic Programming," Econometrica, 37, pp. 507-527, 1969. Parikh, S. C; "Equivalent Stochastic linear Programs," SIAM }, Applied Mathematics; 18, pp, 1-5, 1970.
558 СПИСОК ЛИТЕРАТУРЫ Parkinson, J. M., and D. Hutchinson, "An investigation irtto the Efficiency of Variants on the Simplex Method/' in Numerical Methods for Nonlinear Optimization, F. A.- Lootsma (Ed.), pp. 115-136,1972a. Parkinson, J. M., and D. Hutchinson, "A Consideration of Nongradient Algorithms for the Unconstrained Optimization of Function of High Dimensionality," in Numeri- Numerical Methods for Nonlinear Optimization, F. A. Lootsma (Ed.), 1972b. 'Parsons, T. D., and A. W. Tucker, "Hybrid Programs: Linear and Least-Distance," Mathematical Programming, 1, pp. 153-167, 1971. Paviani, D. A., and D. M Himmelblau, "Constrained Nonlinear Optimization By Heuristic Programming," Operations Research, 17, pp. 872-882, 1969. Pearson, J. D., "Variable Metric Methods of Minimization," Computer Journal, 12, pp. 171-178, 1969. Peterson, D. W., "A Review of Constraint Qualifications in Finite-Dimensional Spaces," SIAM Review, 15, pp. 639-654, 1973, Peterson, E. L., "An Economic Interpretation of Duality in Linear Programming," J. Mathematical Analysis and Applications, 30, pp. 172-196, 1970. Peterson, E. L, "An Introduction to Mathematical Programming," in Optimization and Design, M. Avriel, M. J. Rijckaert, D. J. Wilde (Eds.), 1973a. Peterson, E. L., "Geometric Programming and Some of Its Extensions," in Optimiz- Optimization and Design, M. Avriel, M. J. Rijckaert, D. J. Wilde (Eds.), 1973b. Phelan, R. M., Fundamentals of Mechanical Design, McGraw-Hill, New York, 1957. Pierre, D. A., Optimization Theory with Applications, John Wiley & Sons, New York, 1969. Pierre, D. A., and M. J. Lowe, Mathematical Programming via Augmented Lagran- gians: An Introduction with Computer Programs, Addison-Wesley, Reading, Mass., 1975. Pierskalla, W. P., "Mathematical Programming with Increasing Constraint Functions " Management Science, 15, pp. 416-425, 1969. Pietrgykowski, Т., "Application of the Steepest Descent Method to Concave Program- Programming," Proceedings of International Federation* of ^Information Processing Societies Congress (Munich), North-Holland, Amsterdam>spp. 185-189, 1962. Polak, E., "On the Implementation of Conceptual Algorithms," in Nonlinear Program- Programming, J. B. Rosen, O. L. Mangasarian, K. Ritter (Eds.), 1970. *Polak, E., Computational Methods in Optimization, Academic Press, New York, 1971. Polak, E., "A Survey of Feasible Directions for the Solution of Optimal Control Problems," IEEE Transactions Automatic Control, AC-17, pp. 591-596, 1972. Polak, E., "An Historical Survey of Computational Methods in Optimal Control," SIAM Review, 15, pp. 553-584, 1973. Polak, E., "A Modified Secant Method for Unconstrained Minimization," Mathematical Programming, 6, pp. 264-280, 1974. Polak, E., and M. Deparis, "An Algorithm for Minimum Energy Control," IEEE Transactions Automatic Control, AC-14, pp. 367-377, 1969. Polyak, В. Т., "A General Method for Solving Extremum Problems," Soviet Mathematicst 8, pp. 593-597,1967.
, СПИСОК ЛИТЕРАТУРЫ 559 *Polyak, В. Т., 'The Method of Conjugate Gradient in Extremum Problems,' USSR Computational Mathematics and Mathematical Physics (English Translation), 9, pp. 94-112, 1969. 'Ponstein, J., "An Extension of the Min-Max Theorem/' SIAM Review, 7, pp. Ш-188, 1965. Ponstein, J., "Seven Kinds of Convexity," SIAM Review, 9, pp. 115-119, 1967. » Powell, M. J. D., "An Efficient Method for Finding the Minimum of a Function of Several Variables without Calculating Derivatives," Computer Journal 7, pp. 155- 162, 1964. Powell, M. J. D., "A Method for Nonlinear Constraints in Minimization Problems," in Optimization, R. Fletcher (Ed.), 1969. Powell, M. J. D., "Rank One Methods for Unconstrained Optimization," in lntegefund Nonlinear Programming, J. Abadie (Ed.), 1970a. Powell, M. J. D., "A Survey of Numerical Methods for Unconstrained Optimization,' SIAM Review, 12, pp. 79-97,1970b. Powell, M. J. D., "Recent Advances in Unconstrained Optimization," Mathematical Programming, 1, pp. 26-57,1971a. Powell, M. J. D., "On the Convergence of the Variable Metric Algorithm," J. Institute Mathematics and Its Applications 1, pp. 21-36,1971b. Powell, M. J. D., "Quadratic Termination'Properties of Minimization Algorithms I, II," i. Institute of Mathematics and Its Applications, 10, pp. 333-342, pp. 343-357, 1972. Powell, M. J. D., "On Search Directions for Minimization Algorithms," Mathematical Programming, 4, pp. 193-201, 1973. Powell, M. J. D., "Some Global Convergence Properties of a Variable Metric Al- Algorithm for Minimization Without Exact Line Searches," In Nonlinear Program- Programming, R. W. Cottle and С. Е. Lemke, (Eds.), American Mathematical Society, Providence, R.I., 1976. Powell, M. J. D., "Restart Procedures for the Conjugate Gradient Method," Mathemat- Mathematical Programming, 12, pp. 241-254, 1977. Prager, W., "Mathematical Programming and Theory of Structures," SIAM J. Applied Mathematics 13, pp. 312-332, 1965. Pugh, G. E., "Lagrange Multipliers and the Optimal Allocation of Defense Resources," Operations Research, 12, pp. 543-567, 1964. Pugh, R. E., "A Language for Nonlinear Programming Problems," Mathematical Programming, 2, pp. 176-206, 1972. Raghavendra, V., and K. S. P. Rao, "A Note on Optimization Using the Augmented^ Penalty Function," J. Optimization Theory and Applications, 12, pp. 320-324, 1973. Rani, O., and R. N. Kaul, "Duality Theorems for a Class of Nonconvex Programming Problems," J. Optimization Theory and Applications, 11, pp. 305-308, 1973. Rauch, S. W., "A Convergence Theory for a Class of Nonlinear Programming Prob- Problems," SIAM J. Numerical Analysis, 10, pp. 207-228, 1973. Reddy, P. J., H. J. Zimmermann, and A. Husain, "Numerical Experiments on DFP- Method, A Powerful Function Minimization Technique/' / of Computational and Applied Mathematics, 4, pp. 255-265, 1975.
560 СПИСОК ЛИТЕРАТУРЫ Reklaitis, G. V., and D. Т. Phillips, nA Survey 6? Nonlinear Programming," AlIE Transactions, 7, pp. 235-256, 1975. Reklaitis, G. V., and D. J. Wilde, "Necessary Conditions for a Local Optimum Without Prior Constraint Qualifications," in Optimizing Methods in Statistics, J. S. Rustagi (Ed.), Academic Press, New York, 1971. Rissanen, J., "On Duality Without Convexity," J. Mathematical Analysis find Ap- Applications, 18, pp. 269-275, 1967. Ritter, K., A Method for Solving Maximum Problems with a Nonconcave Quadratic Objective Function. Z. Wahrscheinlichkeitstheorie und Verwandte Gebiete 4, pp. 340-351, 1966. Ritter, K., "A Method of Conjugate Directions for (Jnconstrained Minimization," Operations Research Verfahren, 13, pp. 293-320, 1972. Ritter, K., "A Superlinearly Convergent Method for Minimization Problems with. Linear Inequality Constraints," Mathematical Programming, 4, pp. 44-71, 1973. Roberts, A. W., and D. E. Varberg, Convex Functions, Academic Press, New York, 1973. Robinson, S. M., "A Quadratically-Convergent Algorithm for General Nonlinear Programming Problems," Mathematical Programming, 3, pp. 145-156, 1972. Robinson, S. M., "Computable Error Bounds for Nonlinear Programming," Mathemat- Mathematical Programming^, pp. 235-242, 1973. Robinson, S. M., "Perturbed Kuhn-Tucker Points and Rates of Convergence for a Class, of Nonlinear Programming Algorithms," Mathematical Programming, 7, pp. 1-16, 1974. Robinson, S. M., and R. H. Day, "A Sufficient Condition for Continuity of Optimal Sets in Mathematical Programming," J. Mathematical Analysis and Applications, 451 pp. 506-511, 1974. Robinson, S. M., and R. R. Meyer, "Lower Semicontinuity of Multivalued Linearization. Mappings," SIAMJ. Control, 11, pp. 525-533, 1973. Rockefeller, R. Т., "Minimax Theorems and Conjugate Saddle Functions," JMathema- tics Scandinavica, 14, pp. 151-173, 1964. Rockafeller, R. Т., "Extension of Fenchel's Duality Theorem for Convex Functions/* Duke Mathematical Journal, 33, pp. 81-90, 1966. Rockafeller, R. Т., "A General Correspondence Between Dual Minimax Problems and Convex Programs," Pacific J. Mathematics, 25, pp. 597-612, 1968. Rockafeller, R. Т., "Duality in Nonlinear Programming," in Mathematics of the Decison Sciences, G. B. Dantzig and A. Veinott (Eds.), American Mathematical Society* Providence, R.I., 1969. "kockafeller, R. Т., Convex Analysis, Princeton University Press, Princeton, N.J., 1970. Rockafeller, R. Т., "The Multiplier Method of Hestenes and Powell Applied to Convex Programming," J. Optimization Theory and Applications, 12, pp. 555-562, 1973a. Rockafeller, R. Т., "A Dual Approach to Solving Nonlinear Programming Problems by Unconstrained Optimization," Mathematical Programming, 5, pp. 354-373,1973b. Rockafeller, R. Т., "Augmented Lagrange Multiplier Functions and Duality in Noncon- vex Programming," SIAMJ. Control, 12, pp. 268-285, 1974. Roode, J. D., "Generalized Lagrangian Functions in Mathematical Programming," , J^esis, Tfoe University of Leiden, The Netherlands, \Щ
СПИСОК ЛИТЕРАТУРЫ 561 RooJe, i. D., "(jerieralized Lagrangian Functions' arid Mathematical Programming," in Optimization, R. Fletcher (Ed.), 1969. Rosen, J. В., "The Gradient Projection Method for Nonlinear Programming, Part I, Linear Constraints," SIAM J. Applied Mathematics 8, pp. 181-217, 1960. Rosen, J. В., 'The Gradient Projection Method for Nonlinear Programming Part II: Nonlinear Constraints," SIAM J. Applied Mathematics, 9, pp. 514-553, 1961. Rosen J. В., and J. Kreuser,—A Gradient Projection Algorithm for Nonlinear Con- Constraints," in Numerical Methods for Nonlinear Optimization, F. A. Lootsma (Ed.), 1972. Rosen, J. В., О. L. Mangasarian, and K. Ritter (Eds.), Nonlinear Programming, Academic Press, New York, 1970. Rosen J. В., and S. Suzuki, "Construction of Nonlinear Programming Test Problems," Communications of Association for Computing Machinery 8, p. 113, 1965. Rosenbrock, H. H., "An Automatic Method for Finding the Greatest or Least Value of a Function," Computer Journal, 3, pp. 175-184, 1960. Rozvany, G. I. N., Optimal Design of Flexural Systems: Beams, Grillages, Slabs, Plates and Shells, Pergamon Press, New York, 1976. *Rudin, W., Principles of Mathematical Analysis Bnd Edition), McGraw-Hill New York^ 1964. Russell, D. L., Optimization Theory, W.A. Benjamin, New York, 1970. *Rvacev, V. L., "On the Analytical Description of Certain Geometric Objects," Soviet Mathematics, 4, pp. 1750-1753, 1963. Sargent, R. W. H., "Minimization Without Constraints," in Optimization and Design M. Avriel, M. J. Rijckaert, and D. V. Wilde (Eds.), 1973. Sargent, R. W. H., and B. A. Murtagh, "Projection Methods for Nonlinear Program^ ming," Mathematical Programming, 4, pp. 245-268,1973. Sargent, R. W. H., and D. J. Sebastian, "Numerical Experience with Algorithms fo? Unconstrained Minimizations," in Numerical Methods for Nonlinear Optimization^ F. A. Lootsma (Ed.), 1972. Sargent, R. W. H., and D. J. Sebastian, "On the Convergence of Sequential Minimiza-* tion Algorithms," J. Optimization Theory and Applications, 12, pp. 567-575,1973. Sasai, H., "An Interior Penalty Method for Minimax Problems with Constraints,'* SIAMJ. Control, 12, pp. 643-649, 1974. Sasson, A. M., "Nonlinear Programming Solutions for Load Flow, Minimum-Loss and Economic Dispatching Problems," IEEE Transactions on Power Apparatus Systems^ PAS-88, pp. 399-409, 1969a. $asson, A. M., "Combined Use of the Powell and Fletcher-Powell Nonlinear Program-** ming Methods for Optimal Load Flows," IEEE Transations on ppyygr Appfitatus^ and Systems, PAS-88, pp. 1530-1537, 1969b. Sasson, A. M., F. Aboytes, R. Carenas, F. Gome, and F. Viloria, "A Comparison o?, Power Systems Static Optimization Techniques," in Proceedings of 7th Powef Industry Computer Applications Conference, Boston, pp. 329-337, 197 J. Sasson, A. M., and H. M. Merrill, "Some Applications of Optimization Techniques Kb Power Systems Problems," Proceedings of the IEEE, 62, pp. 959-972, 1974.. Savage, S. L., "Some Theoretical Implications of Local Optimization/' f jLQ, pp, &4$6p Ш&
562 СПИСОК ЛИТЕРАТУРЫ Schaible, S., "Quasi-Convex Optimization in General Real Lfnear Spaces," Zietschrift fur Operations Research A, 16, pp. 205-213, 1972. Schaible, S., "Quasi-Concave, Strictly Quasi-Concave and Pseudo-Concave Functions,'1 Operations Research Verfahren, 17, pp. 308-316,1973a. Schaible, S., "Quasi-Concavity and Pseudo-Concavity of Cubic Functions," Mathemati- Mathematical Programming, 5, pp. 243-247, 1973b. Schaible, S., "Parameter-Free Convex Equivalent and Dual Programs of Fractional Programming Problems," Zietschrift fur Operations Research A, 18, pp. 187-196, 1974a. Schaible, S., "Maximization of Quasi-Concave Quotients and Products of Finitely Many Functional," Cahiers Centre Etudes Recherche Opperationelle, 16, pp. 45-53,1974b, Schaible, S., "Duality in Fractional Programming: A Unified Approach," Operations Research, 24, pp. 452-461, 1976. Schechter, S., "Minimization of a Convex Function by Relaxation," in Integer and Nonlinear Programming, J. Abadie (Ed.), 1970. Sengupta, J. K., Stochastic Programming-Methods and Applications, American Elsevier, New York, 1972. Sengupta, J. K., and J. H. Portillo-Campbell, "A Fractile Approach to Linear Program- Programming Under Risk", Management Science, 16, pp. 298-308, 1970. Sengupta, J. K., G. Tintner, and С Millham, "On Some Theorems in Stochastic Linear Programming with Applications," Management Science , 10, pp. 143-159, 1963. Shah, B. V., R. J. Beuhler, and O. Kempthorne, "Some Algorithms for Minimizing a Function of Several Variables," SIAM J. Applied Mathematics, 12, pp. 74-92, 1964. Shamir, D., "Optimal Design and Operation of Water Distribution Systems," Water Resources Research, 10, pp. 27-36, 1974. Shanno, D. F., "Conditioning of Quasi-Newton Methods for Function Minimizations," Mathematics of Computation, 24, pp. 641-656, 1970. Sharma, I. C, and K. Swarup, "On Duality in Linear Fractional Functional Program- Programming," Zeitschrift fur Operations Research A, 16, pp. 91-100, 1972. Shetty, С. М., "A Simplified Procedure for Quadratic Programming," Operations Research, 11, pp. 248-260, 1963. Siddal, J. N., Analytical Decision-Making in Engineering Design, Prentice-Hall, En- glewood Cliffs, N.J., 1972. Simonnard, M., Linear Programming (translated by W. S. Jewell), Prentice-Hall, Englewood Cliffs, N.J., 1966. Sinha, S. M., "An Extension of a Theorem on Supports of a Convex Function»'* Management Science, 12, pp. 380-384, 1966. Sinha, S. M, "A Duality Theorem for Nonlinear Programming," Management Science, 12, pp. 385-390, 1966. Sinha, S. M., and K. Swarup, "Mathematical Programming: A Survey, J. Mathematical Sciences, 2, pp. 125-146, 1967. Sion, M., "On General Minmax Theorems," Pacific J. Mathematics 8, pp. 1714176, 1958. Slater, M., "Lagrange Multipliers Revisted: A Contribution to Nonlinear Program- Programming," Cowles Commission Discusmn Р$рег^ъ\Ь?т&Ш 4РЗ, )95Q.
СПИСОК ЛИТЕРАТУРЫ 563 Soland, R. М., uAn Algorithm for Separable Nonconvex Programming Problems, II," Management Science, 17, pp. 759-773, 1971. Soland, R. M, "An Algorithm for Separable Piecewise Convex Programming Prob- Problems/1 Naval Research Logistics Quarterly, 20, pp. 325-340, 1973. Sorenson, H. W., "Comparison of Some Conjugate Directions Procedures for Function Minimization," J. Franklin Institute, 288, pp. 421-441, 1969. Spendley, W., "Nonlinear Least Squares Fitting Using a Modified Simplex Minimization Method," in Optimization, R. Fletcher (Ed.), 1969. Spendley, W., G. R. Hext, and F. R. Himsworth, "Sequential Application of Simplex Designs of Optimization and Evolutionary Operations," Technomeirics, 4, pp. 441-461, 1962. Stewart, G. W., Ill, "A Modification of Davidon's Minimization Method to Accept Difference Approximations of Derivatives," J. Association for Computing Machineary 14, pp. 72-83, 1967. Stocker, D. C, A Comparative Study of Nonlinear Programming Codes, M.S. Thesis, The University of Texas, Austin, Texas, 1969. Stoer, J., "Duality in Nonlinear Programming and the Minimax Theorem," Numerische Mathematik, 5, pp. 371-379, 1963. Stoer, J., and C. Witzgall, Convexity and Optimization in Finite Dimensions I, Springer* Verlag, New York, 1970. Straeter, T. A. and J. E. Hogge, "A Comparison of Gradient Dependent Techniques for the Minimization of an Unconstrained Function of Several Variables," J. American Institute of Aeronautics and Astronautics, 8, pp. 2226-2229, 1970. Swann, W. H., "Report on the Development of a New Direct Search Method of Optimization, Imperial Chemical Industries Ltd. Central Insir. Res. Lab. Research Note 64/3, London, 1964. Swarup, K., "Linear Fractional Functional Programming," Operations Research, 13, pp. 1029-1035, 1965. Swarup, K., "Programming With Quadratic Fractional Functions,'1 Opsearch, 2, pp. 23-30, 1966. Szego, G. P. (Ed.), Minimization Algorithms — Mathematical Theories and Computer Results, Academic Press, New York, 1972. Tabak, D., "Comparative Study of Various Minimization Techniques Used in Mathematical Programming," IEEE Transactions on Automatic Control, AC-14, p. 572, 1969. ¦*Tabak, D., and В. С Kuo, Optimal Control by Mathematical Programming, Prentice- Hall, Englewood Cliffs, N.J., 1971. Taha, H. A., "Concave Minimization Over a Convex Polyhedron," Naval Research Logistics Quarterly, 20, pp. 533-548, 1973. Takahashi, I., "Variable Separation Principle for Mathematical Programming," Jr Operations Research Society of Japan, 6, pp. 82-105, 1964. Tanabe, K., "An Algorithm for the Constrained Maximization in Nonlinear Program- Programming," /. Operations Research Society of Japan, 17, pp. 184-201, 1974. R. A., "Newton's Method for Optimization Problems with Equality Con* straipts," S//V/V/ J. Numerical Analysis, 11, pp. 874-886,1974a.
564 СПИСОК ЛИТЕРАТУРЫ Tapia, R. A., "A Stable Approach fo flewfon's Method for Generaf MatnemaHcal Programming Problems in Rnf" J. Optimization Theory and Applications, 14, pp. 453-476, 1974b. tTheil, H., and C. van de Panne, "Quadratic Programming as an Extension of Conven- Conventional Quadratic Maximization," Management Science, 7, pp. 1-20, 1961. Thompson, W. A., and D. W. Parke, "Some Properties of Generalized Concave Functions," Operations Research, 21, pp. 305-313, 1973. Todd, M. J., "A Generalized Complementary Pivoting Algorithm," Mathematical Programming, 6, pp. 243-263, 1974. Tomlin, J. A., "On Scaling Linear Programming Problems,'4 in Computational Practice in Mathematical Programming, M. L. Balinski and E. Hellerman (Eds.), 1975. Topkis, D. M., and A. F. Veinott, "On the Convergence of Some Feasible Direction* Algorithms for Nonlinear Programming," S1AMJ. Control, 5, pp. 268-279, 1967. Torsti, J. J., and A. M. Aurela, "A Fast Quadratic Programming Method for Solving Ill-Conditioned Systems of Equations," J. Mathematical Analysis and Applications^ 38, pp. 193-204, 1972. Tripathi, S.S., and K. S. Narendra, "Constrained Optimization Problems Using Multiplier Methods," J. Optimization Theory and Applications, 9, pp. 59-70, 1972. Tucker, A. W., "Linear and Nonlinear Programming," Operations Research, 5, pp. 244-257, 1957. Tucker, A. W., "A Least-Distance Approach to Quadratic Programming," in Mathematics of tkeBecision Sciences, G. B. Dantzig and A. F. Veinott (Eds.), 1968. Tucker, A. W., "Least Distance Programming," in Proceedings of Princeton Conference on Mathematical Programming, H. W. Kuhn (Ed.), 1970. Tui, H., "Concave Programming under Linear Constraints" (Russian), English transa- tion in Soviet Mathematics, 5, pp. 1437-1440, 1964. Umida, Т., and A. Ichikawa, "A Modified Complex Method for Optimization," J. Industrial and Engineering Chemistry Products Research and Development 10, pp. 236-243, 1971. Uzawa, H., "The Kuhn-Tucker Theorem in Concave Programming," in Studies in Linear and Nonlinear Programming, K. J. Arrow, L. Hurwicz, and JHf. Uzawa (Eds.), 1958a. Uzawa, H., "Gradient Method for Concave Programming,' II," in Studies in Linear and Nonlinear Programming, K. J. Arrow, L. Hurwicz, and H. Uzawa (Eds.), 1958b. Uzawa, H.r "Iterative Methods for Concave Programming," in Studies in Linear and Nonlinear Programming, K. J. Arrow, L. Hurwicz, and H..Uzawa (Eds.), 1958c. Uzawa, H., "Market Mechanisms and Mathematical Programming," Econometrica, 28, pp. 872-880, 1960. Uzawa, H., "Duality Principles in the Theory of Cost and Production," International Economic Review, 5, pp. 216-220, 1964. Vaisbr H-, and С. М. Shetty, "The Bilinear Programming Problem," Nhvat Research jLogisfics Quarterly, 23t pp,03-309, 1976. Vafsh, H., and С. М. Shetty, "A Cutting Plane Algorithm for the Bilinear Programming Problem, Naval Research Logistics Quarterly, 24, pp. 83-94, 1977. Programming Addison-Wesley, Reading, Mass., 196L
СПИСОК ЛИТЕРАТУРЫ 565 Vajda, S., ''Nonlinear Programming and Duality," in Nonlinear Programming, J. Abadie (Ed.), 1967. Vajda, S., "Stochastic Programming," in Integer and Nonlinear Programming, J. Abadie (Ed.), 1970. Vajda, S., Probabilistic Programming, Academic Press, New York, 1972. Vajda, S., Theory of Linear and Non-Linear Programming, Longman, London, 1974a. Vajda, S., "Tests of Optimality in Constrained Optimization," J. Institute of Mathema- Mathematics and Its Applications 13, pp. 187-200, 1974b. Valentine, F. A., Convex Sets, McGraw-Hill, New York, 1964. Varaiya, O., "Nonlinear Programming in Banach Spaces," SIAM J. Applied Mathema- Mathematics 15, pp. 284-293, 1967. Varaiya, P. P., Notes on Optimization, Van Nostrand Reinhold, New York, 1972. Veinott, A. F., "The Supporting Hyperplane Method for Unimodai Programming," Operations Research, 15, pp. 147-152, 1967. Von Neumann, J., "Zur Theorie der Gesellschaftsspieie," Mathematische Annalen, 100л pp. 295-320, 1928. Von Neumann, J., and O. Morgenstern, Theory of Games and Economic Behavior9 Princeton University Press, Princeton, N.J., 1947. Walsh, G. R., Methods of Optimization, John Wiley & Sons, Mew York, 1975. Walsh, S., and L. C. Brown, "Least Cost Method for Sewer Design," /. Environmental Engineering Division, American Society of Civil Engineers, 99-EE3, pp. 333-345^ 1973. Weatherwax, R., "General Lagrange Multiplier Theorems," J. Optimization Theory and Applications, 14, pp. 51-72, 1974. Wets, R. J. В., "Programming Under Uncertainty: The Equivalent Convex Program," SIAM J. Applied Mathematics 14, pp. 89-105, 1966a. Wets, R. J. В., "Programming Under Uncertainty; The Complete Problem," Z. Wahrscheinlichkeits Theorie und Verwandte Gebiete, 4, pp. 316-339, 1966b. Wets, R. J. В., "Necessary and Sufficient Conditions for Optimality: A Geometric Approach," Operations Research Verfahren, 8, pp. 305-311, 1970. Wets, R. J. В., "Characterization Theorems for Stochastic Programs," Mathematical Programming, 2, pp. 165-175, 1972. Whinston, A., "A Dual Decomposition Algorithm for Quadratic Programming," Cahiers Centre Etudes Recherche Opperationelle, 6, pp. 188-201, 1964. Whinston, A., "The Bounded Variable Problem — An Application of the Dual Method for Quadratic Programming," Naval Research Logistics Quarterly, 12, pp. 315—322a 1965. Whinston, A., "Some Applications of the Conjugate Function Theory to Duality^2 щ Nonlinear Programming, J. Abadie (Ed.), 1967 Whittfe, P., Optimization Under Constraints, Wiley-Interscience, London, 1971, * Wilde, D. J., Optimum Seeking Methods, Prentice Hall, Englewood Cliffs, N.J., 1964. Wilde, D. J., and C. S. Beightler, Foundations of Optimization, Prentice-Hall, En- Englewood Cliffs, N.J., 1967. Williams, A. C, "On Stochastic Linear Programming," SIAM J. Applied Mathematics 13, pp 927-940, 1965.
566 СПИСОК ЛИТЕРАТУРЫ "Williams, А. С, "Approximation Formulas for Stochastic Linear Programming," SI AM J. Applied Mathematics, 14, pp. 666-611, 1966. Williams, A. C, "Nonlinear Activity Analysis," Management Science, 17, pp. 127-139, 1970. Wismer, D. A. (Ed.), Optimization Methods for Large Scale Systems, McGraw-Hill, New York, 1971. Wolfe, P., "The Simplex Method for Quadratic Programming," Econometrica, 27, pp. 382-398, 1959. Wolfe, P., "A Duality Theorem for Nonlinear Programming," Quarterly of Applied Mathematics, 19, pp. 239-244, 1961. Wolfe, P., "Some Simplex-Likc Nonlinear Programming Procedures," Operations Re- Research, 10, pp. 438-447, 1962. Wolfe, P., "Methods of Nonlinear Programming," in Recent Advances in Mathematical Programming, R. L. Graves and P. Wolfe (Eds.), 1963. Wolfe, P., "Methods of Nonlinear Programming," in Nonlinear Programming, J. Abadie (Ed.), 1967. Wolfe, P., "Convergence, Theory in Nonlinear Programming," in Integer and Nonlinear Programming, J. Abadie (Ed.), 1970. Wolfe, P., "On the Convergence of Gradient Methods Under Constraint," IBM J. Research and Development, 16, pp. 407-411, 1972. Wolfe, P., "Note on a Method of Conjugate Subgradients for Minimizing Nondifferenti- able Functions," Mathematical Programming, 1, pp. 380-383, 1974. Wolfe, P., "A Method of Conjugate Subgradients for Minimizing Nondifferentiable Functions," in Nondifferentiable Optimization, M. L. Balinski and P. Wolfe (Eds.) 1976. Wood, D. J., and С. О. Charles, "Minimum Cost Design of Water Distribution Systems," OWRR, B-O17-DYC), Report No. 62, Kentucky University Water Resources Research Institute, Lexington, 1973. ^Yefimov, N. V., Quadratic Forms and Matrices: An Introductory Approach, (Trans. By A. Shenitzer), Academic Press, New York, 1964. "Yu, W., and Y. Y. Haimes, "Multi-level Optimization for Conjunctive Use of Ground Water and Surface Water," Water Resources Research, 10, pp. 625-636, 1974. Zadeh, L. A , L. W. Neustadt, and A. V. Balakrishnan (Eds.), Computing Methods in Optimization Problems 2, Academic Press, New York, 1969. Zangwill,- W. I., "The Convex Simplex Method," Management Science, 14, pp. 221-283, 1967a. Zangwill, W. I., "Minimizing a Function without Calculating Derivatives," Computer Journal, 10, pp. 293-296, 1967b. Zangwill, W. I., "Nonlinear Programming Via Penalty Functions," Management Science, 13, pp. 344-358, 1967c. Zangwill, W. I., "The Piecewise Concave Function," Management Science, 13, pp. 900-912, 1967d. *Zangwill, W. I., Nonlinear Programming: A Unified Approach, Prentice-Hall, Englewood Cliffs, N.J., 1969. Zeleny, M., Linear Multi-Objective Programming, Lecture Notes in Economic^ #nd Mathematical Systems, Цд.. $5t Springer-yerlag, New York^
СПИСОК ЛИТЕРАТУРЫ 567 Zeleny, M., and J. L. Cochrane (Ecf.)., Multiple Criteria Decision Making, University of South Carolina, Columbia, 1973 Ziemba, W. Т., "Computational Algorithms for Convex Stochastic Programs with Simple Recourse," Operations Research, 18, pp. 414-431, 1970. Ziemba, W. Т., "Transforming Stochastic Dynamic Programming Problems into Nonlinear Programs," Management Science, 17, pp. 450-462, 1971. Ziemba, W. Т., "Stochastic Programs with Simple Recourse," in Mathematical Program- Programming in Theory and Practice, P. L. Hammer and G. Zoutendijk (Eds.), 1974. Ziemba, W. Т., and R. G. Vickson (Eds.), Stochastic Optimization Models in Financei Academic Press, New York 1975. Ziohts, S., "Programming with Linear Fractional Functions," Naval Research Logistics Quarterly, 15, pp. 449-452, 1968. * Zoutendijk, G., Methods of Feasible Directions, Elsevier, Amsterdam, and D. VanNostrand, Princeton, N.J., 1960. Zoutendijk, G., "Nonlinear Programming: A Numerical Survey," SIAMJ. Control, 4, pp. 194-210, 1966. Zoutendijk, G., "Computational Methods, in Nonlinear Programming," Studies in Optimization 1, Society for Industrial and Applied Mathematics, Philadelphia, 1970a. Zoutendijk, G., "Nonlinear Programming, Computational Methods," in Integer and Nonlinear Programming, J. Abadie (Ed.), 1970b. Zoutendijk, G., "Some Algorithms Based on the Principle of Feasible Directions," in Nonlinear Programming, J. B. Rosen, O. L. Mangasarian, and K. Ritter (Eds.), 1970c. Zoutendijk, G., "Some Recent Developments in Nonlinear Programming," in The 5th Conference on Optimization Techniques R. Conti and A. Ruberti (Eds.), 1973. Zoutendijk, G., Mathematical Programming Methods, North Holland, Amsterdam, 1976. Zwart, P. В., "Nonlinear Programming: Global Use of the Lagrangian," J. Optimization Theory and Applications, 6, pp. 150-160,1970a. Zwart, P. В., "Nonlinear Programming: A Quadratic Analysis of Ridge Paralysis," J Optimization Theory and Applications, 6, pp. 331-339, 1970b. Zwart, P. В., "Nonlinear Programming — The Choice of Direction by Gradient Projec- Projection," Naval Research .Logistics Quarterly, 17, pp. 431-438,1970c. .Zwart, P. В., "Global Maximization of a Convex Function with Linear Inequality Constraints," Operations Research, 22, pp. 602-609, 1974. Список цитируемых работ, опубликованных на русском языке1) Аоки (Aoki M.) A977) Введение в методы оптимизации. Пер. с англ. — М.: Наука. Беккенбах, Беллман (Beckenbach E. F., Bellman R.) A965) Неравенства. Пер. с англ. — М.: Мир. Гилль, Мюррей (Gill P. E., Murray W.) A977) Численные методы условной оптимизации (под ред. Ф. 1 илля, Мюррея). Пер. с англ. — М.: Мир. Гирсанов И. В. A970) Лекции по математической теории экстремальных задач.— М.: МГУ. 1) Названия этих работ на языке оригинала см. в основном списке работ они помечены знаком *. — Прим. ред.
568 СПИСОК ЛИТЕРАТУРЫ Данциг (Dantzig G. В.) A966) Линейное программирование, его применения и обобщения. Пер. с англ. — М.: Прогресс. Даффин, Питерсон, Зенер (Duffin R. J., Peterson E. L., Zener С.) A972) Геометрическое программирование. Пер. с англ. — М: Мир. Демьянов В. Ф., Рубинов А. М. A967) Минимизация гладкого выпуклого функционала на выпуклом множестве. — Вестник ЛГУ, 19, 4, с. 5—18. Деннис (Dennis J. В.) A961) Математическое программирование и электрические цепи. Пер. с англ. — М.: ИЛ. Дубовицкий А. Я», Милютин А. А. A965) Задачи на экстремум при наличии ограничений. — ЖВМ, 5, 3, с. 395—453. Ефимов Н. В. A967) Квадратичные формы и матрицы. — М.: Наука. Заыгвилл (Zangwill W. I.) A973) Нелинейное программирование. Единый подход. Пер. с англ.— М.: Сов. радио. Зойтендейк (Zoutendijk G.) A963) Методы возможных направлений. Пер. с англ. — М.: ИЛ. Интрилигатор (Intriligator M. D.) A975) Математические методы оптимизации и экономическая теория. Пер. с англ.— М.: Прогресс. Карлин (Karlin S.) A964) Математические методы в теории игр, программировании и эко- экономике. Пер. с англ. — М.: Мир. Кюнци, Крелле (Kunzi H. P., Krelle W.) A963) Нелинейное программирование. Пер. с англ. — М.: Сов. радио. Кун, Таккер (Kuhn.H. W, Tucker A. W.) A959) Линейные неравенства и смежные вопросы (под ред. X. Куна, А. Таккера). Пер. с англ. — М.: ИЛ. Лэсдон (Lasdon L. S.) ^ A975) Оптимизация больших систем. Пер. с англ. — М.: Наука. Нейман, Моргенштерн (Von Neumann J., Morgenstern О.) A970) Теория игр и экономическое поведение. Пер. с англ. — М.: Наука. Никайдо (Nikaido H.) A972) Выпуклые структуры и математическая экономика. Пер. с англ. — М.: Мир. Полак (Polak E.) М974) Численные методы оптимизации. Единый подход. Пер. с англ.— М.: Мир. Поляк Б. Т. A967) Один общий метод решения экстремальных задач. — Доклады АН СССР, 174, 1, с. 33—36. Поляк Б. Т. A969) Метод сопряженных градиентов в задачах на экстремум.— Журн. выч. мат. и мат. физ., 9, 4, с. 807—821. Рвачев В. Л. A963) Об аналитическом описании некоторых геометрических объек- объектов.—ДАН УССР, 153, 4, с. 765—767. Рокафеллар (Rockafeller R. Т.) A973) Выпуклый анализ. Пер. с англ. — М.: Мир. Рудин (Rudin W.) A966) Основы математического анализа. Пер. с англ. —М.; Мир, Хабак, Kyo (Tabak D., Kuo В. С.)
СПИСОК ЛИТЕРАТУРЫ 569 A975) Оптимальное управление и математическое программирование. Пер. с англ. — М.: Наука. Туй (Tui H.) A964) Вогнутое программирование при линейных ограничениях. — ДАН СССР, 159, 1, с. 32—36. Уайлд (Wilde D. J.) A967) Методы поиска оптимума. Пер. с англ. — М.: Наука. Фаддеев Д. К., Фаддеева В. Н. A963) Вычислительные методы линейной алгебры. — 2-е изд., М.: Физ- матгиз. Фиакко, Мак-Кормик (Fiacco А. V., McCormick G. Р.) A972) Нелинейное программирование. Методы последовательной без- безусловной минимизации. Пер. с англ. — М.: Мир. Харди, Литтлвуд, Полна (Hardy G. H., Littlewood J. E., Polya G.) A948) Неравенства. Пер. с англ. — М.: ИЛ. Хедли (Hadley G.) A967) Нелинейное и динамическое программирование. Пер. с англ.— М.: Мир. Химмельблау (Himmelblau D. М.) A975) Прикладное нелинейное программирование. Пер. с англ. — М.: Мир. Эрроу, Гурвиц, Удзава (Arrow К. J., Hurwicz L, Uzawa H.) A962) Исследования по линейному и нелинейному программированию. Пер. с англ. — М.: ИЛ.
Комментарии редактора перевода К главе 1 Многочисленные примеры постановок экстремальных экономических задач содержатся в книгах Канторовича Л. В. [33], Бравермана Э. М. [3] и Перво- званского А. А. [59] *). Примеры выпуклых экстремальных моделей в эконо- экономике, технике и в организации рационального использования водных ресурсов приведены в монографии Юдина Д. Б. и Юдина А. Д. [91]. Приложения математического программирования к задачам строительной механики изуча- изучались в работах Чираса А. А. и др. [84—86]. Разнообразным техническим про- проблемам оптимизации посвящены книги [7, 32, 52, 58, 73]. Экстремальные модели в планировании эксперимента и обработке статистических данных изучались в работах Налимова В. В. и Черновой Н. А. [55], Федорова В. В. [80], Вапника В. Н. [5], Мудрова В. И. и Кушко В. Л. [53]. Задачи опти- оптимального распределения ресурсов обсуждаются в книге Гу марского Я- С. и Меркулова А. Д. [17]. Разнообразные прикладные стохастические задачи, детерминированные эквиваленты которых укладываются в рамки выпуклого программирования, рассмотрены в монографиях Юдина Д. Б. [89, 90], Ермольева Ю. М. [23], а также Ермольева Ю. М. и Ястрем^ого А. И. [24]. К стохастическому программированию примыкает теория адаптации и обучения, развиваемая в работах Цыпкина Я. 3. [81, 82]. Оптимальному управлению и его связи с линейными и выпуклыми экстре- экстремальными задачами посвящены книги Болтянского В. Г [2], Пропоя А. И. [67], Федоренко Р. П. [79] и Моисеева Н. Н. [51]. Приложения теории оптимизации к задачам чебышевского приближения, к проблеме моментов и к другим математическим задачам исследуются в ра- работе Голыптейна Е. Г. [12] и монографии Крейна М. Г. и Нудельмана А. А. [40]. Установленная Крейном М. Г. двойственная связь проблемы моментов и задачи чебышевских приближений использована Зуховицким С. И. [26] для исследования задачи наилучшего приближения. Приложениям методов решения экстремальных задач к различным про- проблемам механики и физики посвящены книги Черноусько Ф. Л. и Баничу- ка Н. В. [83] и Лурье К. А. [45]. К главе 2 Теория выпуклых множеств с разной степенью подробности рассматри* вается в ряде учебников и монографий (см., например, [22, 29, 36, 40, 56, 68, 69, 70]). Подробное изложение свойств выпуклых многогранных множеств имеется в [92, 93]. Теория выпуклых конусов и доказательство теоремы об отделимости приведены в работе Крейна М. Г. и Рутмана М. А. [41]. Для ознакомления с задачами и методами линейного программирования можно рекомендовать книги Юдина Д. Б. и Гольштейна Е. Г. [92, 93]. *) Здесь литературные ссылки относятся к дополнительному списку ра- работ советских авторов. Более подробную библиографию по теории и методам нелинейного программирования можно найти в превосходных книгах Поля- Поляка Б. Т. [65J, Пшеничного Б. Н. [69] и Иоффе А. Д. и Тихомирова В. М. [29].
КОММЕНТАРИИ РЕДАКТОРА ПЕРЕВОДА 571 К главе 3 Выпуклые функции рассматриваются в ряде учебников и монографий (см., например, [6, 22, 29, 36, 38, 56, 68, 69, 70]). Особенности строго и сильно выпуклых функций обсуждаются в статье Левитина Е. С. и Поля- Поляка Б. Т. [43]. Результаты по бесконечномерному выпуклому анализу приво- приводятся в работах Иоффе А. Д. и Тихомирова В. М. [30], Иоффе А. Д. и Левина В. Л. [31]. Многозначные выпуклые отображения изучались в книге Иоффе А. Д. и Тихомирова В. М. [29], а также в работах Аркина В. И. и Левина В. Л. [1], Макарова В. Л. и Рубинова А. М. [49]. К главе 4 Общая формулировка необходимых условий экстремума в терминах со- сопряженных конусов впервые дана Дубовицким А. Я. и Милютиным А. А. [21]. Необходимые условия оптимальности подробно обсуждаются в моно- монографии Пшеничного Б. Н. [68]. Условия старшего порядка для многомерных и бесконечномерных задач исследованы .Красносельским М. А. и др. [39]. Условия существования минимума функционала в абстрактных пространствах приведены в монографии Вайнберга М. М. [4]. Развитие общей теории необходимых условий экстремума связано с соз- созданием математической теории оптимального управления [66]. Исследование достаточных условий экстремума проводится в работе Ле- Левитина Е. С, Милютина А. А. и Осмоловского Н П. [44]. К главе 6 Оригинальный подход к теории двойственности разработан Рубинштей- Рубинштейном Г. Ш. [74]. Другой подход к общей теории двойственности развит Голь- штейном Е. Г. [10]. Изложение теории двойственности, связанное с сопря- сопряженными функциями и возмущениями общего вида, дано в монографии Иоффе А. Д. и Тихомирова В. М. [29]. В работе [30] этих же авторов со- содержится обзор результатов теории двойственности для бесконечномерных задач. Двойственные задачи выпуклого программирования изучались также в работах Пшеничного Б. Н. [71], Гольштейна Е. Г. [13], Рубинштейна Г. Ш. [75] и в монографии Еремина И. И. и Астафьева Н. Н. [22J. К главе 7 Для исследования асимптотического поведения траекторий, построенных методами выпуклого программирования, используются функции Ляпунова. Достаточно полные результаты в этом направлении получены Любичем Ю. И. и Майстровским Г. Д. [46]. Помимо характеристик методов, предложенных в гл. 7, для сравнения эффективности алгоритмов нелинейного программирования в отечественной литературе по оптимизации используются и другие показатели качества мето- методов решения экстремальных задач. В [56] исследуется машинно-независимый подход к оценке сложности различных классов задач нелинейного программи- программирования и трудоемкости методов их решения. Там же приводятся оценки числа шагов, необходимых для обеспечения заданного качества решения лю- любой задачи из основных классов нелинейных экстремальных задач. К главе 8 Методы безусловной оптимизации рассматривались в [6, 36, 50, 70]. По- Подробная библиография по безусловным экстремальным задачам содержится в обзорах [61] и [76].
572 КОММЕНТАРИИ РЕДАКТОРА ПЕРЕВОДА Градиентный метод с различных точек зрения изучался Канторови- Канторовичем Л. В. [35], Поляком Б. Т. [62], Любичем Ю. И. [47], Любичем Ю. И. и Майстровским Г. Д. [46]. Скорость сходимости метода сопряженных градиен- градиентов оценивалась в работах Поляка Б. Т. [63], Майстровского Г. Д. [48], Смоляка С. А. [77].' Свойства сопряженных направлений рассматриваются в книге Фаддее- ва Д. К. и Фаддеевой В. К [78]. Метод сопряженных направлений без вы- вычисления производных предложен Пинскером И. Ш. и Цейтлиным Б. Е. [60]. Систематическое изучение метода Ньютона проведено Канторовичем Л. В. Его результаты изложены в [34]. Оптимизация негладких функций подробно исследуется в монографиях Шора Н. 3. [87] и Немировского А. С. и Юдина Д. Б. [56]. Минимизации функции типа «максимум» посвящены книги Демьянова В. Ф. [19], Демьяно- Демьянова В. Ф. и Малоземова В. Н. [20]. Обобщения на случай некоторых невы- невыпуклых негладких функций имеются в книгах Нурминского Е. А. [57] и Гу- пала А. М. [16]. К главе 9 Подробный обзор работ по штрафным и барьерным методам приведен у Эльстера К.-Х. и Гроссмана X. [88] в сборнике, опубликованном экономиче- экономическими издательствами Венгрии, ГДР, Польши и СССР. К главе 10 Независимо от Зойтендейка алгоритмы, близкие к схеме методов воз- возможных направлений, были предложены Зуховицким С. И., Поляком Р. А. и Примаком М. Е. [27, 28]. Другая версия этого метода, отличающаяся пра- правилом выбора длины шага на каждой итерации, предложена Пшеничным Б. Н. и Данилиным Ю. М. [70]. Среди описанных в [70] методов решения экстре- экстремальных задач с ограничениями содержится ряд оригинальных схем, принад- принадлежащих авторам. В работе [15] метод покоординатного спуска Гаусса — Зайделя распро- распространен на случай, когда на каждом шаге производится оптимизация не по отдельным переменным, а по векторам, составляющие которых — подмноже- подмножества множества переменных задачи. В [95] Юдин А. Д. предложил и аргу- аргументировал бесконечномерную версию метода покоординатного спуска. В монографии Немировского А. С. и Юдина Д. Б. [56] разработан ряд новых методов решения нелинейных задач математического программирова- программирования, субоптимальных по трудоемкости (по числу итераций, гарантирующих требуемое качество решения для любой задачи класса). В этой же книге оценивается трудоемкость ряда известных методов оптимизации. Обзор методов решения условных экстремальных задач содержится в ра- работе Поляка Б. Т. [64]. К главе 11 Экономные алгоритмы решения кусочно-линейных задач (задач кусочно- линейного программирования) построены в книге Голыптейна Е. Г. и Юди- Юдина Д. Б. [9]. Там же рассматриваются методы решения дробно-линейных задач. Дробно-выпуклое программирование изучается в работе Голыптей- на Е. Г. ГН]. Новый подход к решению задач квадратичного программирования пред- предложен Козловым М. К., Тарасовым С. П. и Хачияном Л. Г. [37]. Предложен- Предложенный алгоритм основан на идеях общего метода решения выпуклых негладких задач из работы Юдина Д. Б. и Немировского А. С. [94].
Дополнительный список работ советских авторов по оптимизации 1. Аркин В. И., Левин В. Л. Выпуклость значений векторных интегралов, теоремы измеримого выбора и вариационные задачи. — УМН, 1972, 27, 3, с. 21—77. 2. Болтянский В. Г. Оптимальное управление дискретными системами. — М.: Наука, 1973. 3. Браверман Э. М. Математические методы планирования и управления в экономических системах. — М.: Наука, 1976. 4. Вайнберг М. М. Вариационный метод и метод монотонных операторов в теории нелинейных уравнений. — М.: Наука, 1972. 5. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. 6. Васильев Ф. П. Лекции по методам решения экстремальных задач. — М.: МГУ, 1974. 7. Васильев Ф. П. Вычислительные методы выбора оптимальных проектных решений (под ред. Михалевича В. С). — Киев: Наукова думка, 1977. *8. Габасов Р., Кириллова Ф. М. Методы оптимизации. — Минск: БГУ, 1975. 9. Гольштейн Е. Г., Юдин Д. Б. Новые направления в линейном программи- программировании. — М.: Сов. радио, 1966. 10. Гольштейн Е. Г. Теория двойственности в математическом программиро- программировании и ее приложения. — М.: Наука, 1971. П. Гольштейн Е. Г. Двойственные задачи выпуклого и дробно-выпуклого программирования, (в сб.: Исследования по математическому программи- программированию).—М.: Наука, 1968, с. 10—108. 12. Гольштейн Е. Г. О некоторых оценках теории приближений (в сб.: Ис- Исследования по математическому программированию). — М.: Наука, 1968, с. 129—158. 13. Гольштейн Е. Г. Двойственные задачи выпуклого программирования. — Экономика и матем. методы, 1965, 1, 3, с. 410—425. 14. Гольштейн Е. Г., Третьяков Н. В. Модифицированные функции Лагран- жа. — Экономика и матем. методы, 1974, 10, 3, с. 568—591. 15. Гольштейн Е. Г., Юдин Д. Б. Методы расчета и синтеза импульсных автоматических систем. — Автоматика и телемеханика, 1963, 24, 2, с. 1643—1658. 16. Гупал А. М. Стохастические методы решения негладких задач. — Киев: Наукова думка, 1979. 17. Турин Л. С, Дымарский Я. С, Меркулов А. Д. Задачи и методы опти- оптимального распределения ресурсов. — М.: Сов. радио, 1968. 18. Демьянов В. Ф., Рубинов А. М. Приближенные методы решения экстре- экстремальных задач.— Л.: ЛГУ, 1968. 19. Демьянов В. Ф. Минимакс. Дифференцируемость по направлениям. — Л.: ЛГУ, 1974. 20. Демьянов В. Ф., Малоземов В. Н. Введение в минимакс. — М.: Наука, 1972. 21. Дубовицкий А. Я., Милютин А. А. Задачи на экстремум при наличии ограничений. — ДАН СССР, 1963, 149, 4, с. 759—762.
574 ДОПОЛНИТЕЛЬНЫЙ СПИСОК РАБОТ 22. Еремин И. И., Астафьев Н. Н. Введение в теорию линейного и выпуклого программирования. — М.: Наука, 1976. 23. Ермольев Ю. М. Методы стохастического программирования.—М.: Нау- Наука, 1976. 24. Ермольев Ю. М., Ястремский А. И. Стохастические модели и методы в экономическом планировании. — М.: Наука, 1979. 25. Зуховицкий С. И., Авдеева Л. И. Линейное и выпуклое программирова- программирование. ¦—М.: Наука, 1965. 26. Зуховицкий С. И. О приближении действительных функций в смысле П. Л. Чебышева. — УМН, 1965, И, 2, с. 125—159. 27. Зуховицкий С. И., Поляк Р. А., Примак М. Е. Алгорифм для решения задачи выпуклого чебышевского приближения. — ДАН СССР, 1963, 159, 1, с 27—30. 28. Зуховицкий С. И., Поляк Р. А., Примак М. Е. Алгорифм для решения задач выпуклого программирования. — ДАН СССР, 1963, 153, 5, с. 991— 994. 29. Иоффе А. Д., Тихомиров В. М. Теория экстремальных задач. — М.: Наука, 1964. 30. Иоффе А. Д., Тихомиров В. М. Двойственность выпуклых функций и экстремальные задачи.— УМН, 1968, 23, 6, с. 51 — 116. 31. Иоффе А. Д., Левин В. Л. Субдифференциалы выпуклых функций. — Тру- Труды ММО, 1972, 26, с. 3—73. 32. Казакевич В. В., Родов А. Б. Системы автоматической оптимизации. — М.: Энергия, 1977. 33. Канторович Л. В. Экономический расчет наилучшего использования ресур- ресурсов. — М.: АН СССР, 1960. 34. Канторович Л. В., Акилов Г. П. Функциональный анализ. — М.: Наука, 1977. 35. Канторович Л. В. О методе наискорейшего спуска.—ДАН СССР, 1947, 56, с. 233—236. 36. Карманов В. Г. Математическое программирование. — М.: Наука, 1975. 37. Козлов М. К.» Тарасов С. П., Хачиян Л. Г. Полиномиальная разреши- разрешимость выпуклого квадратичного программирования. — ДАН СССР, 1979, 248, 5, с. 1049—1051. 38. Красносельский М. А., Рутицкий Я. Б. Выпуклые функции и пространства Орлича. — М.: Физматгиз, 1958. 39. Красносельский М. А., Бобылев Н. А., Мухамадиев Е. М. Об одной схеме исследования вырожденных экстремалей функционалов классического ва- вариационного исчисления. — ДАН СССР, 1978, 240, 3, с. 530—533. 40. Крейн М. Г., Нудельман А. А. Проблема моментов Маркова и экстре- экстремальные задачи. — М.: Наука, 1973. 41. Крейн М. Г., Рутман М. А. Линейные операторы, оставляющие инвариант- инвариантным конус в пространстве Банаха. — УМН, 1948, 3, 1, с. 3—95. 42. Кузнецов Ю. Н., Кузубов В. Н., Волощенко А. Б. Математическое про- программирование. — М.: Высшая школа, 1980. 43. Левитин Е. С, Поляк Б. Т. Методы минимизации при наличии ограниче- ограничений. — Журн. выч. матем. и магем. физики, 1966, 6, 5, с. 787—823. 44. Левитин Е. С, Милютин А. А., Осмоловский Н. П. О необходимых и до- достаточных условиях минимума. — ДАН СССР, 1973, 210, 5, с. 1173—1176. 45. Лурье К. А. Оптимальное управление в задачах математической физики.— М.: Наука, 1975. 46. Любич Ю. И., Майстровский Г. Д. Общая теория релаксационных про- процессов для выпуклых функционалов. — УМН, 1970, 25, 1, с. 57—112. 47. Любич Ю. И. Наискорейший спуск. — Труды 2-й школы по математиче- математическому программированию и смежным вопросам, 1969, вып. 1, с. 113 — 151. 48. Майстровский Г. Д. О сходимости метода сопряженных градиентов. — Журн. выч. матем. и матем. физики, 1971, 11, 5, с. 1291 — 1294.
ДОПОЛНИТЕЛЬНЫЙ СПИСОК РАБОТ 575 49. Макаров В, Л., Рубинов А. М. Суперлинейные точечно-множественные отображения и модели экономической динамики. — УМН, 1970, 25, 5, с. 126—169. 50. Моисеев Н. Н., Иванилов Ю. П., Столярова Е. М. Методы оптимиза- оптимизации. — М.: Наука, 1978. 51. Моисеев Н. Н. Численные методы в теории оптимальных систем. — М.: Наука, 1971. 52. Моцкус И. Б. Многоэкстремальные задачи в проектировании.—М.: Нау- Наука, 1976. 53. Мудров В. И., Кушко В. Л. Методы обработки измерений. — М.: Сов. радио, 1976. 54. Мухачева Э. А., Рубинштейн Г. Ш. Математическое программирование. — Новосибирск: Наука (СО), 1977. 55. Налимов Н. Н., Чернова Н. А. Статистические методы планирования экс- экстремальных экспериментов. — М.: Наука, 1965. 56. Немировский А. С., Юдин Д. Б. Сложность задач и эффективность мето- методов оптимизации. — М.: Наука, 1979. 57. Нурминский Е. А. Численные методы решения детерминированных и сто- стохастических минимаксных задач. — Киев: На-укова думка, 1979. 58. Островский Г. М., Волин В. М. Методы оптимизации химических реакто- реакторов. — М.: Химия, 1976. 59. Первозванский А. А. Математические модели в управлении производ- производством — М.: Наука, 1975. 60. Пинскер И. Ш., Цейтлин Б. М. Нелинейная задача оптимизации. — Авто- Автоматика и телемеханика, 1962, 13, 12, с. 1611—1619. 61. Поляк Б. Т. Методы минимизации функций многих переменных (обзор). Экономика и матем. методы, 1967, 3, 6, с. 881—902. 62. Поляк Б. Т. Градиентные методы минимизации функционалов. — Журн. выч. матем. и матем. физики, 1963, 3, 4, с. 643—654. 63. Поляк Б. Т. Метод сопряженных градиентов. — Труды 2-й школы по ма- математическому программированию и смежным вопросам, 1969, вып. 1, с. 152-201. 64. Поляк Б Т. Методы минимизации при наличии ограничений. — В кн.: Математический анализ, т. 12 (Итоги науки и техники). М.: ВИНИТИ, 1974, с. 167-194. 65. Поляк Б. Т. Введение в оптимизацию. — М.: Наука, 1981. 66. Понтрягин Л. С, Болтянский В. Г, Гамкрелидзе Р. В., Мищенко Е. Ф. Математическая теория оптимальных процессов. — М.: Физматгиз, 1961. 67. Пропой А. И. Элементы теории оптимальных дискретных процессов. — М.: Наука, 1973. 68. Пшеничный Б. Н. Необходимые условия экстремума. — М.: Наука, 1969. 69. Пшеничный Б. Н. Выпуклый анализ и экстремальные задачи. — М.: Наука, 1980. 70. Пшеничный Б. Н., Данилин Ю. М. Численные ^методы в экстремальных задачах. — М.: Наука, 1975. 71. Пшеничный Б. Н. Принцип двойственности в задачах выпуклого програм- программирования. — Журн. выч. матем. и матем. физики, 1965, 5, 1, с. 98—106. 72. Разумихин Б. С. Физические модели и методы теории равновесия в про- программировании и экономике. — М.: Наука, 1975. 73. Растригин Л. А. Системы экстремального управления. — М.: Наука, 1974. 74. Рубинштейн Г. Ш. Двойственные экстремальные задачи. — ДАН СССР, 1963, 152, 2, с. 288—291. 75. Рубинштейн Г. Ш. Двойственность в математическом программировании и некоторые вопросы выпуклого анализа. — УМН, 1970, 25, 5, с. 171—201. 76. Саульев В. К, Самойлова И. И. Приближенные методы безусловной опти- оптимизации функций многих переменных. — В кн.: Математический анализ, т. 2 (Итоги науки и техники), М.: ВИНИТИ, 1973, с. 91 — 128.
576 ДОПОЛНИТЕЛЬНЫЙ СПИСОК РАБОТ 77. Смоляк С. А. Квадратичная сходимость метода сопряженных градиен- градиентов. — Труды 3-й школы по математическому программированию, М.: МИСИ, 1970. 78. Фаддеев Д. К., Фаддеева В. Н. Вычислительные методы линейной алгеб- алгебры. — М.: Физматгиз, 1960. 79. Федоренко Р. П. Приближенные решения задач оптимального управле- управления. — М.: Наука, 1978. 80. Федоров В. В. Теория оптимального эксперимента. — М.: Наука, 1971. 81. Цыпкин Я. 3. Адаптация и обучение в автоматических системах. — М.: Наука, 1968. 82. Цыпкин Я. 3. Основы теории обучающихся систем. — М.: Наука, 1970. 83. Черноусько Ф. Л., Баничук Н. В. Вариационные задачи механики и управления. — М.: Наука, 1973. 84. Чирас А. А. Методы линейного программирования при расчете упруго- пластических систем.— Л.: Изд-во литературы по строительству, 1969. 85. Чирас А. А. Теория оптимизации в предельном анализе твердого дефор- деформируемого тела. — Вильнюс: Минтис, 1971. 86. Чирас А. А., Борскаускас А. Э., Каркаускас Р. П. Теория и методы опти- оптимизации упруго-пластических систем. — Л.: Стройиздат, 1974. 87. Шор Н. 3. Методы минимизации недифференцируемых функций и их приложения. — Киев: Наукова думка, 1979. 88. Эльстер К.-Х., Гроссман X. Решение нелинейных оптимизационных задач с помощью штрафных и барьерных функций. — В кн.: Применения иссле- исследования операций в экономике. М.: Экономика, 1977, с. 95—161. 89. Юдин Д. Б. Математические методы управления в условиях неполной ин- информации. — М.: Сов. радио, 1974. 90. Юдин Д. Б. Задачи и методы стохастического программирования. — М.: Сов. радио, 1979. 91. Юдин Д. Б., Юдин А. Д. Экстремальные модели в экономике. — ДО.: Эко- Экономика, 1979. 92. Юдин Д. Б., Голыптейн Е. Г. Линейное программирование. — М.: Физмат- Физматгиз, 1963. 93. Юдин Д. Б., Голыптейн Е. Г. Задачи и методы линейного программиро- программирования. — М.: Сов. радио, 1961. 94. Юдин Д. Б., Немировский А. С. Информационная сложность и эффек- эффективные методы решения выпуклых экстремальных задач. — Экономика и матем. методы, 1976, 12, 2, с. 357—369. 95. Юдин А. Д. Покоординатный спуск в задачах бесконечномерного про граммирования и его приложения, — Техническая кибернетика, 1974, 1, с. 34-42.
Предметный указатель Алгоритм 240 — выпуклого симплексного метода 423 — Гилмора и Гомори 489 —- градиентного метода 210 — дихотомического поиска 268 — дополнительного ведущего преоб- преобразования 451 — Дэвидона — Флетчера — Пауэлла 314 — коррекции ранга один 337 два 342 — метода барьеров 360 возможных направлений Топ- киса и Вейнотта 395 деления пополам 278 Зангвилла 325 Зойтендейка 376, 383 золотого сечения 270 приведенного градиента 415 проекции градиента Розена 405 Розенброка 296 секущих плоскостей 217, 259 — — сопряженных градиентов 320 Фибоначчи 274 штрафных функций 353 — наискорейшего спуска 303 подъема 212 — построения точек разбиения 481 — симплекс-метода 79 — циклического покоординатного спу- спуска 283 Альтернативные формы условий Ку- Куна — Таккера 160 Аппроксимация функции квадратич- квадратичная 128 кусочно-линейная 467, 504, 505 линейная 128 тангенциальная 218 Базис в евклидовом пространстве 511 — в линейном программировании 78 Вектор 510 Векторы образующие 511 Векторы ортогональные 511 — сопряженные 310 — Я-сопряженные 310 Верхняя грань множества 515 Внутренность множества 50, 515 -относительная 90 Возможное направление 137 Выбор портфеля ценных бумаг 40 Выпуклая комбинация 46, 519 — оболочка множества 48 Выпуклое множество 46 Выпуклый конус 47 — симплексный метод Зангвилла 421 Генерирование точек разбиения 477 Гиперплоскость 55, 519 — опорная 60, 520 собственная 60 — разделяющая 56, 520 сильно 56 строго 56 Градиент приведенный 413 — функции 102, 518 Граница множества 50, 516 График функции 96 Двойственная задача по Лагранжу 189 максиминная 189 — функция Лагранжа 188 Дополнение ортогональное 86 Допустимая область 14 — точка 14 Задача безусловной оптимизации 134 — билинейного программирования 169 — Вулфа 258 — двойственная 188 — дополнительности линейная 460 нелинейная 496 — дробно-линейного программирова- программирования 37, 486 — квадратичного программирования 227, 459
578 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Задача линейного программирования 7, 15, 76, 225 — каноническая форма 77 — нелинейного программирования 7. 14 прямая 188 — — — двойственная 188 — одномерной минимизации 110 — оптимального управления с диск- дискретным временем 17 с непрерывным временем 19 — размещения оборудования 39 — сепарабельного программирования 466 — со смешанными ограничениями 151 — сопряженная 236 — транспортная 40 Интервал замкнутый 515 — открытый 515 — неопределенности 265 Итерация алгоритма 240 Контрпример Вулфа 393 Конус 64 — возможных направлений 129. 137, 177 — внутренних направлений 177 — выпуклый 47, 64 — достижимых направлений 177 — касательных 87, 173 — многогранный 519 — натянутый на конечное число век- векторов 519 — полярный 64 Координата вектора 510 Коэффициент сходимости 254 Критерий оптимальности 14 — остановки 245, 246 — седловой точки 197 Линейная комбинация 511 — независимость векторов 511 Матрица 512 — Гессе 104, 518 — единичная 512 — коположительная 458 сильно 458 — невырожденная 513 — нулевая 512 —.отрицательно определенная 514 полуопределенная 514 — положительно определенная 104, ~ 514 — — полуопределенная 104, 514 — проектирования 401 Матрица симметрическая 512 — транспонированная 512 Метод Абади и Карпентера 443 — Баранкина и Дорфмана 502 — барьеров 355 без параметра 367 — внешних штрафов 352 — возможных направлений ПО — главного ведущего элемента 496 — градиентный 209 — Гриффита — Стьюарта 443 — Данцига для решения задач квад- квадратичного программирования 500 — двухэтапный 84 — деления пополам 277 — Дэвидона — Голдфарба 445 — Дэвидона — Флетчера — Пауэлла 314 — Зангвилла 325 — золотого сечения 269 — наискорейшего спуска 302 — Ньютона 279, 305 — опорной гиперплоскости 261 — параллельных касательных 336 — Пауэлла — Зангвилла 338 — переменной метрики 314 — подъема для недифференцируемой двойственной функции 212 — приведенного градиента Вулфа 412 — проекции градиента Розена 401 — Розенброка 293 — секущих плоскостей 259, 216, 218 Келли 260 — симплексный 77 — — для нахождения безусловного оптимума 339 — сопряженных градиентов 320 — субградиентной оптимизации 232 — Тейла и Ван де Пэнна для реше- решения задач квадратичного програм- программирования 503 — Фибоначчи 272 — Франка и Вулфа 433 — Хука и Дживса 28? — циклического покоординатного спуска 283 — Чарнса и Купера 493 — штрафных функций 348 без параметра 367 Методы прямые 371 М-метод 85 Многообразие аффинное 130 ¦ Многогранник 48 Множество 514 — выпуклое 46, 519 — замкнутое 50, 516
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 579 Множество компактное 516 — многогранное 47, 519 — ограничений 76 — открытое 50, 515 — решений 241 — уровня 93 Множитель Лагранжа 144, 149, 189, 526, 529 Модель распределения ресурсов в ус- условиях неполной информации 35 при заданном отношении к риску 37 — управления водными ресурсами 31 Модификация метода Вулфа 498 Ньютона 309 Надграфик функции 97 Направление возможное 137, 372 — множества 67, 521 — подъема 207 наискорейшего 165, 207 — спуска 129, 134 возможное 167, 372 — экстремальное 67 Направления различные 67 — сопряженные 313 Необходимое условие оптимально ти первого порядка 135 второго порядка 135 Неравенство Шварца 511 Нижняя грань множества 515 Норма вектора 511 — матрицы 308 Обновление метода 330 Объединение множеств 514 Ограничение активное 140 — неравенство 14 — равенство 14 Окрестность точки 515, 519 Определитель матрицы 513 Ортант неотрицательный 130 Отделимость несобственная 56 — сильная 56 — собственная 56 — строгая 56 Отображение алгоритмическое 240 — замкнутое 243 — линейного поиска 257, 281 — сложное 247 Переменная базисная 77 — внебазисная 77 — дополнительная 77, 82, 450 — искусственная 84 Пересечение множеств 514 Подграфик функции 97 Подмножество 515 Подпоследовательность 516 Подпространство линейное 130 Поиск дихотомический 267 — последовательный 267 — равномерный 266 Полупространство 46, 519 — замкнутое 55 — линейное 86 — открытое 55, 519 Поляра 88 Порядок сходимости 254 Последовательность Коши 516 — Фибоначчи 272 Правило параллелограмма 53 Преобразование ведущее 82 Проектирование механических кон- конструкций 25 • — строительных конструкций 23 — проекция антиградиента 257 Произведение матриц 512 — скалярное 511 Производная по направлению 95 Процедура Грама — Шмидта 294 — решения 240 Равновесие в электрической цепи 27 Разрыв двойственности 193 Ранг матрицы 513 полный 513 Решение задачи 15, 107 допустимое 14, 107 оптимальное 15, 107 глобальное 107 локальное 107 — полное базисное допустимое 450 — почти полное базисное допустимое 451 — — оптимальное 222 — смежное почти полное базисное допустимое 451 Сетка интервала 266 Симплекс 48 — метод 77 Собственное значение матрииы 514 Собственный вектор 514 Сравнение алгоритмов 252 Столбец ведущий 82 Строка ведущая 82 Субградиент функции 98 Сумма векторов 510 — матриц 512 — отображений 255 Схема коррекции 314 Сходимость линейная 251 — сверхлинейная 251
580 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Табличное представление симплекс- метода 81 Теорема Гейла 86 — двойственности слабая 192, 529 сильная 196, 530 — Жордана 62, 521 — Каратеодори 49 — о представлении 73 — о седловой точке 197 — о среднем значении 518 — сходимости 244 — Таккера 87 — Тейлора 518 — Фаркаша 58, 65, 520 Точка внутренняя 515 — граничная 516 — Куна —Таккера 150, 181 — минимума глобального 134 локального 134 — экстремальная 67, 521 начальная 84 Условия дополняющей нежесткости 144, 149, 526 — линейной независимости 178, 181 — оптимальности второго порядка 135 для задачи безусловной опти- оптимизации 134 достаточные 136 Куна —Таккера 147, 157, 182 достаточные 159, 527 необходимые 158, 526 первого порядка 135 необходимые 134 Ф. Джона 143, 154 необходимые 525 — регулярности 148, 526 Абади 174, 189 Зангвилла 178 Коттла 178, 182 Куна — Таккера 178, 182 Слейтера 178, 181 Эрроу — Гурвица — Узавы 184 Функция 517 — аффинная 126 — барьерная 355 —вогнутая 92, 521 Функция вогнутая строго 92, 521 — вспомогательна* 345, 356 смешанная 366 — выпуклая 92, 521 строго 92, 521 в точке 123 строго 123 — дифференцируемая 102, 518 дважды 104, 518 — калибровочная 126 — квазивогнутая 113, 522 сильно 119 строго 117 — квазивыпуклая 113, 522 в точке 123 строго 123 сильно 119, 522 строго 117, 522 — Лагранжа 188 — непрерывная 517 — опорная 126 — положительно субопределенная 130 строго 130 — полунепрерывная снизу 118, 517 сверху 517 — псевдовогнутая 120 строго 120 — псевдовыпуклая 120 в точке 123 строго 123 строго 120 — псевдолинейная 130 — сильно монотонная 496 — сопряженная 236 — спуска 244 — субаддитивная 127 — унимодальная 331 строго 33,1 — целевая 14, 76 — штрафная 345 Шаг ускоряющий 286 Элемент ведущий 82 Явление зигзага 305 ^чейка сетки 267
Оглавление Предисловие редактора перевода 5 Предисловие 7 Глава I. Введение 13 1.1. Постановка задачи и основные определения 14 1.2. Примеры 16 Упражнения 40 Комментарии 43 Часть 1. Выпуклый анализ Глава 2. Выпуклые множества 45 2.1. Выпуклые оболочки 46 2.2. Замыкание и внутренность выпуклого множества .... 50 2.3. Отделимость и опорные гиперплоскости 53 2.4. Выпуклые конусы и полярность 63 2.5. Многогранные множества, экстремальные точки и экстре- экстремальные направления 65 2.6. Линейное программирование и симплекс-метод 75 Упражнения 85 Комментарии 90 Глава 3. Выпуклые функции 91 3.1. Определения и основные свойства 92 3.2. Субградиенты выпуклых функций 96 3.3. Дифференцируемые выпуклые функции 102 3.4. Минимумы и максимумы выпуклых функций 106 3.5. Обобщения понятия выпуклой функции 113 Упражнения 126 Комментарии 132 Часть 2. Условия оптимальности и двойственность Глава 4. Условия оптимальности Ф. Джона и Куна —Таккера 133 4.1. Задачи безусловной оптимизации 134 4.2. Задачи с ограничениями-неравенствами 137
582 ОГЛАВЛЕНИЕ 4.3. Задачи со смешанными ограничениями (равенствами и не- неравенствами) 151 Упражнения 162 Комментарии 170 Глава 5. Условия регулярности 172 5.1. Конус касательных 172 5.2. Другие условия регулярности 176 5.3. Задачи с ограничениями в виде равенств и неравенств . .180 Упражнения 183 Комментарии 186 Глава 6. Функция Лагранжа и двойственность. Седловые точки и усло- условия оптимальности 187 6.1. Задача, двойственная по Лагранжу 188 6.2. Теоремы двойственности и седловые точки 192 6.3. Свойства двойственной функции Лагранжа 200 6.4. Решение двойственной по Лагранжу задачи 209 6.5. Решение прямой задачи 220 6.6. Задачи линейного и квадратичного программирования . . 225 Упражнения 229 Комментарии 237 Часть 3. Алгоритмы и сходимость алгоритмов Глава 7. Понятие алгоритма 239 7.1. Алгоритмы и алгоритмические отображения ...... 240 7.2. Замкнутые отображения и сходимость 242 7.3. Сложные отображения 246 7.4. Сравнение алгоритмов 252 Упражнения 255 Комментарии 261 Глава 8. Безусловная оптимизация 263 8.1. Линейный поиск без использования производных .... 264 8.2. Линейный поиск с использованием производной 277 8.3. Замкнутость алгоритмических отображений линейного по- поиска . . . . 281 8.4. Многомерный поиск без использования производных . . . 282 8.5. Многомерный поиск, использующий производные .... 302 8.6. Методы, использующие сопряженные направления . . . .310 Упражнения 330 Комментарии 340 Глава 9. Штрафные и барьерные функции 343 9.1. Понятие штрафной функции 344 9.2. Метод штрафных функций 348 9.3. Метод барьеров 355 Упражнения 362 Комментарии . * 370
ОГЛАВЛЕНИЕ 583 Глава 10. Методы возможных направлений 371 10.1. Метод Зойтендейка 372 10.2. Анализ сходимости метода Зойтендейка 390 10.3. Метод проекции градиента Розена 401 10.4. Метод приведенного градиента Вулфа 412 10.5. Выпуклый симплексный метод Зангвилла 421 Упражнения 430 Комментарии 446 Глава II. Линейная дополнительность. Квадратичное, сепарабельное и дробно-линейное программирование 449 11.1. Линейная задача дополнительности 450 11.2. Квадратичное программирование 459 11.3. Сепарабельное программирование 466 11.4. Дробно-линейное программирование 486 Упражнения 495 Комментарии 507 Приложение А. Математический обзор 510 А.1. Векторы и матрицы 510 А.2. Множества и последовательности . . . . . . .514 А.З. Функции 517 Приложение В. Краткая сводка основных положений выпуклого анали- анализа, условий оптимальности, двойственности 519 8.1. Выпуклые множества 519 8.2. Выпуклые функции и их обобщения 521 8.3. Условия оптимальности 525 8.4. Двойственность по Лагранжу 528 Список литературы 531 Список цитируемых работ, опубликованных на русском языке 567 Комментарии редактора перевода 570 Дополнительный список работ советских авторов по оптимизации . . . 573
Уважаемый читатель! Ваши замечания о содержании книги, ее оформ- оформлении, качестве перевода и другие просим присы- присылать по адресу: 129820, Москва, И-110, ГСП, 1-й Рижский пер., д. 2, издательство «Мир». Мохтар Базара, К. Шетти НЕЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ. ТЕОРИЯ И АЛГОРИТМЫ. Науч. ред. И. А. Маховая Мл. науч. ред. Т. А. Денисова Художник В. А. Медников Художественный редактор В. И. Шаповалов Технический редактор Г. Б. Алюлина Корректор А. Я. Шехтер ИБ № 2637 Сдано в набор 03.04.81. Подписано к пе- печати 09.02.82. Формат 60X9D/t6. Бумага типограф- типографская № 1. Гарнитура литературная. Печать высокая. Объем 18,25 бум. л. Усл. печ. л. 36,5. Усл. кр. отт. 36,5. Уч.-изд. л. 34,87. Изд. № 1/1225. Тираж 10000 экз. Зак. 1100. Цена 2 р. 80 к, ИЗДАТЕЛЬСТВО «МИР» 129820, Москва, И-110, ГСП, 1-й Рижский пер., 2. Ленинградская типография № 2 головное пред- предприятие ордена Трудового Красного Знамени Ленинградского объединения «Техническая книга» им. Евгении Соколовой Союзполиграф- прома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли. 198052, г. Ленинград, Л-52-Измайлов- Л-52-Измайловский проспект, 29.