Text
                    Р. Г. СТРОНГИН
ЧИСЛЕННЫЕ МЕТОДЫ
В МНОГОЭКСТРЕМАЛЬНЫХ
ЗАДАЧАХ
(ИНФОРМАЦИОННО-
СТАТИСТИЧЕСКИЕ
АЛГОРИТМЫ)
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
МОСКВА 1978

518 С 86 УДК 519.95 Численные методы в многоэкстремальных за- дачах (информационно-статистические алгоритмы). Стронгин Р. Г. .Серия: «Оптимизация и исследо- вание операций», Главная редакция физико-матема- тической литературы издательства «Наука», М., 1978, 240 стр. Книга посвящена новым информационно-стати- стическим методам численного решения конечномер- ных многоэкстремальных задач. Указываются спосо- бы построения таких методов как оптимальных статистических решающих правил. Приводятся ре- зультаты теоретического исследования построенных алгоритмов поиска, представляющие непосредствен- ный интерес для организации практических вычис- лений на ЭВМ (вопросы сходимости и ускорения сходимости, устойчивости, выбора параметров и остановки вычислений). Работа основных алгоритмов иллюстрируется численными примерами. Книга предназначена как для специалистов в об- ласти вычислительной математики и математического программирования, так и для широкого круга инже- неров и студентов, встречающихся в практике с решением задач минимизации многоэкстремальных функций. Илл. 23. библ. 116.' с 20203—004 053 (02)-78 65-78 (6) Главная редакция физико-математической литературы издательства «Наука», 1978
ОГЛАВЛЕНИЕ Предисловие............................................. 6 Глава I. О подходах к построению численных методов решения многоэкстремальных задач . . , 9 § 1. Задачи на локальный экстремум и многоэкстре- мальные задачи...................................... 9 § 2. Обобщения методов поиска локально оптимальных точек для решения многоэкстремальных задач . . 12 § 3. Построение оптимальных методов оптимизации 19 § 4. Информационно-статистический подход к задачам отыскания абсолютного экстремума .... 36 § 5. Вероятностное описание и оценки экстремума. Постановка задачи . 41 § 6. Приближенные оценки экстремума............50 Глава. II. Минимизация одномерных многоэкстремаль- ных функций.................................... . < 58 § 1. Выбор испытаний и условие остановки ... 59 § 2. Алгоритм глобального поиска.....................78 § 3. Ускорение сходимости...........................111 § 4. Алгоритмы для функций, удовлетворяющих обоб- щенному условию Липшица.............................137 § 5. Другие модификации и результаты экспериментов 142 Глава III. Многомерная многоэкстремальная минимиза- ция ...................................................153 § 1. Предварительное обсуждение.....................153 § 2. Многомерные алгоритмы с редукцией размерности по схеме многошаговой оптимизации .... 159 § 3. Многомерные обобщенные алгоритмы с редукцией размерности при помощи разверток .... 168 § 4. Численное построение разверток ............... 199 § 5. Оценка эффективности алгоритмов с помощью численных экспериментов........................208 Дополнение '.......................................... 215 Литература..............................................228
ПРЕДИСЛОВИЕ ' Многоэкстремальные задачи, методы решения ко- торых рассматриваются в этой книге, широко встреча- ются в приложениях. Так, например, многие задачи аппроксимации, являющиеся характерными при про- ектировании радиотехнических устройств, обладающих задайными частотными или временными характери- стиками (см., например, Д. И. Батищев [1]), а также многие задачи отыскания решения систем не- линейных уравнений могут быть сведены к минимиза- ции некоторой невязки, которая часто оказывается многоэкстремальной. Многоэкстремальные задачи мо- гут возникать и при минимизации достаточно простых (например, линейных) функций, если допустимая об- ласть, определяемая ограничениями, является невы- пуклой. Следует также отметить, что неизбежные при практических вычислениях погрешности могут давать такой же вычислительный эффект, как если бы сама минимизируемая функция являлась многоэкстремаль- ной (см., например, Н. Н. Моисеев [1]). В указанных задачах (см. также И. Б. Моцкус [1]) обычно недостаточно отыскания некоторого ло- кального решения, ибо, с одной стороны, глобальное решение может давать существенный выигрыш по сравнению с локальным (например, глобально опти- мальная конструкция, описанная в работе В. П. М а л- кова и Р. Г. Стронги на [1], на 35% легче, чем локально оптимальная), а с другой стороны, в ряде задач (например, при решении систем нелинейных уравнений) искомые величины определяются лишь че- рез глобальное решение. Последнее верно, в частно- сти, и для получающих все более широкое распрост- ранение (особенно после выхода книги Ю. Б- Гер- мейера [1]) максиминных постановок, поскольку
ПРЕДИСЛОВИЕ 7 внутренний минимум в максимине должен быть гло- бальным (иначе пропадает смысл гарантированного результата). Первые подходы к решению многоэкстремальных задач были связаны с попытками обобщить методы локальной оптимизации на многоэкстремальный слу- чай (краткому обзору таких подходов посвящен § 2 гл. I). Более молодое направление состоит в построе- нии оптимальных методов (см. § 3 гл. I). При этом важна не столько сама оптимальность методов в том или ином смысле, сколько принцип выведения алго- ритма из некоторой математической постановки за- дачи, в противовес внесению готовой схемы метода с последующим ее изучением. В настоящее время интенсивно развиваются две ветви такого подхода: построение минимаксных ал- горитмов (обычно в предположении липшицевости ми- нимизируемой функции) и выведение алгоритмов (оп- тимальных в среднем) из некоторых вероятностных предположений о функции. Первое направление от- ражено, например, в книгах Ю. Б. Гермейера [1] и А. Г. Сухарева [1]. Результаты, относящиеся ко второму направлению, по существу, освещены лишь в ряде журнальных статей. Настоящая книга представляет собой попытку несколько восполнить этот пробел и целиком посвящена одному из первых вероятностных подходов к задачам отыскания абсо- лютного экстремума, получившему название информа- ционно-статистического подхода. Формирование указанного подхода (Ю. И. Ней- марк и Р. Г. Стронгин [1]) было вызвано стрем- лением найти такой формальный язык для описания априорных предположений о многоэкстремальной за- даче, который позволил бы развить достаточно эффек- тивный количественный аппарат построения оценок экстремума по результатам вычислений значений оп- тимизируемой функции в ряде точек области опреде- ления. Эту задачу в определенной степени удалось решить, используя некоторые вероятностные модели (§§ 5, 6 гл. I), однако фактический вывод простых алгоритмов осуществлен лишь для одномерного слу-
8 ПРЕДИСЛОВИЕ чая (гл. II). Для решения многомерных задач ис- пользован подход, характерный для многих разделов вычислительной математики,— многомерная задача приводится к одномерной задаче (или к последова- тельности одномерных задач). В книге рассмотрены две схемы такого приведения: сведение к многошаго- вой задаче (§ 2 гл. III) и редукция размерности при помощи разверток (§§ 3 и 4 гл. III). Целью книги является, с одной стороны, ознакомь ление широкого круга читателей с новыми численны* ми методами решения многоэкстремальных задач, прошедшими практическую апробацию, а с другой стороны, привлечение внимания специалистов к воз- можностям информационного подхода, чтобы стиму- лировать разработку новых методов. Ограниченность объема книги не позволила рассмотреть все задачи, в которых удалось успешно использовать предлагае- мый подход (две такие задачи кратко обсуждаются в дополнении). По той же причине при описании ал- горитмов в ряде случаев указаны лишь сами величи- ны, используемые на каждом шаге, без обсуждения эффективных приемов их вычисления. Ссылки на опи- сания стандартных программ, реализующих некото- рые из описываемых методов, и их применения дела- ются по ходу изложения. В книге использованы об- щепринятые обозначения и обычная система ссылок на формульные выражения. Например, (1.2.4) ука- зывает на четвертую формулу из второго параграфа первой главы. Символ Е(х) означает целую часть х. В заключение я считаю своим приятным долгом поблагодарить Н. Н. Моисеева за инициативу на- писания этой книги и внимание к моей работе. Р. Г. Стронгин
ГЛАВА.1 О ПОДХОДАХ К ПОСТРОЕНИЮ ЧИСЛЕННЫХ МЕТОДОВ РЕШЕНИЯ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ § 1. Задачи на локальный экстремум и многоэкстремальные задачи Методы оптимизации, рассмотрению которых по- священа эта книга, предназначены для решения сле- дующей задачи. Пусть <р(х) есть действительная функция, определенная в гиперкубе D М-мерного ев- клидова пространства RN, т. е. D= {x(=RN-. b{, l^i< N}, (1.1) где a, bi=RN есть заданные векторы, и пусть в точке х* (предполагается, что такая точка существует) функция ф(х) достигает минимального значения на множестве D, т. е. Ф (х*) = min <р (х). (1.2) Требуется построить оценку точки х* (для не- которого принятого понятия близости, например, что- бы ||х* — х*|| 8 или |ф(х*) — ф(**) | е, где 8 есть заданная точность) на основе конечного числа k зна- чений функции, последовательно вычисленных в вы- бранных точках области D. При этом результатом операции вычисления значения функции в точке xl^D (в дальнейшем эта операция именуется испы- танием в точке х1) в общем случае является число 2*=ф(х‘) +£*, (1.3) где есть погрешность i-ro испытания (в том числе случайная погрешность, возникающая, например, при оценке значения функции путем статистического мо- делирования), причем последовательное проведение
10 6 РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ 1ГЛ. t испытаний предполагает, что точка х1 может быть выбрана с учетом результатов г1, ..г1'—1 предшест- вующих испытаний. Разумеется, что многие оптимизационные задачи, возникающие в приложениях (вопросам постановки задач оптимизации посвящена обширная литература, в частности, книги Н. Н. Моисеева [1], И. Б. Моц- куса [1], Г. М. Островского и Ю. М. Волина [1] и многие другие), в своей формулировке могут отличаться от задачи (1.1), (1.2). Например, множест- во, содержащее оптимальную точку х*, определяется более сложными условиями, чем (1.1); задано не- сколько функций ф1(х), ..., <рт(х) и в рамках изучае- мой прикладной задачи желательно обеспечить мини- мальное значение каждой из этих функций и т. д. Однако, если воспользоваться методами штрафных функций (изложенными, например, в книге А. Ф и а к- ко и Г. Мак-Кормика [1]), методами свертыва- ния нескольких оптимизируемых функций в единый скалярный критерий (подробное рассмотрение кото- рых проведено в книге Ю. Б. Г ер мей ер а [1]), а также другими приемами (см., например, книгу Д. И. Батищева [1]), то в большом числе случаев численный анализ таких моделей может быть сведен к решению задачи (или последовательности задач) ви- да (1.1), (1.2). Таким образом, задача (1.1), (1.2) является достаточно общей. Трудность численного решения сформулированной задачи связана с тем обстоятельством, что искомая точка х* является интегральной характеристикой функции ф(х) в области £), так как для отождествле- ния некоторой точки с точкой наименьшего значения необходимо сопоставить значение функции в этой точке со значениями функции во всех остальных точ- ках области. Отсюда следует, что возможность ре- шения экстремальных задач фундаментально связана с наличием достаточной априорной информации о свойствах минимизируемой функции, поскольку для произвольной непрерывной действительной функции при любой заданной точности (по координатам или по значению функции) оценка минимума вообще не мо-
§ 1] ЛОКАЛЬНЫЕ И МНОГОЭКбТРЁМАЛЬНЫЕ ЗАДАЧИ U жет быть построена по значениям функции, вычислен- ным в конечном подмножестве точек области опреде- ления. Один из интересных в прикладном отношении слу- чаев, рассматриваемый многими авторами, связан с предположением, что в области D существует единст- венная точка х*, в некоторой окрестности (/(**) ко- торой справедливо Ф (х*Х ф (х), х a D И U (х*). (1.4) Функции, обладающие таким свойством, обычно на- зывают одноэкстремальными, или унимодальными (заметим, что для непрерывной функции ф(х) точка х* из (1.4) необходимо удовлетворяет условию (1.2)). Если усилить требование (1.4), например, пред- полагая выпуклость (и в ряде случаев ту или иную степень дифференцируемости), или квадратичность, или сильную выпуклость функции ф(х), то можно построить эффективные численные методы минимиза- ции, основанные либо на геометрической идее гради- ентного спуска, либо на использовании необходимых и достаточных условий экстремума. Описания таких методов, часто называемых локальными методами, и многие результаты их изучения в настоящее время широко проникли в учебную литературу и в книги, предназначенные для широкого круга читателей (см., надример, Н. С. Бахвалов [1], Ф. П. Васильев [1], Р. Габасов и Ф. М. Кириллова [1], В. Ф. Демьянов и В. Н. Малоземов [1], А. Д. Иоффе и В. М. Тихомиров [1], В. Г. Кар- манов [ 1 ], Б. Н. Пшеничный и Ю. М. Данилин [1], а также, например, Ю. П. Адлер и др. [1], М. В аз ан [1] о градиентной оптимизации при на- личии помех и др.). В случае, когда в области определения D сущест- вует несколько точек xl, каждая из которых имеет свою окрестность U (х*) такую, что wф(х), x^D{\U(x*) (1.5) функцию ф(х) называют многоэкстремальной. При
О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ [ГЛ. I этом точки из (1.5) называют точками локальных минимумов, а точку х* из (1.2), которая совпадает с одной из точек х*, — точкой глобального или абсо- лютного минимума. Если неравенство в (1.5) явля- ется строгим при х=ДХг,то говорят, что X* есть точка изолированного локального минимума. Следующие параграфы настоящей главы посвяще- ны краткому обзору различных подходов к решению многоэкстремальных задач, причем этот обзор не пре- тендует на исчерпывающую полноту (число публика- ций по указанному вопросу составляет несколько со- тен). Основная цель состоит в выявлении связи раз- личных методов с характером предположений о мно- гоэкстремальной минимизируемой функции. § 2. Обобщения методов поиска локально оптимальных точек для решения многоэкстремальных задач 1. Области притяжения и выбор начальных точек. Пусть в некоторой подобласти Д, l^i^m, области D из задачи (1.1), (1.2) функция ср(х) является уни- модальной (точку локального минимума функции ф(х) в подобласти Di обозначим через л*), и пусть m ,U£>i = 0. (2.1) i=l Тогда, применяя обсуждавшиеся выше локальные ме- тоды, называемые иногда также методами локального спуска, для любой начальной точки х% лежащей в подобласти Dit можно вычислить соответствующую точку локального минимума Xi^Dt. В связи с этим говорят, что подобласть £>г является областью притя- жения локального минимума Xi. Таким образом, ре- шение многоэкстремальной задачи (1.1), (1.2) при указанных предположениях может быть сведено к ре- шению m задач на локальный экстремум, если задано множество начальных точек Xi е Dh 1 i^.m.
ОБОБЩЕНИЯ ЛОКАЛЬНЫХ МЕТОДОВ 13 § 2] Однако это последнее требование оказывается слишком сильным для большого числа задач, возни- кающих в приложениях (даже число т из (2.1) обыч- но является априори неизвестным), в связи с чем при таком подходе возникает дополнительная задача вы- бора начальных точек. Один из простейших способов состоит в том, чтобы выбирать начальные точки гра- диентного спуска по схеме метода Монте-Карло (см., например, И. Н. Бочаров и А. А. Фельдбаум [1], Л. С. Гурин и В. П. Лобач [1]) или исполь- зовать в качестве таких точек узлы некоторой регу- лярной.сетки в области D. Поскольку реализация локального спуска для до- статочно большого числа начальных точек может ока- заться (ввиду высокой трудоемкости) практически невозможной, то используются различные способы от- бора приемлемого числа таких точек из выборки зна- чительно большего объема, в которой проводились испытания. Точки этой выборки, получаемой обычно по методу Монте-Карло (см., например, И. М. Со- боль [1]), либо сравниваются по вычисленным в них значениям функции, либо используются более слож- ные схемы отбора, основанные на некоторых стати- стических предположениях о вероятностном распреде- лении значений функции-в случайно выбираемых точ- ках области определения, что позволяет использовать при построении таких схем идеи теории статистиче- ских решений (см., например, И. Б. Моцкус [1]). При этом последовательный отбор точек начального приближения может сочетаться с перестройкой слу- чайного механизма, порождающего выборку, чтобы повысить вероятность проведения испытаний в окрест- ности минимального из ранее вычисленных значений функции (например, Г. Дж. Мак-Муртри и К. С. Фу [1]). Еще одна схема отбора (используемая в одномерных задачах) связана с построением ап- проксимации функции по ее значениям, вычисленным в узлах грубой сетки, с последующей оценкой раз- биения (2.1) области D на подобласти притяжения Di (обзор таких методов содержится, например, в кни- ге Д. И. Батищева [ 1 ]).
14 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ (ГЛ. I Предварительный отбор начальных точек—не единственный способ сокращения вычислительных за- трат. Другой возможный способ состоит в том, чтобы чередовать итерации локального спуска (начатые в одной или параллельно в нескольких начальных точ- ках) с выбором новых начальных точек. При этом итерации из первоначально выбранных точек могут быть окончательно прекращены, если итерации из по- следующих точек приводят к существенно меньшим значениям функции. Последовательный выбор на- чальных точек в таких методах может осуществлять- ся как регулярно (например, работа Дж. Д. Хилла [1]), так и случайно (см., например, А. И. Поло- винкин [1]). Более сложные схемы последователь- ного перехода от одних начальных точек к другим основаны на дополнительных (обычно неформальных) предположениях о задаче, как, например, схема не- локального метода (И. М. Гельфанд и др. [1]) для функций овражной природы. 2. Случайный поиск и автоматный подход. Алго- ритмы для решения многоэкстремальных задач, вхо- дящие в класс методов случайного поиска (см., на- пример, Л. А. Растригин [1]), отличаются от об- суждавшихся выше методов отсутствием каких-либо итераций локального спуска. При этом точка xf+1 очередного испытания выбирается согласно выраже- нию х<+1=х%В‘, где 3е есть реализация А/-мерной векторной случай- ной величины, распределение вероятностей которой определяется конкретным типом алгоритма случайно- го поиска. Один из способов описания таких алгорит- мов связан с использованием языка теории вероятно- стных автоматов (см., например, обзорную работу Ю. И. Неймарка [1], а также книги Д. А. По- спелова [1], Л. А. Растригина и К. К. Рипы [1]), что, в частности, открывает возможности для установления различных аналогий процесса решения многоэкстремальной задачи и поведения биологиче- ских систем (М. Л. Цетл-ин [1]).
§ 2] ОБОБЩЕНИЯ ЛОКАЛЬНЫХ МЕТОДОВ 15 Характерными чертами указанных алгоритмов яв- ляются ограниченность нормы вектора В* (т. е. точ- ка находится в достаточно малой окрестности точки xf) и изменение свойств случайного механизма, исходами которого являются векторы 3*, в зависимо- сти от результатов предшествующих испытаний (адаптация случайного поиска или автоматного опти- мизатора). Таким образом, последовательность {х*} можно рассматривать как реализацию случайного процесса (вопросы анализа таких процессов обсуж- даются, например, в обзорной работе Г. А. Медве- дева [1]), которая при возрастании t должна пере- секаться с заданной окрестностью точки абсолютного минимума, причем желательно, чтобы алгоритм обес- печивал достаточно высокую вероятность пребывания х* (начиная с некоторого шага t) в этой окрестности. Последнее требование предполагает и существование такой вероятности. 3. Многоэкстремальная стохастическая аппрокси- мация. В схеме многоэкстремальной стохастической аппроксимации осуществляется совмещение операций выбора начальной точки и локального спуска. Сме- щение точки при переходе от одного испытания к дру* гому включает компоненту, пропорциональную анти* градиенту функции (итерация локального спуска), и компоненту, являющуюся реализацией скачкообраз- ного случайного процесса (эффект воздействия кото- рой аналогичен переходу в другую начальную точку), причем достижение асимптотической сходимости к аб- солютному экстремуму (в некотором обобщенном вероятностном смысле) обеспечивается путем соответ- ствующего управления длиной градиентного шага и интенсивностью случайных толчков (Э. М. Вайс- бор д и Д. Б. Юдин [1], Д. Б. Ю д ин и Э. М. X а- зен [1]). 4. Применение сглаживания и фильтрации. Осуще- ствление испытаний в точках некоторой выборки с оценкой среднего значения результатов этих испыта- ний, которая затем (в ряде алгоритмов, обсуждав- шихся выше) используется для организации следую- щего шага вычислительного процесса, можно рассмат-
16 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ (ГЛ. Г ривать и как переход от минимизации исходной функции cp(x) к минимизации некоторого усреднения этой функции. Последовательное проведение такой точки зрения приводит к построению интегрального преобразования Ф(х) (усредненной функции) функ- ции ф(х) такого, что минимальные значения функций Ф(х) и ф(х) совпадают, но Ф(х) является одноэк- стремальной функцией, минимизация которой может выполняться локальными методами (В. Я. Катков- ник [1], Р. 3. Хасьминский [1], Я. 3. Цып- кин [1], В. К. Чичинадзе [1], Д. Б. Юдин [1] и др.). Однако операция интегрирования (выполняемая обычно в окрестности текущей итерации, хотя воз- можны и другие схемы), порождающая функцию Ф(я), сама является достаточно трудоемкой. Прибли- женное выполнение этой операции (например, метода- ми Монте-Карло) приводит к задаче минимизации математического ожидания (сглаженной функции Ф(х)), значения которого вычисляются со случайны- ми погрешностями. Поэтому локальная оптимизация осуществляется алгоритмами стохастической аппрок- симации (рассмотренными, например, в книге М. В а- зана [1]) или методами стохастических квазигра- диентов (Ю. М. Ермольев [1]), обеспечивающими необходимую фильтрацию (см. также обзорную рабо- ту В. Я. Катков ника [2]). 5. Использование аналогий с физическими систе- мами. Некоторые алгоритмы оптимизации основаны на отождествлении решаемой экстремальной задачи с математическим описанием физической системы, в движениях которой реализуется определенный ва- риационный принцип. Применение такого подхода к задачам линейного и квадратичного программирова- ния (Дж. Б. Деннис [1]), отождествляемым с опи- санием некоторого класса электрических цепей, по- зволило создать специализированные математические машины для решения транспортных задач линейного программирования. Ряд алгоритмов для решения многоэкстремальных задач основан на интерпретации минимизируемой
§ 2] ОБОБЩЕНИЯ ЛОКАЛЬНЫХ МЕТОДОВ 17 функции как некоторой поверхности, по которой дви- жется тяжелый шарик (Б. Н. Пшеничный и Д. И. Марченко [1]). При этом устанавливается аналогия с механической системой, содержащей по- тенциальное поле, в котором происходит движение, причем минимизируемая функция описывает потенци- ал этого поля (некоторые другие возможности такой аналогии обсуждаются, например, в книге Я. 3. Цып- кина [2]). Существуют и другие аналогии, как, например, предложенная для решения систем нелинейных алге- браических уравнений аналогия с моделями статисти- ческой физики (Т. Тсудо, Т. Кионо [1]). Этот метод может быть использован и в многоэкстремаль- ных задачах (см. обсуждение в книге С. М. Ерма- кова [1]). Или аналогия методов случайного поиска и гидродинамической модели, служащая для установ- ления вариационных принципов случайного поиска (А. И. Яблонский [1]), и некоторые другие (см. например, В. С. Лернер [1]). 6. Исходные предположения и сходимость алго- ритмов. Асимптотическая сходимость рассмотренных выше алгоритмов к абсолютному экстремуму при сла- бых предположениях непрерывности и той или иной степени дифференцируемости минимизируемой функ- ции ф('х) определяется тем обстоятельством, что каж- дая точка области определения D является предель- ной точкой последовательности испытаний {*'} и, сле- довательно, lim min <р(хг) = ф(х*), (2.2) т->оо где х* есть точка абсолютного минимума из (1.2). При этом построение всюду плотной последователь- ности {х*} обеспечивается или выбором последова- тельности начальных точек локального спуска, или случайными толчками, или усреднением и т. д. (в за- висимости от типа алгоритма). С другой стороны, введение итераций локального спуска обеспечивает, в силу существования областей притяжения Di из (2.1), достаточно большую вероятность (если допус- тить, что {xf} — реализация случайного процесса и 2 Р. Г. Стронгин
18 О РЕШЕНИЙ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ ггл. t указанная вероятность существует) пребывания х* в заданных окрестностях локальных или глобального минимумов при фиксированном значении t или асимп- тотически при возрастании t Не останавливаясь на математических аспектах обоснования такой асимптотической сходимости, кото- рое является весьма тонким (например, в случаях совмещения итераций локального спуска со случай- ными толчками или при использовании усреднений минимизируемой функции), отметим, что утверждения сходимости в указанном смысле еще недостаточно для формулировки условия остановки вычислительного процесса по заданной точности решения задачи. Такие оценки становятся возможными при более сильных предположениях о минимизируемой функции. Например, предполагается заданной нижняя оценка некоторой меры области притяжения глобального эк- стремума, что позволяет оценить вероятность опре- деления этого экстремума при выборе конкретного числа начальных точек локального спуска. Или (спек- тральное предположение) считается возможным пред- ставить функцию в виде суммы двух функций, одна из которых является унимодальной (и ее минимум совпадает с искомым), а вторая — быстро осциллиру- ющей при вариации х в D, что дает возможность реа- лизовать локальный спуск, ограничиваясь усреднени- ем (фильтрацией унимодальной составляющей) по траектории спуска. Иногда это же требование фор- мулируется как априорное утверждение существенно меньшего значения функции в глобальном минимуме по сравнению с локальными минимумами. Использование дополнительной априорной инфор- мации, по-видимому, играет решающую роль для ускорения вычислительного процесса. Однако теоре- тическое продвижение в этом вопросе предполагает наличие некоторого достаточно развитого аппарата для описания дополнительных предположений о зада- че. При наличии такого аппарата естественно поста- вить и вопрос о наилучшем численном методе (для принятых предположений). Этот вопрос обсуждается в следующем параграфе.
§ 3] ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МЕТОДОВ 19 § 3. Построение оптимальных методов оптимизации Выбор наилучшего в том или ином смысле алго- ритма оптимизации предполагает, что задано мно- жество S всех рассматриваемых алгоритмов з и для’ любой пары алгоритмов из этого множества можно оценить, какой из них лучше (либо они равноценны), т. е. на множестве алгоритмов задано отношение по- рядка, для которого искомый алгоритм является эк- стремальным элементом. В следующих пунктах насто- ящего параграфа последовательно рассматриваются вопросы реализации такого подхода к построению оптимального метода. 1. Множество алгоритмов. Начнем с формального описания алгоритма s для минимизации функций ф(х), хеО, принадлежащих некоторому классу Ф. Как уже отмечалось в первом параграфе, алгоритм з должен осуществлять построение некоторой оценки точки х* абсолютного минимума функции ф(х) или оценки значения ф(х*) функции в этой точке на ос- нове результатов испытаний в точках области определения £>, которые в общем случае осу- ществляются последовательно. Следовательно, алго- ритм содержит некоторые правила вычисления точки xft+1 очередного испытания в зависимости от резуль- татов предшествующих, испытаний. Если обозначить через множество пар ©^{(х1, z1), (xh, Zk)}t У (3.1) соответствующих точкам и результатам первых k ис- пытаний, то правила вычисления точки х*+* каждого очередного испытания можно описать последователь- ностью функций г-.-, (3.2) отображающих соответствующие значению индекса k прямые произведения пространств область £>, причем точка х1 первого испытания считается так- же заданной и составляет элемент описания алгорит- 2*
20 о РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ П'Л. I ма. Функции Gft из (3.2) называют иногда решающи- ми функциями. Для получения (текущих) оценок экстремума на каждом шаге вычислительного процесса в формули- ровку алгоритма следует включить последователь- ность функций Ek, определяющих такие оценки ek, а именно, , <?*=£*(©ft), £=1, 2, ... (3.3) При этом величина eft либо играет роль оценки эк- стремума по координатам (т. е. e^D), либо дает оцен- ку минимального значения <р(х*) (т. е. e,j=.Rl). Но возможны и другие варианты, которые мы рассмот- рим позже. Каждый из таких вариантов определяет свое множество значений функций из (3.3). Условие остановки вычислительного процесса в связи с достижением заданной точности решения за- дачи или из-за окончания наличных вычислительных ресурсов также может быть описано введением соот- ветствущей последовательности функций Fh f=Fk(vk), 6=1,2,..., (3.4) отображающих произведения Dh~l%Rh в двухэлемент- ное множество {0, 1} и таких, что если при некотором coft справедливо fk=0, то /*+v=0, v=l, 2, ..., незави- симо от значений ...,(xfe+v, zk+v). Вычис- лительный процесс прекращается после шага Т, если р = .. ,=fr“1 = l и fr=0. При этом окончательной оценкой экстремума считается оценка ег, соответству- ющая шагу остановку Т. Для алгоритмов, выполняющих априори фиксиро- ванное число Т испытаний (множество всех таких ал- горитмов обозначим Sr), функции (3.4), очевидно, удовлетворяют условиям Ffe(cok) = l, 1^6<Т; Fr+v((0r+v)=0, 0<v, (3.5) и, следовательно, в этом случае достаточно задать лишь первые Т—1 функций Gk из (3.2) и первые Т функций последовательностей (3.3) и (3.4).
§ 3] ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МЕТОДОВ 21 Таким образом, мы принимаем, что каждый алго- ритм s описывается точкой х1 первого испытания и тремя последовательностями функций {Gh}, и {Fk} соответственно из (3.2), (3.3) и (3.4), т. е. его можно представить как набор *=<Д {GJ, {£4, {Fk})<=S. 2. Эффективность алгоритма. Минимаксный под- ход. Следующий шаг состоит в том, что вводится ве- щественная функция L(<p, s) как некоторая количест- венная мера эффективности (критерий эффективно- сти) решения задачи минимизации функции ф<=Ф с помощью алгоритма_$<=5. В качестве такого критерия может быть принята либо погрешность решения, т. е. некоторая мера точности оценки ет из (3.3), соответ- ствующей шагу остановки Т (при остановке по задан- ному числу шагов), либо число шагов k, необходи- мое для получения оценки ek, удовлетворяющей тре- буемой точности (когда условие остановки, прекра- щающее вычислительный процесс, определяется до- стижением заданной точности), и т. д. Поскольку критерий Ь(ф, s) зависит от ср, то он позволяет, сопоставлять эффективность различных ме- тодов s лишь для одной и той же функции ф. Чтобы сравнивать алгоритмы по их эффективности для клас- са Ф в целом, необходимо некоторое дополнительное предположение. Один из подходов, на котором мы остановимся в этом пункте, связан с введением гаран- тированного значения W(s) эффективности алгорит- ' ма s при минимизации функций ф(=Ф, т. е. А(ф, s)^ ^lF(s), ф^Ф, или W (s) = sup L (ф, s). (3.6) Если принять упорядочение всех алгоритмов s&S то их эффективности определяемое функцией (3.6), то оптимальный относительно этого порядка алгоритм должен удовлетворять условию W ($*) = inf W (s). (3.7)
22 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ [ГЛ. I В случае, когда алгоритм $* из (3.7) не существует, можно ввести понятие ^-оптимального алгоритма Sg, удовлетворяющего (при заданном положительном е) неравенству sup L (ср, $*) < inf sup L (ф, s) + 8. (3.8) (рЕЕФ SEES ср'ЕЕФ Проведенные рассуждения, приводящие к поняти- ям оптимального $* и 8-оптимального S* алгоритмов, определяемых соответственно условиями (3.6), (3.7) и (3.8), представляют собой применение общей схемы теории исследования операций (см., например, х Ю. Б. Гермейер [1]) к вопросу выбора лучшего метода оптимизации. Согласно терминологии теории исследования операций объекты (роль которых в на- шем случае играют алгоритмы s<=S), подлежащие вы- бору и определяющие способ поведения в операции, называются стратегиями. В связи с этим алгоритмы оптимизации называют также стратегиями оптимиза- ции. Кроме того, поскольку условия вида (3.6), (3.7) или (3.8) называют условиями минимакса, а опреде- ляемые ими стратегии — минимаксными стратегиями, то $* и si есть соответственно оптимальная и 8-оп- тимальная минимаксные стратегии*). 3. Априорные предположения и минимаксные ме- тоды. Условия минимакса, определяющие оптималь- ный алгоритм оптимизации функций из заданного класса Ф, могут быть использованы для выведения этого алгоритма путем решения указанных условий. Однако эти условия в свою очередь также описывают экстремальную задачу, причем в общем случае значи- тельно более сложную, чем задача (1.1), (1.2), ко- торую должны решать искомые оптимальные алгорит- мы. Поэтому выведение оптимальных алгоритмов пу- тем решения условий минимакса возможно лишь при наличии достаточно развитого математического ап- парата для исследования функции Ь(ф, $). *) Первое рассмотрение алгоритмов оптимизации как мини- максных стратегий в некоторой операции (игре с природой) было осуществлено, по-видимому, Дж. Кифером [1].
§ з] построение оптимальных методов 23 Напомним, что функция L(<p, s) введена как не- которая количественная мера эффективности решения задачи (1.1), (1.2) с помощью алгоритма s. При этом вычисление критерия L(<p, s) необходимо включает построение оценок ek из (3.3) искомого минимума (хотя бы для шага остановки), ибо эффективность метода оптимизации неразрывно связана с конечной целью решения задачи (1.1), (1.2). Построение таких оценок, как уже отмечалось в первом параграфе, опи- рается в свою очередь на свойства функций, задавае- мые описанием класса Ф. В связи с этим аппарат исследования критерия L(cp, s) и само существование такого аппарата определяются в основном характе- ром предположений, выделяющих класс Ф, и тем фор- мальным языком, на котором записаны эти предпо- ложения. Рассмотрим несколько примеров. Пример 1. Пусть минимизируемая функция <р(х) принадлежит классу Ф всех унимодальных функций, определенных на отрезке D=[a, b] вещественной оси, т. е. для любой функции ф^Ф существует точка х* = хф такая, что ф (х') > <р (х") > <р (хф), а < х' < х" < Хф, (3.9) Ф (хф) < ф (х') < ф (х"), Хф<х'<х"^Ь. (3.10) При этом Хф является точкой минимума функции ф. Предположим, что результаты z* из (1.3) испытаний в точках x'eD совпадают со значениями ф(х‘) функ- ции ф в этих точках (т. е. вычисления осуществляют- ся без погрешностей). Тогда условия (3.9), (3.10) позволяют построить простые оценки точки х* искомого минимума по ре- зультатам г1, ..., испытаний в точках х1, ..., хк, порождаемых решающими правилами (3.2) рассмат- риваемого алгоритма s. Определим число t, t = arg min zl, множества X-, X+, X_={xf, xf<x'} U {a}, Х+—{х\ x’>x'}U{b},
24 6 Решении мйОГОэКстреМАЛьйЫх задай [ГЛ. i и положим ъ х_ — max х, ^Х- (3.11) х* = min х. х&Х* Из определения (3.11) и условий (3.9), (3.10) вытека- ет (рис. 3.1), что xL< 4 < х+и, следовательно, в ка- честве оценки ек из (3.3) можно принять указанный интервал, содержащий х*, т. е. ? = (xL, Д).' (3.12) Ограничимся рассмотрением алгоритмов seST, для которых функции (3.4) удовлетворяют условиям (3.5), т. е. остановка производится после осуществления за- данного числа Т испытаний, и будем оценивать эф- фективность таких алгоритмов при минимизации функции <реФ разностью верхней х+ и нижней х£ оценок экстремума х£, обеспечиваемых по окончании вычислений *), т. е. £(ср, $) =х+ —xL. (3.13) *) Заметим, что предположения (3.9), (ЗЛО), описывающие класс рассматриваемых функций, недостаточны для построения нижней оценки минимального значения <р(х*) по со а из (3.1). Поэтому в (3.12) используется оценка интервала, содержащего координату минимума х*, мера эффективности которой (3.13) пропорциональна погрешности по координате.
§ 3] ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МЕТОДОВ 25 Отметим, что в силу принятых в данном примере предположений о задаче (1.1), (1.2) проведение оче- редного испытания в точке х/г+1(={х1, ..xh} или в точке xh+i ф (х—, %+) не изменяет оценки (3.12). По- этому решающие правила оптимального алгоритма должны удовлетворять условиям Xм-1 6= (xL, Х+), xfe+1 #= х . Таким образом, на каждом шаге вычислительного процесса решающие функции (3.2) оптимального ал- горитма определяют выбор точки х^+1, зависящий лишь от интервала (xL, х^), от точки xf, принадле- жащей этому интервалу, в которой известно значе- ние функции z' = (p(x'), и от номера шага А. Наличие такой стандартной задачи выбора, за- висящей лишь от двух параметров (относительное положение точки хе в интервале и номер шага А), позволяет эффективно использовать схему динамиче- ского программирования (Р. Беллман [1]) для оп- ределения 8-оптимальной (в классе ST) минимаксной стратегии $е, удовлетворяющей условию (3.8) (Дж. Кифер [1]; подробное описание и обсуждение содержится также в книге Д. Дж. Уайлда [1]). Эту стратегию обычно называют методом Фибоначчи. Возможность применения аппарата динамического программирования сохраняется и при некоторых до- полнительных условиях, вводимых в рассмотренную выше задачу минимизации одномерных унимодальных функций. Одно из таких условий связано с проведе- нием испытаний последовательными сериями (блока- ми) по I испытаний (/>1), причем испытания каждой серии выполняются одновременно, т. е. результаты одних испытаний серии не известны при выборе точек других испытаний этой же серии, но результаты всех предшествующих серий известны (М. Аврил и Д. Дж. Уайлд [1]). Другой случай (Дж. X. Би- мер и Д. Дж. Уайлд [1]) характеризуется тем, что испытания выполняются последовательно, но ре- зультат последнего выполненного испытания стано- вится известен лишь после начала следующего за ним
26 р решении многоэкстремальных задач [ГЛ. I испытания. Рассмотрен также случай, когда точка х1 первого испытания задана (В. Кристоф [1]). Кроме упомянутых постановок, в которых наложе- ны ограничения, сужающие класс правил (3.2) вы- бора испытаний, минимаксные алгоритмы построены также (Ф.‘Л. Черноусько [1]) для липшицевых с заданной константой К. унимодальных функций, т. е., кроме условий (3.9), (3.10), эти функции удовлетво- ряют еще неравенствам '\ |<Р(*')~ф(х//) I =^=К|х'—х"|, х', x"^D. (3.14) Пример 2. Рассмотрим теперь задачу из пер- вого примера, полагая, что минимизируемые функции могут не удовлетворять условиям унимодальности (3.9), (3.10), но для них справедливо условие Лип- шица (3.14), на котором и должны теперь основы- ваться оценки экстремума и критерий L(cp, s). Пусть по алгоритму seST осуществлено k испыта- ний и получен результат из (3.1), которому следует сопоставить некоторую оценку экстремума е* из (3.3). Введем функции ф,(х) =<р(х‘)—К|х—х*|, x<=D, для которых в силу (3.14) справедливо, что <р(х)^ф;(х), xeD, или (р(х)^ф(х) = шах (х), xeD. Тогда для минимального значения <р(х*) имеет место оценка (рис. 3.2) г1<ф(х*)<г^, (3.15) где ' zL = min яр (%), Д = min z\ и, кроме того, х* f=Xh = (3.16)
§ 3] ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МЕТОДОВ 27 Интервалы, составляющие множество Xk в случае, представленном на рис. 3.2, отмечены штриховкой сверху. Таким образом, для липшицевых функций воз- можна как оценка минимального значения ф(%*), ес- ли положить, что eh = [zL, z+], так и оценка коорди- наты х* точки абсолютного минимума (функции Ф<=ФК могут быть многоэкстремальными), если при- нять ek=X h. Рассмотрим оба случая. Пусть принята оценка экстремума по координате, и пусть эффективность Ь(ф, s) применения стратегии sgSt для минимизации функции ф е Фк равна сум- марной длине интервалов, составляющих множество Хт из (3.16), т. е. критерий эффективности, как и в (3.13), пропорционален погрешности оценки коорди- наты. В этом случае любой стратегии se ST соответ- ствует W(s)=b — а, если функция ф(х)= const. Следовательно, каждая стратегия s <= ST удовлетворя- ет условиям (3.6), (3.7) и является минимаксной. Результат этот, однако, не интересен, ибо гарантиро- ванная точность решения задачи равна длине исход- ного интервала D. Примем теперь оценку экстремума по значению функции и положим, что эффективность алгоритма
о РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ ЦЛ. Т s ST определяется погрешностью оценки минималь- ного значения, т. е. L (ф,3) = — ?L. (3.17) Для принятого критерия (3.17) решающие правила (3.2) оптимальной в классе ST стратегии s* из (3.6), (3.7) имеют простой вид (Ю. Б. Гермейер [1]) x* = a-H(2i— 1), 1 (3.18) где е = (b — а)/Т, т. е. одна из оптимальных стра- тегий совпадает с известным методом перебора на равномерной сетке. Действительно, для любой функ- ции среФк справедливого^z\—Леи £(ф, s*) Де., Однако, если ср (я) s const, то £(ф, з*) = Де и, сле- довательно, Ц7(з*)=Де. С другой стороны, если функция ф (я) const минимизируется с помощью произвольной стратегии seSr, то 1(ф, s) Де, т. е. W(s) W(s*). 4. Априорная информация и принцип оптимально- сти. Продолжим обсуждение второго примера. Если для унимодальных функций и алгоритмов, обеспечи- вающих оценку (3.12) экстремума по координате, принцип минимакса приводит к открытию е-оптималь- ной стратегии, обычно называемой методом Фибонач- чи (Дж. Кифер [1]), то тот же принцип (3.6), (3.7) „ примененный для отыскания оптимальных алго* ритмов минимизации липшицевых функций, утверж- дает оптимальность метода перебора (3.18), который может оказаться неэффективным, если функция от- лична от константы. Остановимся на этом подробнее. Для удобства обозначений перенумеруем (нижним индексом) в порядке возрастания значений координа- ты точки я1, ..., я^, входящие в из (3.1), и обоз- начим я0=а, Xk+i — b, т. е. < • - > • а — я0 Я1 . .^яь^ Яь+1 — Ь. Теперь определим объединение Dh всех интервалов (Яд-ь Xj) 1 ^/^й+1, не пересекающихся с
§ 3] ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МЕТОДОВ 29 множеством Х*из (3.16), Dk = lJ(x}-U х}), i<=J где J = {/, 1 / <С k + 1: X* П (*м, х.) = 0}. Интервалы, составляющие множество Dh в случае, представленном на рис. 3.2, отмечены штриховкой снизу. Заметим, что при xk+1 е Dh оценки экстремума (3.15), (3.16), соответствующие coft, сохраняются при (О&+1 и, следовательно, испытания в интервалах (Xj_b Xj) е Dk можно не осуществлять, даже если (х} — Xj-i) > 2е, где & из (3.18). Поэтому представ- ляет интерес формулировка принципа оптимальности, определяющая стратегии s° е St, решающие функции которых порождают точки xk+1<£DkH одновременно удовлетворяют условиям (3.6), (3.7), т. е. принадле- жат множеству минимаксных стратегий. Один из возможных подходов к формулировке та* кого принципа состоит в следующем. Пусть Ф(со/г) = {(реФ: ср^1) =z1, ..., ф(х*) =2*}, (3.19) т. е. Ф (cafe) есть подмножество тех функций из класса Ф, для которых возможно соответствующее значение (0ft из (3.1), и положим = sup £(ф,«). (3.20) ф'ЕЕФ^СО^) Таким образом, W4(s) указывает гарантированную эффективность применения алгоритма sgSt для функций из класса Ф(сой). Далее определим подмно- жество алгоритмов 5т(сок) cz St таких, что для любой функции <р £= Ф (со/г) каждый алгоритм seSt((ih) в результате первых k испытаний порождает одно и то же (указанное) значение соь Теперь введем понятие наилучшего Т-шагового ал- горитма s°^St (А. Г. Сухарев [1]), для которого при любом k, 0 k <z Т, должно выполняться Гй(«°)= inf L(<p,s), (3.21) «SST(mA)
30 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ (ГЛ. I причем считается, что St(®0) = St, Ф(й0) = Ф. Из (3.20), (3.21) следует, что наилучшие алгоритмы яв- ляются также и оптимальными, ибо при k = 0 усло- вия (3.20), (3.21) переходят в условия (3.6), (3.7). Вернемся к второму примеру. Наилучшая страте- гия s° для этого случая, т. е. для функций из класса Фк при £(ф, з) из (3.17), в отличие от первой задачи, не может быть эффективно построена с помощью ме- тода динамического программирования, ибо множест- во D\Dk, содержащее точку xft+1 очередного испы- тания, зависит от многих параметров, причем число этих параметров различно при различных значениях k. Определение решающих правил (3.2) этой страте- гии осуществляется путем непосредственного решения условий (3.20), (3.21) в процессе минимизации каж- дой конкретной функции <р е Фк, причем решение этих условий может быть сведено (А. Г. Сухарев [1]) к последовательному построению некоторых по- крытий области D\Dh для получаемых в процессе минимизации значений 1 k < Г (точка х1 может быть взята из (3.18)). Поэтому стратегия з° оказыва- ется значительно сложнее метода Фибоначчи, пред- назначенного для унимодальных функций. Пример 3. Пусть в задаче из первого примера минимизируемые функции являются строго выпуклы- ми, т. е. удовлетворяют условиям Ф (ax' + (1 — а) х") < аф (х') -|- (1 — а) ф (х"), (3.22)’ где 0 < а < 1 и х', О. Заметим, что предполо- жение (3.22) является более сильным, чем требование унимодальности, ибо условия (3.9), (3.10) необходимо следуют из (3.22). Для принятых предположений (рассматриваемая задача подробно изучается в работе Ф. Л. Черно- усько [2]) оптимальной минимаксной стратегией является метод Фибоначчи, если экстремум, как и в (3.12), оценивается по координате, а эффективность Л(ф, s), как и в (3.13), пропорциональна погрешно- сти оценки экстремума. То есть свойство выпуклости не изменяет оптимального алгоритма, поскольку точ-
§ 3] ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МЕТОДОВ 31 ные верхние грани величин L(cp, s) соответственно в классе выпуклых и в классе унимодальных функций совпадают. Однако, если принять, как в (3.15), оценку экстре- мума не по координате, а по минимальному значению, и эффективность алгоритмов измерять, как в (3.17), погрешностью этой оценки после Т испытаний, то оп- тимальный алгоритм из (3.6), (3.7) уже отличается от метода Фибоначчи. Вместе с тем задача вывода этого оптимального алгоритма является трудной, ибо решающие правила (3.2) представляют собой слож- ные функции значения coft, вывод которых требует численного решения многомерной экстремальной зада- чи (3.6), (3.7), включая табулирование таблиц функ- ций многих переменных. Возможный выход состоит в том, чтобы заменить принцип оптимальности (3.6), (3.7) более простым условием, допускающим эффек- тивный вывод оптимальных стратегий. Один’ из таких принципов обсуждается в следующем пункте. 5. Одношаговая оптимальность. Вернемся к фор- мальному описанию алгоритма оптимизации, данному в первом пункте настоящего параграфа, и введем по- следовательность функций £Дф, (oft), А = 1, 2, ..., описывающих эффективность оценки ек экстремума функции среФ(оц), полученной в результате выпол- нения k испытаний по алгоритму s^S(coft), обеспе- чившему результат <oft. Так, например, для оценки ек из (3.12) можно принять АДф, coft) = %+— xL, т. е. эффективность пропорциональна погрешности опреде- ления координаты экстремума после k шагов по ал- горитму sgS(g)J. Аналогично для оценки (3.15) можно принять Lk (ср, <ofe) = — zL и т. д. Таким образом, алгоритм s описывается набором з=<Д {GJ, {£„}, {Fh}, {LJ>eS, . 1 где через S обозначено множество всех таких алго- ритмов. Теперь подобно условию (3.20) можно ввести величину ^л+1 (*ft+I) = sup Lk+l (ф, <оА+1), (3.23)
32 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ ГГЛ. t указывающую гарантированную эффективность при выполнении (&+1)-го испытания в точке ?+1eD, если предшествующим испытаниям соответствует мно- жество co/г из (3.1). Функция (3.23) позволяет опреде- лить понятие одношагово-оптимальной стратегии se е S, решающие правила (3.2) которой порождают точки испытаний хь, k=l, 2, ..., удовлетворяющие условиям №*(**) = inf Wh(xk). (3.24)' xk<=D Заканчивая обсуждение третьего примера, отме- тим, что даже одношагово-оптимальная стратегия из (3.23), (3.24), обеспечивающая минимизацию одно- мерных функций, удовлетворяющих условию выпук- лости (3.22), оказывается весьма сложной, хотя суще* ствует более простой алгоритм, близкий к ней по эффективности (Ф. Л. Черноусько [2]). Введение понятия одношагово-оптимальных стратегий, как уже отмечалось выше, преследовало цель упрощения формулировки принципа оптималь- ности, расширяющего возможности выведения страте- гий, определяемых этим принципом. Однако значение одношагово-оптимальных алгоритмов в задачах по- строения эффективных вычислительных методов не ограничивается этим обстоятельством. Дело в том, что математическая модель, в рамкдх которой ис- пользуемый метод должен обеспечивать решение за- дачи, во многих случаях включает параметры, значения которых неизвестны и должны оцениваться в ходе вычислительного процесса на основе промежу- точных результатов. Так, например, в условиях Лип- шица (3.14), описывающих класс минимизируемых функций, значение константы К может быть неизвест- ным и при этом на каждом шаге процесса минимиза- ции используется своя оценка этой константы, по- строенная по текущему значению со/? из (3.1). Таким образом, предположение (реФк (для конкретного значения /<) справедливо лишь на данном шаге k. и при выборе точки xk+l очередного испытания естест*
§ 3] ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МЕТОДОВ 33 венно потребовать одношаговой оптимальности мето- да, т. е. выполнения условий (3.23), (3.24). Следует отметить, что уточнение математического описания в ходе вычислений характерно не только для задач оптимизации, но и для многих других вы- числительных задач (см., например, Н. С. Бахва- лов [1]). В связи с этим часто говорят об адапти- рующихся и самонастраивающихся программах (см., например, Н. Н. Моисеев [1]). 6. Многоэкстремальные задачи и априорные пред- положения. Примеры, рассмотренные выше, показы- вают, что конкретная формулировка априорных пред- положений, выделяющих класс минимизируемых функций, определяет вид и степень сложности оце- нок экстремума, которые могут быть построены по результатам испытаний, тип критерия оптимальности, характеризующего наилучший метод, и наличие под- ходящего аппарата исследования для выведения наи- лучшего метода из условий оптимальности. В настоящее время известно лишь одно формаль- ное описание класса многоэкстре-мальных задач, обеспечивающее возможность построения достовер- ных (не вероятностных) оценок экстремума по ре- зультатам испытаний. Речь идет о классе липшице- вых в той или иной метрике функций (одномерных, как во втором примере, или многомерных). Эти функ- ции удовлетворяют условиям । |ф(х')_Ф(х") | ^Кр(х', х"), х', (3.25) где функция р описывает некоторую метрику (под- робное обсуждение необходимых свойств функции р содержится в книге А. Г. Сухарева [1], и кон- станта А считается заданной. Для указанных предпо- ложений вычисление оценок экстремума и построение оптимальных методов связано (в многомерном слу- чае) с решением сложных задач теории покрытий (В. В. Иванов [1], В. В. Леонов [1], А. Г. Су- харев [1]). Трудности построения оптимальных покрытий при- водят к разработке алгоритмов, использующих более простые (не оптимальные) покрытия для оценки экс- 3 Р. Г. Стронгин
34 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ ТГЛ. I тремума (см., например, Ю. М. Д а н и л и н и С. А. П и- явский [1], Ю. Г. Евтушенко [1] и др.). Следует отметить, что приложения, в которых воз- никают задачи минимизации, во многих случаях по- зволяют указать некоторые свойства минимизируемой функции, но обычно эти свойства характеризуются неформально (например, утверждается, что функция является «овражной» или что глобальный экстремум является «широким») и поэтому не порождают ап* парата формальных оценок экстремума, необходимого для построения оптимальных методов. В связи с этим разработка формальных матема- тических схем описания априорной информации о классе минимизируемых функций играет централь- ную роль в задачах построения оптимальных мето- дов оптимизации. Один из путей создания таких схем, рассмотрению которого посвящено все после- дующее изложение, основан на введении вероятност- ного описания свойств минимизируемой функции, позволяющего развить некоторый аппарат вероят- ностных оценок экстремума. 7. О вероятностной постановке задачи. Пусть минимизируемая функция является липшицевой, т. е. удовлетворяет условиям (3.25), но значение констан- ты А Липшица не задано. Поскольку без конкретного значения константы невозможно построить покрытий, определяющих оценки экстремума по результатам испытаний,-то можно принять некоторое значение Ко в качестве приближения к неизвестному значению А” и решить задачу для Ао (см., например, Ю. Г. Ев- тушенко [1]). Если при этом окажется, что Ао < < Л, то построенные оценки будут в общем случае недостоверными. С другой стороны, в ряде случаев удается дать грубую верхнюю оценку К° константы А, для кото- рой заведомо справедливо, что К < А° (например, известен верхний порог мощности, определяющий ха- рактер возможных изменений в моделируемой физи- ческой системе, и т. п.). Однако построение покрытия, обеспечивающего заданную точность решения задачи минимизации в предположении оценки А0, может по-
§ 3] . ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ МЕТОДОВ 35 требовать неприемлемо большого числа испытаний, поскольку значение К° обычно велико. В таком случае выбирается некоторое значение К0<.К°, определяемое возможностью выполнения необходимого объема вы- числений и неформальным предположением малой ве- роятности события Ко < К. Другой возможный путь состоит в том, чтобы ввести некоторое распределение вероятностей воз- можных значений константы К и построить вероят- ностные оценки экстремума, соответствующие этому распределению. Так мы приходим к вероятностному описанию, при котором вместо одного произвольно выбранного значения Ко рассматривается весь спектр возможных значений константы, характеризуемый принятой вероятностной мерой. Подобно тому, как распределение вероятностей для константы Липшица дополняет условие Липшица (3.25), можно ввести априорное распределение ве- роятностей, характеризующее расположение точки искомого минимума на отрезке [а, Ь] и дополняющее предположение унимодальности (3.9), (3.10), и вос- пользоваться этой дополнительной информацией для ускорения процесса отыскания экстремума (Н. М. Емельянова [1], А. О. Конверз [1]). Принятие подобных вероятностных предположений означает, что минимизируемая функция рассматрива- ется как неизвестная реализация заданной случайной функции, что позволяет подходить к задаче отыскания экстремума этой функции как к одной из задач теории статистических решений*). Различные подходы к пост- роению алгоритмов решения многоэкстремальных за- дач как статистических решающих правил предлага- ются и обсуждаются многими авторами. При этом указывается связь таких постановок с последователь- ным статистическим анализом (Э. М. Хазен [1]), предлагается интерпретация процесса адаптации жи- *) Основы теории статистических решений изложены, напри- мер, в книгах Д. Блекуэлла и М. А. Гиршика [1] и М. Де Гроота [1]. Однако рассмотрение, проводимое ниже, является достаточно замкнутым и не предполагает обязательного изучения этих книг. 3*
36 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ (ГЛ. I вых организмов и автоматов как процесса формиро- вания и уточнения некоторого вероятностного описа- ния среды, в которой организм или автомат решает экстремальные задачи (Д. Б. Юдин [2]), изучают- ся конкретные типы вероятностных описаний (А. Г. Жилинскас [1, 2], А. Г. Жилинскас и И. Б. Моцкус [ 1 ], X. Кушнер [1], Р. Г. Строн- гин [1—6], В. Р. Шалтянис [1])» ставятся воп- росы о некоторых общих свойствах математической модели при вероятностном рассмотрении экстремаль- ных задач (И. Б. Моцкус [2]), вероятностное опи- сание рассматривается как язык формулировки имеющихся предположений о задаче, позволяющий строить оценки экстремума по результатам испытаний (Ю. И. Неймарк и Р. Г. Стронгин [1], Р. Г. Стронгин [7, 8]) и т. д. Дальнейшее изложение будет посвящено рассмот- рению лишь последнего из указанных подходов, об* щая схема которого неформально обсуждается в сле- дующем параграфе. § 4. Информационно-статистический подход к задачам отыскания абсолютного экстремума 1. Общая схема подхода. В обсуждаемом подходе принимается, что априорные предположения о зада- че (1.1), (1.2) описываются путем задания распреде- ления вероятностей F на классе (измеримых) подмно- жеств множества Ф всех функций ф, определенных в области D. При этом вероятность того, что мини- мизируемая функция ф обладает некоторым свойст- вом, описывается как вероятность £(Ф') принадлеж- ности этой функции к подклассу Ф' всех функций, обладающих этим свойством *). Любая дополнительная информация со = он из (3.1), которая может быть получена в результате проведения испытаний, включается в вероятностное описание путем пересчета априорного распределения *) Использование статистического описания информации о ми- нимизируемой функции и определяет название подхода.
§ 4] ИНФОРМАЦИОННО-СТАТИСТИЧЕСКИЙ ПОДХОД 37 F в апостериорное (условное по отношению к резуль- татам испытаний) распределение F&. Для осуществи- мости такого пересчета при испытаниях, сопровож- дающихся помехами, необходимо задать также рас- пределение вероятностей на множестве возможных исходов испытаний. \ Информация о минимизируемой функции, накоплен- ная в форме апостериорного распределения F^ мо- жет быть использована для оценки расположения экстремума, путем вычисления вероятностей т] (Х/со) того, что глобальный минимум функции ср достигает- ся в точке хе X с D. При этом t)(X/(d)=F4®x), (4.1) где Фх cz Ф есть подмножество функций ф, экст- ремум которых достигается в точках множества X. Распределение позволяет также прогнозировать результаты следующих испытаний с помощью инду- цируемых вероятностей g^Z/co^, x/i+1) того, что резуль- тат 2ft+1 из (1.3) испытания в точке принадлежит, множеству Z cz 7?1. В случае испытаний без помех g(ZM, x^)-fa(®z), где Ф2сгФ((ой) есть подмножество функций из-(3.19), удовлетворяющих условию (p(xH1)eZ. Вероятностное описание F& и индуцируемые им распределения т] и g позволяют подойти к разработ- ке алгоритмов оптимизации как к построению стати- стических решающих правил. При этом различные условия, предъявляемые к решению задачи оптими- зации и определяющие правила остановки (3.4), обычно можно задать через некоторое условие для распределения (4.1). Например, в случае, когда тре- буется найти 6-окрестность U cziD, содержащую иско- мый абсолютный минимум с вероятностью, не мень- шей, чем 1 — 8, это условие имеет вид 1]({//со) > 1 — 8. ' (4.2) Далее, если принять некоторый критерий £(ф, $) эффективности решения задачи минимизации функ-
38 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ (ГЛ. Г ции ср с помощью алгоритма $, то сопоставление раз* личных алгоритмов можно осуществлять не по верх- ней грани критерия из (3.6), а по математическому ожиданию W (s) = J L (ф, $) dF. (4.3) Тогда выражения (4.3), (3.7) будут определять алго- ритм, наиболее эффективный в среднем (в отличие от ориентации на худший случай, отражаемой усло- вием (3.6)). В теории статистических решений критерий £(ф, s) обычно называют функцией потерь, а математиче- ское ожидание потерь — функцией риска. Согласно этой терминологии стратегия s* из (4.3), (3.7), ми- нимизирующая риск, называется байесовской (гово« рят также, что она является байесовским решающим правилом). В этой связи используется также термин байесовские методы оптимизации. Если вместо априорного математического ожидания W (s) из (4.3) ввести апостериорное, т. е. Wk(s} = [L($,s)dFa, (4.4) то условия (4.4), (3.21) будут определять наилучшие байесовские методы s°. Наконец, если на каждом шаге вычислительного процесса используется своя функция потерь Ln(<p, сол) и введено математическое ожидание Fft+1 (x*+i) = f Lfe+1 (ф, ®ft+1) dF^, (4.5) т. е. риск, соответствующий испытанию в точке при условии, что результаты coft предшествующих ис- пытаний заданы, то условия (4.5), (3.24) определяют одношагово-оптимальный байесовский метод з, пост- роение которого в общем случае проще, чем построе- ние наилучших байесовских алгоритмов. В заключение отметим, что основное отличие рас- смотренной схемы от схем других вероятностных под- ходов (см., например, Й. Б. Моцкус [2]) состоит
§ 4] ИНФОРМАЦИОННО-СТАТИСТИЧЕСКИЙ ПОДХОД 39 в использовании явных оценок экстремума (4.1), что предопределяет и различие путей построения вероят- ностных описаний в конкретных задачах. 2. О реализации подхода. Принятие вероятностно- го описания означает, что минимизируемая функция Ф рассматривается как функция двух аргументов, т. е. ф = <р(х, о), причем x^D, ое2, где 2 есть множе- ство элементарных исходов из вероятностного пространства (2, Л, Р) с сигма-алгеброй А и мерой Р, которое и является формальным средством зада- ния вероятностного описания. При этом формальное описание должно обеспечивать возможность практи- ческой реализации рассмотренной выше схемы, т. е. возможность вычисления оценок экстремума (4.1) и возможность выведения решающих правил опти- мального алгоритма. В связи с этими требованиями отметим следующие два обстоятельства. Во-первых, априорная информа- ция о задаче не всегда достаточна, чтобы однозначно определить вероятностное описание. Обычно это опи- сание зависит от некоторых параметров, значения которых неизвестны (подобно тому, как может быть неизвестна константа в условиях Липшица (3.25)). Поэтому в общем случае необходима адаптация модели в ходе вычислительного процесса, т. е. ис- пользование результатов испытаний для оценки тех неизвестных параметров, по отношению к которым задача отыскания экстремума не инвариантна. По- скольку при этом вероятностное описание может быть различным на различных шагах процесса оптимиза- ции (подобные вопросы мы уже обсуждали в § 2, п. 5), то естественно использовать одношагово-опти- мальные алгоритмы из (4.5), (3.24). Во-вторых, подобно тому, как в случае Липшице- вых функций получение оценок экстремума приводит к трудным задачам построения покрытий, непосред- ственное вычисление вероятностных оценок (4.1) свя- зано с трудными задачами интегрирования по вероят- ностным мерам. Использование вероятностных оценок минимального значения функции (И. Б. Моцкус [2]) наталкивается на те же вычислительные труд-
40 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ [ГЛ. I ности. Поэтому развитие некоторого достаточно про- стого аппарата приближенного построения оценок, экстремума является необходимой предпосылкой для практической реализации любых подходов к созданию оптимальных методов оптимизации. 3. Заключительные замечания. Пусть xl 1<Х&е, есть узлы 8-сети в области D из (1.1), и пусть зада- ча (1.2) решается по методу перебора на указанной сетке, причем результаты испытаний равны значениям функции в узлах, т. е. = ср (я*). Тогда для функции, удовлетворяющей условиям (3.25), справедливо, что min Zg — ср (х*)< /Се, (4.6) т. е. покрытие, порождаемое перебором, обеспечивает точность Де по значению функции. С другой стороны, если метод перебора применяется многократно для последовательно уменьшаемых значений е и функция непрерывна, то lim min 4 = <р (х*). (4.7) е->0 Таким образом, в принципе метод перебора позволяет достичь необходимую точность (4.6) решения задачи (1.1), (1.2) или обеспечить асимптотическую сходи- мость (4.7), являющуюся частным случаем условия (2.2). Однако метод перебора во многих случаях требу- ет неприемлемо большого числа испытаний и именно это обстоятельство вызывает разработку других ме- тодов, обеспечивающих решение задачи при меньших вычислительных затратах. Уменьшение числа испытаний при тех же требо- ваниях к точности решения возможно лишь за счет более полного использования априорных предположе- ний о минимизируемой функции, что' приводит к об- суждавшимся выше алгоритмам оптимизации, кото- рые необходимо являются более сложными, чем метод перебора. Один из путей создания таких алгоритмов связан с выведением в tqm или ином смысле оптимальных
ПОСТАНОВКА ЗАДАЧИ 41 § 5] методов. Сильной стороной такого подхода является возможность строить новые методы, наиболее полно учитывающие постулированные свойства задачи, хо- тя, разумеется, учитывая условность критериев эф- фективности и необходимость уточнения математи- ческой модели задачи в процессе вычислений, не следует абсолютизировать саму по себе оптималь- ность выведенных алгоритмов. Поэтому выведение оптимального при тех или иных предположениях метода можно рассматривать лишь как первый шаг, который целесообразно допол- нить изучением построенного алгоритма оптимизации с традиционных позиций (вопросы сходимости, ско- рости сходимости, устойчивости, численные экспери- менты, сопоставление с другими методами при реше- нии прикладных задач и т.д.). Именно в таком плане мы будем рассматривать информационно-статистиче- ские алгоритмы, предлагаемые в этой книге. В следующих двух параграфах рассматривается один конкретный способ построения вероятностных описаний для задач многоэкстремальной оптими- зации, основанный на использовании плотностей рас- пределений вероятностей и некоторых простых функ- ций распределений вероятностей (§ 5). Выясняются условия, при которых указанный способ описания по- зволяет упростить вычисление вероятностных оценок экстремума. Обсуждается некоторый конкретный при- мер описания с помощью плотностей, используемый в следующей главе, для которого выполняются усло- вия, упрощающие оценки экстремума (§ 6). § 5. Вероятностное описание и оценки экстремума. . Постановка задачи Рассмотрим задачу (1.1), (1.2) в дискретной постановке. Пусть в области D задана е-сеть, узла- ми которой являются точки Xi^D, где i(=I = {0, ..., п}, (5.1) т. е. I есть множество номеров узлов заданной ’сети. Требуется определить хл, в которой функция <р(х),
42 о решении многоэкст^ёмаЛьных задач 1гл. t i е I\ достигает абсолютного минимума, т. е. ср(*а)=^ф(Хг), (5.2) и, следовательно, искомым решением является такое, которое дал бы полный перебор значений функции на введенной сетке. Рассмотрим указанную задачу с позиций информационно-статистического подхода (§ 4). Необходимые понятия вводятся в следующих пунктах. 1. Априорное описание. Поскольку любая функция Ф (хг), е 7, полностью определяется значениями ф1==ф(Хг), 0 i п, то ее можно представить как точку ф = (фо, .. .» фп) е Rn + i (п+1)-мерного евклидова пространства /?п+1. Таким образом, множество всех рассматриваемых функций отождествимо с Тогда возможный способ опи- сания априорных предположений о минимизируемой функции фе/?п+1 состоит в задании плотности /(ф) распределения вероятностей на пространстве для которой необходимо выполняется условие норми- ровки оо оо J /(ф)г/ф = [ ... f /(ф0, ...,q>n)d<p0 ... d(pn = 1. —оо — оо (5.3) Этот способ априорного вероятностного описания с помощью плотностей и будет использоваться в даль- нейшем, причем мы ограничимся случаем, когда плот- ности f(cp) положительны и непрерывны. 2. Априорные оценки экстремума. Введем разбие- ние пространства Rn+l на подклассы ФА, Фа = {ф е Rn+i: (уа <= Л) (yi е /\А) Ф< > min ф7 = фа), (5.4) 3^1 соответствующие непустым подмножествам A czl. При этом множество точек абсолютного минимума функ-
ПОСТАНОВКА ЗАДАЧИ 43 § 5] ции <р е Rn+i совпадает с А тогда и только тогда, когда <реФл. В дальнейшем, для краткости, будем обозначать множества ФА, соответствующие одноэле- ментным множествам А = {а} с: 7, через Фа. Обозначим через ц(Л) априорную вероятность того, что абсолютный минимум функции до- стигается в каждой точке множества Ас1 и ни в какой другой точке, т. е. т)(Д) есть вероятность события <р е ФА. Следовательно, Я ({«}) = f f (ф) > 0, а Л (5.5) фа если минимум достигается в единственной точке, и г](Л) =0, если множество А содержит более одного элемента (поскольку в последнем случае подкласс ФЛ, согласно (5.4), лежит в линейном многообразии размерности, меньшей, чем «+1, и плотность f(q>) является непрерывной). Кроме того, из условия нор- мировки (5.3) вытекает справедливость следующего равенства: — _ 2п({а}) = 1. (5-6) aei Таким образом, принятие априорного описания с помощью непрерывных положительных плотностей f(<p) необходимо предполагает, что абсолютный ми- нимум оптимизируемой функции с вероятностью, рав- ной единице, достигается в единственной точке мно- жества /. 3. Модель испытаний. Решение задачи (5.1), (5-2) предполагает вычисление значений функции в неко- торых узлах сетки и построение оценок экстремума на основе результатов этих вычислений и принятых априорных предположений. Указанные вычисления мы условились (§ 1) называть испытаниями. Поскольку в общем случае результаты испытаний могут содержать случайные погрешности, то необхо- димо принять некоторые предположения о природе этих погрешностей, причем для сохранения единства подхода мы будем рассматривать различные типы
44 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ [ГЛ. I таких предположений как частные случаи некоторой общей модели. Согласно этой модели, результат (исход) z^R1 испытания в точке te/ (в узле Xi<=D) при миними- зации функции (pe/?n+I рассматривается как реали- зация случайной величины с условной функцией рас- пределения вероятностей описывающей ус- ловную вероятность события z.<v. Если, например, погрешности представляют собой реализации нор- мальной случайной величины с нулевым математи- ческим ожиданием и стандартом а, то w'p) “ тй iир (67> — оо В случае же, когда погрешности отсутствуют, ( 1, V> ф/, - о, <5-8> т. е. вероятность исхода z = равна единице. Таким образом, модель исхода z Испытания в точке i определяется тройкой (Я1, ^(и/ф)), i e=Z, (5.9) которую будем называть пространством испытания в точке i. При этом вычисление (возможно, с погреш- ностью) значения функции ф е /?п+1 в точке i е / рассматривается как наблюдение исхода ге/?1 из пространства (5.9). Перейдем теперь к описанию совокупности испы- таний. Пусть в точках ib ..., ik из /, составляющих множество ... / = Jft=,{ii...Ц, (5.Ю)' осуществлены испытания. Результаты этих испыта- ний (т. е. значения исходов из пространств (5.9) с индексами из Л) соответственно обозначим через Si, ..., zk и будем рассматривать как точку z = (zi, ..., гл) ^Rh (5.11);
§ 5J ПОСТАНОВКА ЗАДАЧИ 45 причем примем, что условная ^-мерная функция рас- пределения для исхода z из (5.11) совокуп- ности испытаний в точках множества Jh из (5.10) полностью определяется через условные функции из пространств (5.9), т. е. - ь Yj(v/<p)= (5.12) V=1 где !,E J, 1 sg v C k, и v — (yi, .,vk). Таким образом, совокупности испытаний в точках множества Д также можно сопоставить тройку (£fc, Rn+i, ТД»/ф)) (5.13) и рассматривать проведение испытаний в точках ука- занного множества как наблюдение исхода из прост- ранства (5.13). По аналогии с (3.1) введем множество пар © = ©» = {(G, *.) : 1 (5.14) содержащее точки J и исходы г, из (5.11), кото- рое будем называть дополнительной, или поисковой информацией о минимизируемой функции <р е /?я+1. При этом условимся говорить, что испытание, про- водимое при наличии информации со из (5.14), явля- ется (А-|-1)-м испытанием, или испытанием на (&4-1)->и шаге. 4. Апостериорные оценки экстремума. Пусть про- ведены испытания и получена дополнительная инфор- мация со из (5.14). Оценим апостериорные вероят- ности г)({а}/©) того, что абсолютный минимум функ- ции достигается в точке а е /, т. е. вероятности со- бытий ф е Фа. Введем безусловную функцию распределения для исхода z из (5.11) Ъ(®)= ,[ Ъ(®/<Р)/(<Р)^<Р (5.15) и функцию распределения ¥Дф,{а})= (5.16)
46 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ [ГЛ. I описывающую вероятность того, что фЕ Ф« и исход z из (5.11) удовлетворяет условиям zt < vit 1 i k. Если функции распределения (5.15) и (5.16) мо- гут быть соответственно заданы с помощью плотно- стей ф/(г) и ф/(г, {а}), то , = (5-17) т J \*/ где z из (5.11). При этом 2 Я ({а}/®) = I. аег поскольку из определения (5.4) множеств ФА1 (5.15\ и (5.16) следует равенство аег справедливое также и для плотностей функций рас- пределения (5.15), (5.16). Остается выяснить условия существования указанных плотностей. При испытаниях с погрешностями условные функ- ции распределения из (5.9) обычно могут быть зада- ны с помощью непрерывных положительных плотно- стей ф,(г/<р) , как, это, например, имеет место в (5.7) для погрешностей, подчиненных нормальному закону. В этом случае функция распределения (5.12) также может быть задана с помощью непрерывной положи- тельной плотности ф/(г/ф), где z из (5.11), представ- ляющей собой произведение соответствующих плот- ностей i|?f(z/q)). Поэтому плотности, входящие в пра- вую часть выражения (5.17), существуют, причем J ФДг/<Р)/(ф)Жр>0, (5.18) ВП+1 Ч3.; (*. {«}) == (<P)d<P>0, (5.19) откуда следует существование апостериорных вероят- ностей (5.17). При испытаниях без погрешностей функция рас- пределения (5.8), определяющая функцию (5.12),
Постановка ЗАДАЧИ 4? Hl не может быть задана с помощью непрерывной положи- тельной плотности, однако, как показано в следую- щем пункте, плотности из правой части выражения (5.17) существуют. 5. Оценки экстремума при испытаниях без погреш- ностей. Предположим, что все точки множества J из (5.10) попарно различны. Для краткости записи обозначим через ф, вектор значений функции <p е Rn+l в точках множества J, т. е. Ф/ = (фц> • • •> Tife) е Аналогично, через фР обозначим вектор значений функции в точках множества Р =l\J, являющего- ся дополнением J, причем фР е R1, где I = п + 1 — k. В новых обозначениях условимся записывать /(ф) =/(ф/> фр). что позволяет, например, представить априорную частную плотность для компонент вектора ф/ в виде 00 ро . /Дф>)= J ... f /(ф^.фр)^фр), (5.20) --00 г—-ОО где (</фР) = П dq>t. геР Л Теперь, согласно (5.8), (5.12), можно записать функцию распределения (5.15) как Vj vh оо оо J ... j (dyj) f ... j (d<fp) f (ifJ, фр), — OO i—00 —oo »— oo откуда следует существование непрерывной плотности Ш =Ь(г) >0, (5.21) где fj(z) из (5.20). Для компактной записи функции распределения (5.16) введем обозначение р. (х) = min xt
48 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ ГГЛ ! для минимального значения координат вектора х" — (хь ..xk) и определим вектор • - 4>j = ((pit.<Ptv_p Vv, <Piv+1, . • ., <PiA), соответствующий множеству Jh, вектору v и числу v, К v < k. Пусть a^J. Тогда из (5.8), (5.12), (5.16) следует, что Ъ (*,{<*}) = - * M(<PJ) оо оо = J ... J (dq>j) J t/фа J • •• J (<*фр)а/(ф/> фр), t—oo i—oo —oo (pa (pa где (d<pp)a=II ^Фг. Пусть теперь a= tv<=/. В этом i'EP/{a} * . случае * - - T1 vk ¥7(®,{<*}) = J ... J j ... J (d<Pj)aX X f d<pa j ... J (</<pP)f (<jpj, фР). — oo H(<Pj) H(<₽j) Таким образом, функция распределения (5.16) мо- жет быть задана следующей плотностью: j {а}) = 11(2) СО оо J d(pa j ... J (dq>p)af (2, фр), a^J, . <₽a <₽a oo oo j j (^Фр)/(^. Фр). a = /v, p(^) = zv> ц(г) ц(г) , о, a = iv, p (z) < zv, (5.22)
г SSJ - ПОСТАНОВКА ЗАДАЧИ 49 где условия а = iv, ц(г) = z, предполагают также, что минимальное значение г» единственно, т. е. zv < z{, если i =И= v. Это последнее требование выпол- няется с вероятностью, равной единице, поскольку плотность (5.21) является непрерывной. В заключение обсудим приемлемость использован- ного выше предположения о том, что все точки мно- жества из (5.10) попарно различны. В случае ис- пытаний без погрешностей исход z из (5.11), соответ- ствующий любому заданному множеству /*, должен совпадать с вектором (fjh значений функции в точках множества Л, т. е. Z = (5.23) Точная формулировка этого утверждения, опираю- щаяся на принятую модель испытаний, состоит в том, что исходы z из пространства (5.13), определяемого условной функцией распределения из (5.8), (5.12), удовлетворяют условию (5.23) с вероятностью, рав- ной единице. Таким образом, повторное испытание в точке i да- ет уже известный результат ф<, и поэтому можно по- требовать, чтобы все точки множества Jh были попар- но различны, т. е. наложить ограничение на возмож- ные способы выбора испытаний. С другой стороны, это ограничение желательно не накладывать, чтобы сохранить единство рассмотрения для испытаний с погрешностями и без погрешностей. В связи с этим воспользуемся следующим построе- нием. Условие ip = iq, где р ф q и 1 р, q ^k, опре- деляет отношение эквивалентности на множестве Д, порождающее разбиение этого множества на t клас- сов эквивалентности 1 I t k. Целое число, с которым совпадают все точки из Jt, обозначим через ji и составим множество J* — Jt — {/\, ../J, (5.24) все точки которого попарно различны. Из (5.23) сле- дует, что всем точкам iq jf соответствует одно и то 4 Р. Г. Стронгин
56 О РЕШЕНИЙ МНОТОЭКСТРЁМАЛЬНЫХ ЗАДАЧ 1ГЛ. t же значение zq = фуг, которое мы обозначим через м(, и введем набор 2* = («ь ,.и() (5.25) таких значений. Теперь отождествим все исходы z из (5.23), индексам Jk которых соответствует бдно и то же множество Jt из (5.24), со значением вектора 2* из (5.25), которое будем рассматривать как исход из пространства, определяемого тройкой (R*, Rn+i, (®/<р)), J* с I, (5.26) где v<=R‘ и условная функция распределения строит- ся согласно (5.8), (5.12) для заданного значения J*. Таким образом, наблюдение любого исхода г из (5.23) рассматривается как наблюдение всех эквива- лентных исходов. В качестве конкретных представителей указанных классов эквивалентных исходов условимся рассмат- ривать исходы z’e/?1 из пространств вида (5.26), где все точки множества J* попарно различны. Таким образом выражения (5.21), (5.22) справедливы для множества J* из (5.24), соответствующего заданному произвольному множеству Jk. § 6. Приближенные оценки экстремума ' 1. Упрощение оценок абсолютного экстремума. Не- посредственное определение априорных вероятностей п({«}) из (5.5) и апостериорных вероятностей ц({а}/со) из (5.17) предполагает выполнение опера- ций интегрирования (5.5), (5.19), (5.22), что в силу сложности областей интегрирования приведет к гро- моздким численным методам и окажется практически невыполнимым при достаточно больших значениях числа п узлов сетки. В связи с этим представляет интерес построение более простых в вычислительном отношении оценок. Возможный путь такого построения состоит в при- ближенном описании апостериорных вероятностей т)({а})/со) с помощью вероятностей £(а/со) для неко-
§ 6J ПРИБЛИЖЕННЫЕ ОЦЕНКИ ЭКСТРЕМУМА 51 торой случайной величины а, дополнительно вводимой в априорное вероятностное описание /(<р) с помощью разложения Н<Р)= 2/(<P/a)Ua). " (6.1) где f(<p/tx) есть непрерывные положительные условные плотности распределения вероятностей на простран- стве /?n+1, a £(а) есть априорное распределение для вводимой величины а. Поэтому S | (а) = 1, и усло- ае/ вимся, что |(а) >0, а <= I. Для целей дальнейшего рассмотрения удобно дать специальное название формально введенной величи- не а. Мы будем называть ее состоянием природы*). В случае испытаний со случайными погрешностя- ми, когда условные функции распределения (5.12) задаются непрерывными положительными плотностя- ми фДг/ф), I (a/®) = J (*/<P) f (4>/a) (6.2) лп+1 где ф,(z) из (5.18)’, Теперь определим |(а/®) для случая испытаний без погрешностей. Введем функцию распределения Y j (c»/a) - J (®/<р) / (<р/а) йф =. йп+1 Vi vh оо оо j ... f (dq>j) j j* (<1фр)/(ф/,фр/а)> >-—00 — оо —-оо оо описывающую вероятность выполнения неравенств z. < Vt, 1 k, для исхода z из (5.11) при задан- ном состоянии природы а. Поскольку эта функция может быть задана с помощью частной условной плотности //(ф^/а) для координат вектора ф/( то, *) Термин состояние природы заимствован из теории статисти- ческих решений (М. Де Гроот [1]), и его использование в насто- ящем рассмотрении обусловлено той ролью, которую играют оценки величины а, обсуждаемые ниже. t
52 ; о РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ 1ГЛ. I учитывая также равенство (5.21), получаем, что В (а/®) = —— • М Из (6.2), (6.3) и (5.18), (5.20) следует, что вычис- ление распределений g(cc/co) предполагает интегриро- вание по всему пространству. Это обстоятельство по- зволяет в ряде случаев (например, во всех случаях, рассматриваемых в следующих главах) выполнить интегрирование аналитически. В результате, расчет- ные выражения для |(а/<») оказываются существенно проще, чем схемы непосредственного вычисления ве- роятностей »}({«}/<»). Остается выяснить, какие свой- ства разложения (6.1) гарантируют близость вероят- ностей £(а/со) для состояний природы и вероятностей q ({ос.}/со), описывающих расположение абсолютного минимума. .......... 2. Условия аппроксимации. Теорема 6.1. Пусть непрерывные положитель- ные условные плотности f(<p/a) из (6.1) зависят от вещественного положительного параметра с таким образом, что lim ( /(<p/cc)d<p — 1, же/, (6.4) С-*° ф-а и пусть функции распределения xF<(v/q)) из простран- ства испытаний (5.9) либо имеют вид (5.8), либо мо- гут быть заданы непрерывными положительными плотностями Тогда 1‘ ' lim г) ({а}) = | (а), же/, (6.5) с-0 и с вероятностью, равной единице, lim | т] ({ос }/со) — | (а/со) | = 0, же/. (6.6) с~*0 Доказательство. Из предположения (6.4) и. равенства 2 j* f (<P/i) dtf = J f (y/i) dq> = 1 ае1Фа Kn+1 j i
§' 6] ПРИБЛИЖЕННЫЕ ОЦЕНКИ’ ЭКСТРЕМУМА 53 следует, что lim Jf(<p/i) d<f = 0, а=£ i^I. (6.7) с->° фй Представим априорную вероятность т]({а}), из (5.5) с помощью разложения Я ({“})= 2 1(0 J/(<₽Д) + g (а) р(<р/а)бг<р, из которого, в силу (6.4) и (6.7), вытекает справедли- вость утверждения (6.5). Доказательство второго утверждения теоремы включает рассмотрение двух случаев. 1) Пусть существуют непрерывные положитель- ные плотности фДг/ф), определяющие функции рас- пределения из пространств (5.9). Используя разложе- ние (6.1), представим вероятности т]({а}/ы) из (5.17) — (5.19) и вероятности £(а/со) из (6.2) в виде П ({а}/©) = г 2 Е (0 Яап s =sAz 2 & <°о • v 7 iei где Rat = J Ф/ (£/ф) f (ф/0 dq>. Теперь для разности . фа ДДа, г) = |^(а/о) — т]({а}/ю) | (6.8) справедлива оценка 0<ДДа,г)<™ 2 G(«)W(W (6-9) Поскольку J Raldz = J f (ф/0 dtp, то, интегрируя fife фа по г в /?* каждую часть неравенств (6.9), предвари- тельно умноженных на ф/(г), получим утверждение lim f Д7 (a, z) фд (г) dz = 0, ае/, (6.10) C^° Rh
54 О РЕШЕНИИ МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧ ГГЛ. I справедливость которого является следствием (6.7). При этом предположение существования области Da cl Rk такой, что limAj (a, z) 8> О, с->0 Z(=Da, И lim ftpj(^)d^>6>0, с-»о n приводит к противоречию с утверждением (6.10). Та- ким образом, (6.6) имеет место с вероятностью, рав- ной единице. 2) Пусть функции распределения из пространств (5.9) имеют вид (5.8), что соответствует испытаниям без погрешностей. Представим плотность f(<p) из (6.1) для вектора ф = (ф/> фр) = (г> фр), zg R\ в виде f {г, фР) = 2 fp ^p/z, i) h (z/i) I (i), (6.11) ier где f p (<fp/z, t) - f , и введем обозначение Rai, n(z) OO oo J dcp« J ... У (йфр)а fp^Vp/Z, i), —00 <₽a <₽a Ra.i — OO 00 j ... У (йфр) fp (<fp/z, i), a = iv, g (z) = zv, ц(г) .... 0, a = iv, p(«)<zv, для которого справедливо равенство У f J {ZU) Raidz = У/(ф/1)4ф. (6.12) Rh фа Подставляя (6.11) в (5.22) и используя введенное обозначение Rm и выражение (6.3), определяющее
§ 6J ЦРИБЛИЖЕННЫЁ ОЦЕНКИ эКстёемумА 55 вероятности £(а/ю), перепишем (5.17) в виде П ({«}/«) = 2 £ (4/(0) Rah iSl что позволяет получить следующую оценку для раз- ности (6.8): о < A J (a, Z) < I (а./®) {1 - /?аа} + + S Ш®) Rai. (6.13) i£T\{a} Теперь подставим в неравенство (6.13) правые части выражений (6.3) и проинтегрируем по z в Rh каждую часть этих неравенств, предварительно умножив ее на Затем воспользуемся равенствами (6.12) и в результате получим 0< J А7 (a,£)fj(£)dz< . <£(a)(l— j f (<f/a) d<pl + 2 1(0 ff(<p/i)d<p. откуда, в силу (6.4) и (6.7), следует справедливость утверждения (6.10) и доказательство завершается так же, как в первом случае. М Таким образом, если плотность распределения ве- роятностей f (<р), описывающая априорную информа- цию о минимизируемой функции <р е Rn+l, представи- ма разложением (6.1), где условные плотности f(<p/a), зависящие от параметра с, удовлетворяют условиям (6.4), то при достаточно малом значении с апостериор- ные вероятности g(a/co) для состояний природы мож- но интерпретировать как вероятности достижения гло- бального минимума в точках ае / (при испытаниях с погрешностями и без погрешностей). Кроме того, при малом с формально введенные вероятности g(a) для состояний природы близки к априорным вероятностям т] ({<*}) расположения абсо- лютного минимума в точках множества I. Этим и должен определяться выбор распределения |(а) при
О РЕШЕНИЙ МНОГОёКСТРЁМАЛЬНЫХ ЗАДАЙ (ГЛ. t построении вероятностного описания в конкретных задачах. 3. Пример вероятностного описания. Пусть апри- орная плотность (ре/?п+1> представлена разло- жением (6.1), где условные функции /(ф/а), 0 а п, имеют вид f (<Р/а) = П п ',/== ехр i=0 У2л (yep, -m. (а))2 2а? (6.И) причем 57ф< = ф< — ф<-1» 1 i n, V(po = Фо, (6.15) Ъ = ст, 1 i т, с > 0, т > 0, (6.16) ( — т< mt (а)={ 1' ' ( т i а, i > а, l<f<n. (6.17) Заметим, что согласно, (6.14) — (6.17) первые разно- сти Vq>< функции ф и значение ф0 этой функции в точ- ке i = 0 при любом фиксированном ае/ являются реализациями независимых случайных величин, под- чиненных нормальному закону со стандартами ог = = ст, 1 i п, оо и математическими ожиданиями тДа), 1 i и, т0. Теорема 6.2. Плотности /(ф/а) из (6.14) удов- летворяют условиям (6.4) теоремы 6.1, если в качест- ве параметра с из (6.4) использовать коэффициент с из выражения (6.16) для стандартов о,. Доказательство. Оценим интеграл от плот- ности /(фЛ) по области Фа. Положим Д = me*, 1 <; х < 2, где т и с из (6.16), и для заданного i =/= а предста- вим множество Фа в виде суммы множеств Фои = {ф е Фа : фа < фг фа + Д} И Ф«;= {ф е= Фа: фа + А < ФJ.
§ 6] ПРИБЛИЖЕННЫЕ ОЦЕНКИ ЭКСТРЕМУМА 57 При ЭТОМ > оо оо j/(ф/0Й>< f ••• j* (<Mi J Фаг —30 —00 <Pa . А c*-1 (. me <Z---— <-7=max |l,- ' У2л \ ao Согласно (6.14) — (6.17) плотность f(<p/a) может быть записана в виде f2 ^2 (Фо “ Фа) где В(<р) (стУ2я)~п (_ (Фо-т^ _ у (?% ~ «)2 а0Г2? Р1 2а2 £ 2(т)‘ откуда следует, что ' f ('f/i) = f (ф/а) exp J- (ф/~ <pe)J, Поэтому J /(ф/0^ф<ехр[-^У * I J фаг Теперь оценка для интеграла от f(q>/i) по Фа име- ет вид J f df < тах ('• +ехр(- фа откуда при с—► 0 вытекает справедливость (6.7)’. Из (6.7) и условия нормировки для плотности /(ф/а) следует (6.4). И1 Следствием теорем 6.1 и 6.2 является возмож- ность интерпретации вероятностей |(а) и ^(а/со), вы- численных для описания (6.14) — (6.17) при доста- точно малом значении коэффициента с из (6.16), как вероятностей расположения глобального минимума в точках множества /.
ГЛАВА II МИНИМИЗАЦИЯ ОДНОМЕРНЫХ МНОГОЭКСТРЕМАЛЬНЫХ ФУНКЦИЙ Настоящая глава посвящена построению и иссле- дованию методов минимизации одномерных много- экстремальных функций, определенных на одном или нескольких отрезках вещественной оси (Р. Г. Строн- ги н [2—4, 9—14]). При этом считается, что значения функции в точках области определения вычисляются достаточно точно и соответствующими погрешностями можно пренебречь (испытания без погрешностей) < Первоначально (§ 1) рассматривается задача ми- нимизации на равномерной конечной 8-сетке Xq = а, ..Xi = а + re, ..., хп = b (0.1) в отрезке [а, Ь]. Используется аппарат вероятностных оценок экстремума, введенный в первой главе, и на этой основе выводится одношагово-оптимальное ре- шающее правило выбора испытаний. Обсуждаются вопросы оценки значений параметров, входящих в ап- риорное вероятностное описание. Предлагается ус- ловие остановки. Затем формально принимается, что шаг сетки (0.1) стремится к нулю, и выясняются предельные значе- ния для выражений, описывающих выбор испытаний, оценки экстремума и условие остановки. Во втором параграфе изучаются возможности при- менения полученного предельного алгоритма для минимизации многоэкстремальных функций, удовлет- воряющих на отрезке [а, Ь] условию Липшица. Это рассмотрение уже не опирается на исходные вероят- ностные предположения и направлено на анализ вы- полнимости тех требований, которые обычно предъ- являются к численным методам оптимизации (сходи- мость, устойчивость и т. п.).
§ 1] ВЫБОР ИСПЫТАНИЙ И УСЛОВИЕ ОСТАНОВКИ 59 В третьем параграфе предлагаются модификации предельного алгоритма, обеспечивающие более быст- рую сходимость. Четвертый параграф содержит обоб- щение алгоритма на случай, когда минимизируемая функция удовлетворяет условию Липшица в неевкли- довой метрике. В заключение главы (§ 5) приводятся результаты применения предложенных методов для минимизации нескольких сотен многоэкстремальных функций^ § 1. Выбор испытаний и условие остановки 1. Вероятностное описание. Пусть функция ф(х) определена на отрезке [а, Ь] вещественной оси х. Рассмотрим задачу минимизации этой функции в ди- скретной постановке (1.5.1), (1.5.2), введенной в пер- вой главе. Будем минимизировать функцию ф(хО на множе- стве узлов конечной равномерной е-сети (0.1) в от- резке [а, Ь]. При этом каждой функции ср (%) сопоста- вим вектор ф е Rn+i значений этой функции в узлах сети (0.1) и опишем априорные предположения о за- даче с помощью плотности распределения вероятно- стей f (<р) на пространстве задаваемой разложе- нием (1.6.1) по условным плотностям /(ф/а) из (1.6.14) — (1.6.17), где параметр с из (1.6.16) являет- ся малым (0 < с 1). Полагая погрешности в вычислениях значений функции пренебрежимо малыми, опишем результаты испытаний в узлах сетки (0.1) как исходы из прост- ранств (1.5.9) с условными функциями распределения вида (1.5.8). Соответствующую этим исходам допол- нительную информацию со из (1.5.14) в дальнейшем условимся записывать в виде -(О = = {(Г8, Zs) : О s k}, '(1.1) т. е. начальным испытанием является нулевое и, со- гласно (1.5.23), zs = <pfs, причем все точки ь, 0 s k, являются попарно различными.
60 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. п Поскольку условная функция распределения из пространства исходов (1.5.13) представима (условие независимости) в виде произведения (1.5.12), то лю- бые условные по отношению к распределения ве- роятностей зависят лишь от значений пар (is, z8) из соА, но не от порядка их нумерации по s. Поэтому для удобства обозначений условимся нумеровать точки i8f входящие в соА, в порядке возрастания значений /, т. е. O^io<4<..._<U^n. (1.2) Таким образом, каждому значению k соответствует своя нумерация пар (ie, ze) е по s, 0 s k. Замечание 1. Принятые предположения о ми- нимизируемой функции допускают следующую (не- формальную) интерпретацию. Во-первых, они являют- ся некоторым вероятностным аналогом условия Лип- шица (1.3.14), которое ограничивает первые разности функции ф(х), хе [а, Ь], и обеспечивает ее равно- мерную непрерывность. Действительно, условие (1.6.16) предполагает ограниченность дисперсии раз- ностей Vcp, функции ф, и, кроме того, эти разности являются реализациями независимых нормальных ве- личин, что при п—> оо и тп = const дает вероятност- ное свойство, аналогичное равномерной непрерывно- сти (см., например, Б. В. Гнеденко [1], стр. 327). Во-вторых, согласно (1.6.17), априорное математи- ческое ожидание ( i а, Ha(0=wo-mx 9 . значений ср» функции ф при фиксированном а имеет единственный локальный минимум, т. е. функции ф, близкие к константе, являются маловероятными. Это предположение существенно отличает принятое опи- сание от моделей типа винеровского случайного про- цесса (А. Г. Жилинскас [ 1 ], X. Кушнер [1]), где априорное математическое ожидание является кон- стантой. Некоторые важные следствия этого предпо- ложения будут рассмотрены в следующем параграфе.
§ 1] ВЫБОР ИСПЫТАНИЙ И УСЛОВИЕ ОСТАНОВКИ 61 Замечание 2. Предположение независимости дисперсии первых разностей и абсолютного значения математического ожидания этих разностей от номера узла принято для упрощения математической модели. При малом шаге сетки это предположение может ока- заться не очень естественным для достаточно гладких функций (первые разности в малой окрестности ми- нимума будут меньше, чем вне этой окрестности). Возможный путь преодоления некоторых недостатков, обусловленных указанным упрощающим предположе- нием, обсуждается в третьем параграфе. Замечание 3. Можно отказаться от использо- вания в модели параметров то, Оо, характеризующих среднее и дисперсию значения фо, если принять, что нулевое испытание осуществляется в точке /о = 0. Чтобы исключить возникающую при этом несиммет- рию (значение функции задано на левом конце), ус- ловимся проводить следующее (первое) испытание в точке ii — п (т. е. на правом конце). Таким образом, дополнительная информация он из (1.1), (1.2) при k 1 необходимо содержит пары Go, z0) = (0, фо), (ik,zk) = (и, фп). (1.3) Поскольку параметр с из (1.6.16) является малым, то, как уже отмечалось в первой главе, распределение |(а) из (1.6.1) описывает априорные вероятности рас- положения абсолютного минимума функции ф в точ- ках ссе /, чем и определяется выбор этого распреде- ления. Что касается параметра т, входящего в вероятно- стное описание, то в дальнейшем будет предложено несколько схем оценки значений этого параметра по результатам испытаний со из (1.1) и проведено под- робное изучение влияния этих оценок на свойства ал- горитмов минимизации, выведенных для принятого описания. 2. Оценки абсолютного экстремума. Напомним, что в силу малости параметра с апостериорные вероятно- сти В(а/со) для состояний природы, введенные в пер- вой главе, можно интерпретировать как вероятности т|({а]/(о) расположения абсолютного минимума в точ-
62 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ (ГЛ. II ках а множества 7, причем для принятого вероятно- стного описания величины |(а/со) определяются выра- жением (1.6.3), которое может быть переписано в сле- дующем виде. Лемма 1.1. I (а/со) h (со, а) (а) s h («.ШО’ lei (1.4) где для любого а из интервала i,-t а I, а) = exp 2р» * __ lS ~Ь ^8—1 zs " *8—1 а$ ~ 2 2m zs— (1-6) R(s) = иг (I, - is-1) + 2(*8 + *.-l), (1.7) I r .. . (1-8) Д о к a з a т e л ьст во. Поскольку первые разно- сти (1.6.15) взаимно независимы и подчинены нор- мальному закону со стандартом (1.6.16) и средним (1.6.17), то условная частная плотность fj(z/a), вхо- дящая в (1.6.3), при / иг, соответствующих <в из (1.1) — (1.3), и i,-i а /, представима выражени- ем fj (г/а) = Aj exp 1 . 2(^)2^ j’ U J где k л^П j=l _________1________ cmy2n.(ij — ij_l) ’ и₽®’ — m{ij — ij-i), m (i} + — 2a), tn (ij —ij-i), i<s, i = s, j>s.
§ И ВЫБОР ИСПЫТАНИЙ И УСЛОВИЕ ОСТАНОВКИ 63 Сумма, стоящая в фигурных скобках в выражении (1.9), с помощью алгебраических преобразований приводима к виду 2 (f>—4- пт2 - 2т (z0 + zh) + I *(s) где a*, 7?(s), psсоответственно из (1.6) — (1.8) и первые три члена не зависят от а. Поскольку так- же не зависит от а и знаменатель f}(z) в (1.6.3) представим как /Я«) = 2/Д«/05(0. isr то из (1.9) и (1.6.3) следует утверждение (1.4) — (1-8). Наличие приближения |(а/®) для вероятностей Tj({a}/co) позволяет ввести также точечную оценку абсолютного экстремума, в качестве которой примем точку а* наивероятнейшего состояния природы, т. е. £ (а*/®) = max £(а/®). (1-Ю) Следующая теорема утверждает, что при достаточно малом с из (1.6.16) точка а* из (1.10) является так- же наивероятнейшей точкой абсолютного минимума функции ф, т. е. щ ({a*}/®) = max г) ({а}/®), (1.11) и указывает простой способ нахождения оценки а*, не требующий вычисления вероятностей £(а/®) для каждой точки а множества /. Теорема 1.1. Пусть параметр m из (1.6.16), _(1.6.17) удовлетворяет условию m> max гз г$—1 (1.12)
64 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. II и для некоторого t, 1 С t k, справедливы неравен- ства ад>Я(5)+—2- 8 °' S^=t. (1.13) Тогда при достаточно малом с из (1.6.16) наиве- роятнейшее состояние природы а* из (1.10) совпада- ет с наивероятнейшей точкой абсолютного минимума из (1.11) и равно ближайшему целому числу к вели- чине at из (1.6), т. е. а* = д(а* Н-у). (1-14) Доказательство. Из (1.6) и (1.12) следует, что величина а*, вычисленная по правилу (1.14), удовлетворяет неравенствам (1.15)): Тогда из (1.5), (1.13) следует, что максимальное по а значение h(a>, а) достигается в точке а* из (1.14) и, следовательно, в силу положительности вероятно- стей £(<%), эта точка удовлетворяет условию (1.10) при достаточно малом с. Далее, поскольку точка а*, определяемая выражением (1.14), не зависит от с, то из теорем 6.1, 6.2 первой главы и (1.10) следует справедливость (1.11), если с достаточно мало. ИИ Таким образом, для определения оценки экстрему- ма а* нет необходимости непосредственно решать ус- ловия (1.10) или (1.11). Достаточно вычислить номер I, которому соответствует максимальная величина R(t) = max{/?(s): Is^s^fc}, и затем округлитьзна- чение из (1.6) до ближайшего целого числа, т. е. до оценки а* из (1.14). Замечание. Условия теоремы 1.1 содержат тре- бование (1.12), предъявляемое к параметру tn, кото- рый мы условились оценивать по результатам испы- таний © из (1.1)—-(1.3). В связи с этим мы примем следующую схему оценки этого параметра,
§ I] ВЫБОР ИСПЫТАНИЙ И УСЛОВИЕ ОСТАНОВКИ 65 обеспечивающую выполнение (1.12): т = М = 0, М>0, М = шах гз~г8-1| s-1Г (1.16) где коэффициент г (предполагается, что г > 1) мо- жет быть либо заданным, либо в свою очередь также подлежать оценке. 3. Прогнозирование исходов испытаний. Пусть оче- редное (& + 1)-е испытание проводится в некоторой точке /, Л-i I G, 1 s fe. Оценим условную (по а) апостериорную (по coft) плотность gz(z/(oft, а) распределения вероятностей для исхода z = cpz этого испытания. По формуле Байеса эта плотность опреде- ляется как где J' и zr соответствуют объединению ш+1 = = {(/, причем условные частные плотности /а) и вычисляются так же, как в дока- зательстве леммы 1.1 (см. преобразования выражения (1.9)). Если дополнительно воспользуемся тождеством (a-Q2 ^(S) = 2Р2 2тса 2 ( т )’ упрощающим вычисления, то после алгебраических преобразований получим । ( (г - ц„ (П)а ] gi (г/а>ъ, а) = ----= ехр (— -—та,,,-- к (1.17) ® 6(/)У2л I 26 (О ) ' ' где дисперсия 62(Z) и математическое ожидание pa(Z) б Р. Г. Стронгин
66 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. II имеют вид 62 (/) = (cm)2 ~ >~1)> (1.18) % — *5—1 Ha(0 = H*(0-Va(/)1 „* /(г,-г,_1) + (г8_Л-г/,_0 г* \*) i i 3 s^l / /\ / 2т \.. ^(l) = [r=-i—X \ s LS-—1J (1.19) (1-20) 0, (tg —/)(а —i4_i), (ig —а)(/ —is_i), а is, а ig_i, (1.21) I < а < is- Рассмотрим некоторые свойства математического ожидания iia(l) значения <р( функции <р в точке I. На- зовем мажорантой р.+ (/) и минорантой p_(i) функции регрессии ц«(/) соответственно функции p,+ (Z) =. = max po(i) и p_(i) = minpa(i). (x^I aGl Лемма 1.2. Справедливы следующие утвержде- ния: 1) ц+(0 =ц*(0, O^l^n- (1.22) 2) |*-(/) = Н(/)={_^—(1.23) Vs rs—1/ 3) если i8-i <a<iSi 1 s k, то кривая ца(/), рассматриваемая как функция непрерывного парамет- ра Z, 0 I и, состоит из отрезков прямых, соеди- няющих точки (0, z0), ..zs-i), (ос, р, (ос)) , (ls? ^s) , • • •» (^, ^fc) >
ВЫБОР ИСПЫТАНИЙ И УСЛОВИЕ ОСТАНОВКИ 67 § п 4) если для любого s, 1 s k, справедливо h—i.-i > 2r2(r—I)-2, то На*(а*)<Ца*(/), /¥=а*. (1-26) где а* есть оценка экстремума из (1.14). Доказательство. Из определений мажоран- ты и миноранты и выражений (1.19) — (1.21) вытека- ет справедливость (1.22) и равенства р- (/) = рг (/) = р* (/) - (i, Vs ‘s—ij которое с помощью алгебраических преобразований может быть представлено в виде (1.23)—(1.25). Третье утверждение леммы также легко проверяется. Перейдем к доказательству последнего утверждения. Принятая оценка (1.16) параметра m обеспечива- ет справедливость неравенств (1.15), которые необхо- димо являются строгими, ибо (по предположению) it — i(-i>r(r—I)-1. Тогда из третьего утверждения настоящей леммы следует, что minpa»(/) = min{z0....zt-i, p-(a*), zt, ...,zk}. i<sa Поскольку,согласно (1.23), pa»(a*) = p"(a*), то для обоснования (1.26) остается показать, что р— (а*) < min za. 0<s<fe Предположим противное, т. е. пусть существует такое zh что р—(a*)^z;= min zs. (1-27) 0<«<А ♦ 0 Из (1.23) и определений точек a , a« и at следует откуда, учитывая (1.27) и (1.16), получаем 5»
68 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. п Подставим в левую часть последнего неравенства ее представление из (1.23) — (1.25) для а* из (1.6) и умножим обе части этого неравенства на (—4). В ре- зультатом имеем неравенство 2m (it — ii-i)— 2(zt+z'-i) ^—4г1+2т, из которого в силу (1.16) следует t 2?(i) < —4za+2m, (1.28) где из (1.7). Далее, поскольку производная от /?(/) по Zj-i отрицательна (при / = 0 следует рас- смотреть 7?(1) и Zi), то из (1.7), условия i,—ij-i> >2г2(г—1)-2и (1.28) вытекает оценка противоречащая неравенствам (1.13) из определения точки а*. Полученное противоречие доказывает невоз- можность неравенства (1.27). Щ На рис. 1.1 для иллюстрации изображены мажоран- та ц+(0 (верхняя кусочно линейная кривая) и мино- ранта ц-(0 (нижняя кусочно квадратичная кривая) как функции непрерывного параметра I, 0 I п. Чтобы получить наглядное представление о характе- ре изменения дисперсии б2(/) ожидаемого результата z = q>; в зависимости от точки I проведения испыта- ния, рассмотрим нормированную величину А2(/) — (ст)2 для которой, согласно (1.18), при is-i I i, спра- ведливо уравнение А2 (/)+(/- т. е. кривая Д (Z), пропорциональная стандарту б(/), если ее рассматривать как функцию непрерывного
§ i] выбор Испытаний и условие остановки 69 параметра I, состоит из положительных полуокружно- стей, пересекающих ось / в точках осуществленных испытаний is, 0 s k, и имеющих центры в средин- ных точках интервалов (Zs-i, /в). Эта кривая также нанесена на рис. 1.1. 4. Оптимальные решающие правила. Поскольку мы условились оценивать параметр т вероятностного описания по информации сщ, получаемой в результа- те испытаний, и,- следовательно, в общем случае на каждом шаге имеет место свое вероятностное описа- ние, то ограничимся рассмотрением одношагово-опти- мальных (гл. I, § 3, п. 5) байесовских (гл. I, § 4, п. 1) решающих правил. Для построения указанных решающих правил не- обходимо ввести некоторую функцию потерь Ьг(ср, со а), оценивающую эффективность приближения, получен- ного в результате k шагов. Мы рассмотрим два типа
ft) МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. и таких функций: Lk (ф, <»л) = о, min q>f = min zs, min q)?- < min zs, i&l (1-29) т. e. потери равны нулю, если значение функции в точ- ке абсолютного минимума уже вычислено, и положи- тельны (предполагается, что w > 0) в противном случае; k Мф,®к)= S*8, (1-30) 8=0 т. е. потери тем меньше, чем меньше значения функ- ции в точках испытаний. Пусть очередное (&+1)-е испытание осуществля- ется в точке 1^1. Тогда риск (т. е. математическое ожидание потерь) для функций из (1.29) и (1.30) со- ответственно определяется выражениями (Z) = w |1 _ 2 n(1.31) и k (0 “ Jll 2s + s=0 n где gi (z/<oft) = 2 gi (z/toft, a) £ (a/wft), и, согласно a=0 (1.17), можно переписать (1.32) как k п Wk+i(l) = 2г»+ 2 (1.33) s=0 a=0 Теперь определим байесовское решение Z*, мини- мизирующее риск, т. е. IFft+1(Z*) = min^fe+1(Z), zei для функций риска из (1.31) и (1.33). В первом слу- чае минимум риска, очевидно, достигается при Z* = а*, J ^gz(2/wft)dz, (1.32) — оо
§ 1] , ВЫБОР ИСПЫТАНИЙ И УСЛОВИЕ ОСТАНОВКИ 71 где а* из (1.11), т. е. следует проводить очередное испытание в наивероятнейшей точке абсолютного ми- нимума, которая при достаточно малом с совпадает с простой оценкой из (1.14). Рассмотрим второй случай. Из теоремы 1.1 и вы- ражений (1.4), (1.5) следует, что при достаточно ма- лом с вторая сумма в (1.33) определяется членом Ра* (ОД (а*А°Д где а * из (1.14), минимум которого, согласно утверждению (1.26) леммы 1.2, достигается при I = а*. Таким образом, в предположении малости с, точ- ка а* из (1.14) является оптимальным байесовским решением для функций потерь из (1.29) и (1.30). 5. Условие остановки. Если при оценке параметра т по схеме (1.16) используется коэффициент г > 2, то значение а* из (1.14) не совпадает с точками is, 0 s гС k, из тогда и только тогда, когда it — — it~i > 1, где / из (1.13). Поэтому при 1 (1.34) оценка экстремума а* из (1.14) необходимо совпада- ет либо с G-i, либо с it, т. е. значение функции ф в наивероятнейщей точке абсолютного минимума уже оценено в ходе предшествующих испытаний. В связи с этим неравенство (1.34) естественно принять в ка- честве условия остановки. Заметим, что это условие аналогично требованию (1.4.2), поскольку при справедливости (1.13) g(a*/(o) —► 1, если с—> 0. 6. Дискретный алгоритм. Выше мы рассмотрели условия, определяющие алгоритм минимизации функ- ции ф на множестве /. Этот алгоритм мы будем на- зывать дискретным алгоритмом глобального поиска (сокращенно ДАГП). Напомним, что согласно ДАГП первые два испытания осуществляются в точках i = 0 и i = п. Любое следующее (k + 1)-е испытание проводится в точке а * из (1.14), соответствующей текущей информации cofe, причем предварительно зна- чение параметра пг уточняется по схеме (1.16). В ка- честве оценки экстремума на шаге k можно принять
72 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. II I I либо точку а*, либо значение min zs и coot- ветствующую ему точкуПоиск заканчивается 1 при выполнении условия остановки (1.34). f 7. Рандомизация параметра. Принятая схема | (1.16) вычисления параметра tn содержит коэффици- j ент г, характеризующий соотношение между вычис- | ляемым математическим ожиданием т разностей ми- f нимизируемой функции и разностями уже вычислен- | ных значений этой функции, содержащихся в накоп- ленной к данному шагу информации со&. При этом, j поскольку указанный параметр т входит в выраже- ? ния для величин (1.4) — (1.7), то эти величины явля- < ются функциями коэффициента г, т. е. g(a/«>) = £г(а/со), R(s) = R(s,r), а* = а* (г), (1.35) J и, следовательно, для вычисления точки I а* —а* (г) (1.36) * очередного испытания по правилу (1.14) должна быть 1 задана некоторая оценка г° коэффициента г. | Простейший случай связан с предположением, что ! значение г известно, т. е. г° — г. Рассмотрим теперь ? более сложный случай, когда задано не само значе- / ние г, а некоторое множество оценок, одна из ко- • торых совпадает с г. Для простоты рассмотрения ог- раничимся двумя такими оценками и и г2, где ( 1 <П <г2< оо. (1.37) ? Таким образом, неизвестное значение г, определяю- f шее вероятностное описание и, в частности, распре- деление (1.35), принадлежит заданному множеству {гь г2}, и оценка г° также должна быть выбрана из этого множества. К выбору этой оценки можно подойти как к при- нятию решения в некоторой игре с природой, когда ' неизвестное состояние природы г и принимаемая оценка г° этого' состояния принадлежат одному и то- ? му же множеству (г1( г2). Чтобы воспользоваться та-
$ U выбор испытаний и условие остановки 73 ким игровым подходом, необходимо сделать еще не- которое предположение об эффективности выбора значения г° при состоянии г, которую обычно опи- сывают введением функции потерь р(г, г°). Введем такую функцию для рассматриваемой задачи. Если допустить, что значение г известно, то оче- редное испытание будет осуществлено в точке а* из (1.36), т. е. в наивероятнейшей точке экстремума, и результатом этого испытания будет значение <ра*. Однако выбор точки очередного испытания осущест- вляется не по значению г, а по принимаемой оценке г°, и, следовательно, испытание будет осуществлено в точке а°, вычисленной из (1.14) для г°, т. е. а°= = а* (г°), и результатом этого испытания будет значе- ние фа°. Математическое ожидание разности значе- ний фа» и фа»примем в качестве количественной меры потерь р(г, г°) от выбора оценки г° при состоянии г. Согласно (1.17) это математическое ожидание мож- но записать в виде р(г,г°)= 2 {Ца(а°) — Ра(а*)}|(а/<й), (1.38) а=0 где распределение В(а/ш) из (1.35), т. е. соответст- вует состоянию г, и р,а(а°), |ла(а*) из (1.19) — (1.21), причем значение иг в (1.21) также определяется коэф- фициентом г. Выражение (1.38) позволяет вычислить 2%2-мат- рицу потерь Оценки Состояния Г1 ГА Г1 0 р('1. f г) Г2 Р('2> rt) 0 описывающую задачу выбора оценки г° из множества (1.37) при наличии информации «>». Игра с такой матрицей может быть численно решена стандартными
74 ' ' МИНИМИЗАЦИЯ ОДНОМЕРНЫХ функций •’ ЦЛ. й методами теории игр (см., например, Н. Н. Воробь- ев [1], Ю. Б. Гермейер [1]). При этом либо мат- рица игры имеет седловую точку*) и тогда оптималь- ной оценкой г°, обеспечивающей минимакс потерь, является то из значений и, г2, которому соответству- ет столбец матрицы, содержащий седловую точку, либо матрица не имеет седловой точки и тогда сле- дует выбирать значение оценки г° с помощью случай- ного механизма, который с вероятностью С'39» имеет исход r°—ri и с вероятностью 1—р имеет ис- ход г°=г2. Поскольку оценку г° можно выбирать заново на каждом шаге процесса минимизации функции <р (при этом матрица потерь строится по информации со, соответствующей данному шагу), то использование случайного механизма приводит к тому, что сам ал- горитм оптимизации становится рандомизированным. Очередное испытание проводится в точке а*, которая является реализацией случайной величины с распре- делением вероятностей Р{а* = а*(Г1)} = р, Р{а* = а*(гг)} = 1—р, где р из (1.39). При этом достаточным условием ран- домизации, т. е. условием отсутствия седловой точки в матрице потерь, является, очевидно, требование р(п, г2) >0, p(r2, nJ > 0. (1.40) Следующая теорема указывает некоторые условия, обеспечивающие справедливость неравенств (1.40) и упрощающие вычисление вероятности р из (1.39). Теорема 1.2. Пусть при данном справедливо, что — l=^s<fe, (1-41). *) Седловой точкой матрицы называется элемент, являющий- ся минимальным в содержащей его строке матрицы и максималь- ным в содержащем его столбце матрицы.
§ И ВЫБОР ИСПЫТАНИЙ И УСЛОВИЕ ОСТАНОВКИ 75 и коэффициенты (1.37) порождают оценки экстремума гл ( * | 1 | гл I * I 1 «I = Е + у I, а2 = Е (atj + у из (1.14), где |ai—0С21 ><7, причем для номеров t\ и t2 условия (1.13) выполняются соответственно при гх и г2. Тогда при достаточно малом с, 0<с<С1, и доста- точно большом q 1 игра с потерями (1.38) имеет рандомизированное решение и вероятность р из (1.39) может быть аппроксимирована оценкой —Ц-—, h = I» -О _ I '1 + Г2 1 2 Р ~ di~^~ d2 —R (it, rt) . . 2d, + 2dt - R (t„ г,) - R (t2, r2) ’ /1 ‘2’ где dv = rvM(itv-itv^) — v=l,2. (1.42) Доказательство. Поскольку | он—«21 > 1, то при <7 >2r2 (r—I)"2 из утверждения (1.26) леммы 1.2 следует, что На1(аа)~“Иа1(а1)>0. (1.43) При принятых предположениях о выполнении усло- вий (1.13) lim gri (aj/co) = 1, с-0 т. е. при достаточно малом с потери р(гь г2) опреде- ляются разностью (1.43), не зависящей от с, откуда, в частности, следует справедливость первого нера- венства в (1.40).'Справедливость второго неравенства показывается аналогично. Далее, при указанных условиях можно получить простую оценку вероятности р, заменив р(гь г2) в (1.39) разностью (1.43) и выполнив аналогичную за- мену величины р(г2, п). Дополнительное упрощение достигается подстановкой величин ati и a ti вместо ai и a2 (отбрасывается операция округления до ближай- шего целого числа). Эта замена не вызывает сущест- венных погрешностей, ибо относительные разности
76 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. II На(а)-Рр(Р) I Q * ' —7—7—-7-7-7 , где а=аь р = а<р малы, если га га 1 вида значение q достаточно велико. Окончательное выражение для оценки р° получа- ется после вычисления разностей ца(р) — ца(а), цр(а) — —р,р(Р) при а = и р = aj2 из выражений (1.19) — —Нр(Р) при а = и (1.21). При этом Ра (Р) Ца (а) — ~2~ X (г^ — 1 — ^1, \ Г2/ I di + d2 — R (/2, ^)> ^2> il =7^ ^2> где d\ и d2 из (1.42). Аналогично вычисляется вто- рая разность. И Замечание. Наиболее существенным условием рассмотренной теоремы является требование малости параметра с. Предположенное различие оценок он и а2 определяется различием значений и г2 (если ми- нимизируемая функция отлична от константы, т. е. не все величины zs, 0 одинаковы). Но зада- ча выбора оценки г°(={гь г2} интересна именно тогда, когда Г1 и г2 заметно различны. Что касается требования (1.41), то оно легко удов- летворяется, если принять, что значение п (число уз- лов) существенно больше величины (Ь — а)/в, т. е. шаг сетки в отрезке [а, Ь], равный (Ь—a) In, меньше требуемой точности 8. При этом остановка процесса минимизации должна выполняться не по условию (1.34), а по условию (1.44) где t из (1.13). 8. Непрерывный случай. Вернемся к исходной за- даче минимизации функции ф(х), х <= [а, Ь], и пост- роим алгоритм численного решения этой задачи как предельный алгоритм, получающийся из дискретного при увеличении числа узлов сетки (0.1), т. е. при п—* оо. Этот переход удобно выполнить следующим образом.
§ И ВЫБОР ИСПЫТАНИЙ И УСЛОВИЕ ОСТАНОВКИ 77 Заменим в выражениях (1.7), (1.16) числа О s k, из соk соответствующими узлами , . fb — а\ xis — а + сетки (0.1), причем условимся для краткости обозна- чать узел xisчерез х,. При такой замене значения ве- личин R(s) из (1.7) не изменяются. Аналогичная за- мена в (1.6) дает выражение = а + (1.45) \ 14» / лл ыии причем точка ха* = а + а* в которой согласно дискретному алгоритму осуществляется очередное ис- пытание, является ближайшим узлом сетки (0.1) к точке xft+1 из (1.45). Отсюда следует, что при увели- чении п точка испытания ха»переходит в точкуxfe+1. В связи с этим выражение (1.45) примем за ре- шающее правило алгоритма минимизации в отрезке [а, Ь], определяющее точку xh+l очередного (k 4- 1)- го испытания. Что касается точек первых двух испы- таний, то они не изменяются, ибо при любом п им со- ответствуют узлы, совпадающие с концами отрез- ка [а, &]. Условие остановки может быть получено из нера- венства (1.44), которое следует переписать как х( — х(_! ^е. (1-46) Вычислительная схема построенного непрерывно- го алгоритма будет подробно описана и изучена вх следующем параграфе. Это изучение проводится вне' связи с вероятностным описанием, принятым при вы- воде дискретного алгоритма, хотя свойства непрерыв- ного метода обусловлены характером вероятностных предположений, использованных при выводе его ди- скретного прообраза, и мы в дальнейшем отметим эту обусловленность.
78 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИИ 1ГЛ. и § 2. Алгоритм глобального поиска Рассматриваемый ниже алгоритм предназначен для отыскания точек х* и значений ф* абсолютного минимума действительной функции ф(х) на отрезке [а, Ь] вещественной оси х, т. е. Ф* = ф (х*) =' min ф (х). (2.1) хе[а,Ь] Согласно представлениям, введенным в п. 1 § 3 гл. I, любой алгоритм, предназначенный для решения за- дачи (2.1), порождает последовательность точек х\ k = 0,1, ..., в которых вычисляются значения zk ми- нимизируемой функции, причем, поскольку в данной главе принято предположение пренебрежимой мало- сти погрешностей в вычислениях значений функции, то считается, что zk = ф(хч), k = 0, 1, .., Для формального описания конкретного алгорит- ма, в качестве которого мы рассмотрим непрерывный алгоритм, построенный в п. 8 § 1, необходимо задать функции (1.3.2) — (1.3.4), аргументом которых явля- ется множество пар (ок= {(х\ ?): (2.2) соответствующих первым k членам последовательно- сти {х*}, называемой последовательностью испытаний. 1. Вычислительная схема алгоритма. Сохраним за множеством (2.2) название поисковая информация, введенное при вероятностном рассмотрении, и будем называть испытание, проводимое при наличии инфор- мации <лц, испытанием на (&+1)-м шаге или просто (&+1)-м испытанием. Согласно непрерывному алгоритму первые два испытания осуществляются в точках х° = а, х1 = Ь. (2.3) Выбор точки х*4-1, k 1, очередного (fe-J-l)-ro ис- пытания определяется следующими правилами: ‘
§21 ' АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА 79 1) перенумеровать (нижним индексом) точки х1, О i k, из (2.2) в порядке возрастания значений координаты*}, т. е. (2.4) 2) оценить максимальное абсолютное значение от- носительной первой разности ПЛ I ^1 ““ —1 М = шах —----------— I ___1 (2-5) I xi *i—1 где z< = cp(xj) соответствуют перенумерованным зна- чениям величин z( из (2.2); 3) положить ' ( 1, м = о, /Oft. m = { (2.6) I rM, М > О, где г > 1 есть заданный коэффициент; 4) для каждого интервала (*<-1, Xjj, 1 i ^.k, вычислить величину R (i) = tn (xt — Xi—i) + — 2 (Z| + 2*—i). (2.7) называемую характеристикой этого интервала; 5) определить интервал (xt-i, xt), которому соот- ветствует максимальная характеристика R (f) = max R (i); (2.8) если максимальная характеристика соответствует не- скольким интервалам, то в качестве t выбирается ми- нимальное число, удовлетворяющее условию (2.8); *) Заметим, что, в отличие от нумерации по верхнему индек- су, отражающей порядок проведения испытаний, нумерация по нижнему индексу зависит от номера шага. При этом значение Х{ для i = i(k) и i — может соответствовать различным точкам последовательности .
80 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. п 6) положить K+l xt + xt-l 2 2m (2.9) Правила (2.4) — (2.9) описывают некоторую по- следовательность отображений xft+1 = О£(Х°, z°...........zk), fe=l,2.......(2.10) определяющих точки x't+1 £ {х°, ..х*} (2.11) и обладающих свойством инвариантности GTh (х°, •.., xk; z°,..., zft) = = GJ (x°...xft; az° -J- 0, ..., azft + 0), где a > 0 и 0 — вещественные числа, т. е. ограничен- ной функции <р(х) и функции а<р(х)4-0 сопоставляет- ся одна и та' же последовательность испытаний {xft}. Заметим, что из (2.3) и (2.11) следует справедливость строгих неравенств в (2.4), поскольку все точки по- следовательности {х4} являются попарно различными. Согласно (1.46) условие остановки в рассматри- ваемом алгоритме определяется правилом Х( —х(_!^е, (2.12) где t из (2.8), т. е. испытания прекращаются на k-м шаге, если длина интервала (х(-ь х(), содержащего точку xh+1, не превышает заданной точности е (пред- полагается, что е > 0). Таким образом, условие ос- тановки сопоставляет последовательности {х*}, поро- ждаемой правилами (2.3) — (2.9), кортеж хк= (х°, .... X*} из первых k 4- 1 членов этой последовательности, об- ладающий свойством min min — х’) 8,
) § 2] АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА 81 где Lk = {0 < k ; х' xft+I}, Нк— {0 / f k: xJ^xf,+,}) причем при любом v, 0 < v < k, пер- вые v членов этого кортежа таким свойством не об- , ладают. Этот кортеж мы будем называть усечением последовательности {xh} по условию остановки или усеченной последовательностью, а число k членов кор- тежа — длиной усеченной последовательности. Заме- . тим, что длина усеченной последовательности зави- сит как от минимизируемой функции <р(х), так и от точности в и коэффициента г. I В качестве оценки экстремума, соответствующей ‘ шагу k, примем значение ФА — min z1 (2.13) * и координату х* =arg min <р(х{). (2.14) Описанный алгоритм минимизации функций ф(х), хе [а, Ь], в дальнейшем условимся именовать алгоритмом глобального поиска (сокращенно АГП). Для иллюстрации функционирования АГП на рис. 2.1 приведена диаграмма минимизации некото- 1 рой функции ф(х), 0 х I, при коэффициенте г = 2 и точности 8 = 0,01. Точки проведения испы- .. > таний отмечены штрихами, ортогональными оси абс- . цисс, а номер шага, на котором проводилось испыта- ние, проставлен в кружке, связанном с соответствую- щим штрихом. Результаты других вычислительных экспериментов будут рассмотрены в § 5. Возможности алгоритма как численного метода для отыскания абсолютного минимума многоэкстре- ; мальных функций определяются свойствами поро- ждаемых им последовательностей испытаний. Изу- чению этих свойств посвящены все следующие пункты настоящего параграфа. , Замечание!. Доказательство многих утвер- ждений, рассматриваемых ниже, осуществляется пу- тем приведения к противоречию с условием (2.8), т. е. • 1 путем приведения к следствию, что очередное испы- 6 г. Стронгин
82 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. п тание должно производиться в интервале, характери- стика которого не является максимальной. Отметим еще одно обстоятельство. В дальнейшем рассмотрении неоднократно используется операция Рис. 2.1. деления на величину М из (2.5). При этом предпола- гается, что М >0, т. е. значения г* = <р(х‘), 0 i k, должны быть не все одинаковы, и мы не будем более этого оговаривать. Замечание 2. Вычислительная схема (2.4) — (2.9) описана в форме, удобной для дальнейшего тео- ретического исследования. Реализация этой схемы в виде программы для вычислительной машины может быть выполнена более экономно. Например, значе- ние М =з Mi из (2.5) может быть вычислено как Мк = max M . * г<-11 г I k~1’ ’ v _vA+i x xt—\ xl x где Mk-i есть значение, использованное на предшест- вующем шаге, и т. д.
§ 2] АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА 83 2. Условия сходимости. Лемма 2.1. Пусть точка х есть предельная точка "(точка накопления) последовательности {х&}, поро- ждаемой алгоритмом при минимизации ограниченной функции <р(х), хе [а, Ь], причем хфа и хфЬ. Тог- да последовательность {xft} содержит две подпоследо- вательности, одна из которых сходится к точке х слева, а другая — справа. Доказательство. Очередное испытание, про- водимое в точке xft+1, разбивает интервал (х(-ь х()на два интервала (x(_b xh+1) и (xh+l, х(), для которых в силу (2.9) и (2.5), (2.6) справедливо, что max{(xt — xft+‘), (xft+* — x«-i)}< где г > 1. Обозначим через t = t(k) номер интер- вала [х(-ь х(], содержащего точку х на /s-м шаге (k > 0). Из (2.15) и условия леммы (точка х являет- ся предельной) следует lim (xt — xt_i) = 0. fe-+oo Тогда, если х =/= х*, при любом значении k, т. е. точки испытаний не совпадают с предельной точкой, то в качестве подпоследовательностей, сходящихся к х слева и справа, можно соответственно взять последо- вательность точек х9 = Xf(g)_i левых и последова- тельность точек хр = х((Р) правых концов интервалов, содержащих точку х. Остается рассмотреть случай, когда на некотором шаге q испытание проводится в точке х9 = х и поэто- му при любом k> q существует такое j = /(/:), что Xj = х = х9. Допустим, что в этом случае не сущест- вует подпоследовательности, сходящейся к точке х слева. Тогда lim (xj — Xj— i) >0 и существует такой номер р, что при k>max(p, q) испытания не попадают в интервал (х}_1г х}) = 6*
84 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. п = (хр, х9) = (хр, х), которому соответствует характе- ристика /?(/(&)) из (2.7), равная R (/) = т (х - хр) + - т (х~ хр) — 2 (г₽ - ф (х)) — 4<р (х) = = т (х — х₽) (I — а)2 — 4ф (х), где а = 2 ,~ ^-.Аналогично для интервала (х, xj+i), т(х — хр) номер которого обозначим через < = /(£) + 1, имеем /?(/)= т(х(-х)(1-£)2-4ф(х), I Д', р --. т (xt — х) •Из (2.5), (2.6) следует, что (1—а)2>(1—г-1)2, (1 — Р)2 < (1 + г1)2 < 4 и поэтому #(/) + 4ф(х) (х—хр)(1 — г"1)2 R (() + 4<р (х) 4 (xt — х) откуда вытекает, что, начиная с некоторого шага, R(l(k)) >R(t(k)), (2.16) ибо х(—х—►() при k—>• оо (точка х является пре- дельной). Но неравенство (2.16) согласно условию (2.8) противоречит невозможности испытаний в ин- тервале (хр, х). Случай отсутствия сходимости справа к точке х рассматривается аналогично. Щ Теорема 2.1. Пусть точка х есть предельная точка последовательности {xft}, порождаемой АГП при минимизации липшицевой с константой К функ- ции <р(х), хе[й, &]. Тогда 1) если функция <р(х) имеет в интервале [а, Ь]. конечное число локальных экстремумов, то точка х локально оптимальна;
§ 2] АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА 85 2) если наряду с х существует другая предельная точка х последовательности {хк}, то <р(х)=ф(х); 3) zfe=(p(x*) ^ф(х) при любом fe 0; 4) если на некотором шаге для величины пг из ;ь(2.6) справедливо неравенство т>2К, (2.17) то любая точка абсолютного минимума х* из (2.1) является предельной точкой последовательности {х*} и. кроме того, любая предельная точка х этой после- довательности является точкой абсолютного миниму- ма функции ф(х). Доказательство. Пусть минимизируемая функция имеет конечное число локальных экстрему- мов. Тогда существует столь малое число б > 0, что в интервалах (х—б, х) и (х, х + б) функция ф(х) является строго монотонной (при х = b или х = а соответственно существует первый или второй из этих интервалов). Если допустить, что точка х не яв- ляется локально оптимальной, то для всех точек х, принадлежащих хотя бы одному из двух указанных интервалов, справедливо неравенство ф(х) < ф(х). Но выполнение этого неравенства, учитывая сущест- вование подпоследовательностей испытаний, сходя- щихся к точке х слева и справа (лемма 2.1), проти- воречит третьему утверждению настоящей теоремы. Допущение существования подпоследовательности испытаний, сходящейся к точке х такой, что ф(х) =/= =Л<р(х), также противоречит третьему утверждению теоремы. Покажем справедливость третьего утверждения. Допустим противное, т. е. на некотором шаге q 0 Получен результат zq = ф (х9) < ф(х). (2.18) Обозначим через / = j(k) нижний индекс, соответст- вующий точке х9 на шаге k. т. е. Zj=zq. и рассмот-
86 . . МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИИ 1ГЛ. И рим характеристику интервала (х,-1, х}), вычисляе- мую согласно (2.7)*). Если ввести обозначение «(*>-V-1) ТО Я(/) =\Zj — Zj-jKa+a"1) —2(^+2^) > > 2{max(Zj, zs-i) — min(zh z^)} — —2(zH-Zj-i)=— 4 min (zjt z^), поскольку, согласно (2.5), (2.6), a > 1. Из последне- го неравенства и предположения (2.18) следует, что R(i) > -4<р(х) + (ф(х)-г’). (2.19) Из ограниченности величины т (минимизируе- мая функция удовлетворяет условию Липшица) и леммы 2.1 вытекает справедливость выражения lim R (t (k)) = - 4<р (х), (2.20) / где через t=t(k) обозначен номер интервала (x(_i, х(), содержащего точку х на шаге k. Получен- ное выражение и (2.19) обеспечивают выполнение (2.16) для достаточно больших значений k. Таким образом, точка х не может быть предельной, если справедливо допущение (2.18). Докажем последнее утверждение теоремы. Пусть условие (2.17) выполнено на некотором шаге q. Тог- да, согласно (2.5), (2.6), оно будет выполнено и на любом последующем шаге k q. Обозначим через j = j(k) номер интервала, со- держащего точку х* из (2.1) на k-м шаге. Если точка х* не является предельной, то существует такой но- мер р > 0, что при любом k р xft+M[Xj_i, xj. (2.21) ) При q = 0 следует рассмотреть R (1).
§ 2j Алгоритм глобального поиска 87 Поскольку функция удовлетворяет условию Лип- шица (1.3.14), то для указанного интервала справед- ливо неравенство Zj+Zj_x_K{X—Xj-x) <2ф(х *), : 1(2.22) которое, учитывая (2.17), позволяет получить оценку для характеристики /?(/) из (2.7) Я(/(/г)) >-4<р(х*), (2.23) справедливую при любом 6>шах(р, q). С другой стороны, для любой предельной точки х справедливо (2.20), причем ф(х*) ф(х). Тогда из (2.20) и (2.23) также следует выполнение неравенства (2.16) при до- статочно больших значениях k, что противоречит до- пущению (2.21). Итак, точка х* абсолютного мини- мума функции ф(х) является предельной точкой по- следовательности {х'1} при выполнении условия (2.17), но тогда в силу второго утверждения теоремы всякая предельная точка х необходимо является точкой аб- солютного минимума. И Следствие. Если условие (2.17) выполнено, то множество предельных точек последовательности ис- пытаний совпадает с множеством точек абсолютного минимума функции. В частности, если х* есть единственная точка аб- солютного минимума, т. е. ф(х*) <ф(х) при х^=х*, то lim хй — х*. Замечание 1. Из доказанной теоремы вытекает, что предельными точками последовательностей испы- таний, порождаемых АГП, могут быть лишь локально или глобально оптимальные точки. Это существенно отличает рассматриваемый метод от алгоритмов, ос- нованных на вероятностной модели винеровского про- цесса (см., например, X. Кушнер [1]), которые по- рождают последовательности испытаний, всюду плот- ные в отрезке [а, й]. Замечание 2. Алгоритм может быть использо- ван для отыскания всех корней уравнения ф(х) = 0,
88 минимизация одномерных Функций . [гл. tt хе [а, Ь], путем минимизации невязки |ф(х)|. При этом каждый корень является точкой абсолютно- го минимума невязки. 3. Скорость сходимости. Скорость сходимости ха- рактеризует эффективность метода оптимизации, свя- зывая затраты вычислительных ресурсов, измеряемые обычно числом испытаний, с некоторой оценкой до- стигаемой точности определения минимума. В настоя- щем пункте в качестве такой меры эффективности мы рассмотрим плотность испытаний Ра» в подынтерва- лах [а, р] cz [а, Ь], которая представляет собой отно- шение числа точек Na» последовательности испытаний {хк}, принадлежащих интервалу [а, 0], к его дли- не, т. е. Ра - рЛ- (2 24< Следующая теорема дает верхнюю оценку плот- ности Ра» Для подынтервалов, не содержащих точек абсолютного минимума. Эффективность метода в ок- рестностях точек абсолютного минимума будет об- суждаться в § 3. Теорема 2.2. Пусть минимизируемая функция ф(х), хе [а, Ь], является липшицевой с констан- той К и ф(х)>ф(х*)ф-Д, хе[а, £]а=[а, Ь], где точка х* из (2.1) и 0 — а > 2Д/К > 0. Тогда PeP<g, (2.25) если величина m удовлетворяет неравенству m ^2К. Доказательство. Для любого интервала [Xi-ь х(], содержащегося в подынтервале [а, 0], справедливо, что z,-|-z(_r> 2ф(х*) 4-2Д, откуда, учитывая (2.7) и неравенство m 2К, полу- чаем Я(0 < — 4ф (х*) + f-|- m (xt — х^) — 4 Д|.
§ 2] АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА 89 С другой стороны, для интервала (Xj_i, Xj), содер- жащего точку х* на k-м шаге 1), выполняют- ся неравенства (2.22) и (2.23). Поэтому R(j) > R(i), если х(—х(_!<;16Д/5т, и, следовательно, последова- тельность {х1} не пересекается с интервалом (х,-!, х(), длина которого удовлетворяет указанному ус- ловию.’ Точки последовательности {х*} могут попа- дать лйшь в интервалы (xt-it х4) с [a, fl], для ко- торых справедливо обратное неравенство. Поэтому, согласно (2.15), расстояние между точками x{-i, х( из [а, при любом k I удовлетворяет условию х( — x(-i 4Д/5/П, и число Na(t точек последователь- ности {х11}, лежащих в интервале [а, £]: (2-26) Учитывая, что £ — а > 4Д//П, получаем из (2.24) и (2.26) утверждение теоремы (2.25). И Замечание. Если минимальное значение <р* из (2.1) липшицевой функции <р(х), хе [а, 6], оты- скивается с точностью 6 > 0 по методу перебора, то испытания осуществляются в каждом узле сетки, имеющей шаг ъ^2$1К, откуда следует, что плот- ность испытаний (обозначим ее через Рар) в любом подынтервале [а, £] из [а, Ь] удовлетворяет не- равенству (2.27) Поскольку при этом константа Липшица предпола- гается заданной, то, вместо использования оценки (2.6), можно принять в АГП, что пг — 2К. Тогда из (2.25) и (2.27) следует, что р ) р° а * оф I д I “аР- (2.28) Мы уже отмечали, что последовательности испы- таний, которые предложенный АГП сопоставляет функциям, отличным от константы, не являются всю- ду плотными, т. е. АРП является более экономным
90 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИИ ( [ГЛ. п методом, чем перебор. Неравенство (2.28) является некоторой количественной оценкой этой экономии при увеличении точности решения задачи (т. е. 6->0). В п. 5 настоящего параграфа мы рассмотрим значительно более сильные оценки, чем (2.28), ос- нованные на предположении линейности функции в подынтервале [а, р] а: [а, &]. 4. Условие остановки и усеченные последователь- ности. Условие остановки (2.12) сопоставляет по- следовательности {х*} ее усечение xk— {х°, ..., xk}, зависящее от точности е, коэффициента г и мини- мизируемой функции ф(х), причем из существования предельных точек последовательности {х*}и двухсто- ронней сходимости к этим точкам (лемма 2.1) сле- дует, что усечение необходимо существует для лю- бых е, г и <р. В этом пункте мы рассмотрим некоторые свойства усечений и соответствующих им оценок экстремума из (2.13), (2.14). Заметим, что если хк есть усе- чение последовательности испытаний по условию остановки, т. е. условие остановки выполняется на шаге k, то, согласно (2.8) и (2.12), существует ин- тервал (x(_b х(), для которого справедливы нера- венства R(t)>R(i), ls£i</; R(t)^R(i), (2.29) (2.30) — С e. Этот интервал условимся именовать интервалом ос- тановки. Точка xft+1 любой последовательности ис- пытаний, для которой хк является усечением, необ- ходимо принадлежит интервалу остановки (испыта- ние в этой точке не производится). Теорема 2.3. Пусть хк есть усечение по усло- вию остановки последовательности {xfc}, порождае- мой АГП при минимизации липшицевой с констан- той К функции ф(х), хе [а, &]. Тогда
Алгоритм глоЬаЛьного Поиска 91 1) если на шаге остановки выполняется нера- венство К (2a + 1) tn а ~ 1 (2.31) где . (х, — X. Л а = min J kJ > 1 i&J \ & / (2.32) Xi—x(-i>e}, (2.33) то для оценки (2.13), построенной по информации (2.2), соответствующей усечению, справедливо ф(х)>ф*, te(X|-i,X|], ieJ, т. е. точка х* из (2.1) абсолютного минимума не мо- жет принадлежать интервалу, длина которого пре- вышает заданную точность е; 2) еслиг^-У'аКУа— 1),где а из (2.32), (2.33), то min (Zj-i, z;) > ф*, i е J, т. е. оценка (2.13) минимального значения функции достигается на одном из концов интервала, длина которого не превышает точности е; 3) для любого положительного б существует столь большое значение коэффициента г, что точки усечения ж* образуют (е + б)-сеть в интервале [а, Ь]; 4) если г=го>1'а/(а—1), где а из (2.32), то для любого г из интервала {полоса нечувствитель- ности) _________________ /а/(а- 1)<г<л0 и данного а к из (2.2) условие остановки выполняется. Доказательство. Введем обозначения Д| = Xf Xj—i, б( = Zf Hi ~ ~2~ (^i 4* ^i—1) (2.34) и перепишем (2.7) как (2.35)
92 минимизация одномерных Функций (Гл. и Заметим также, что, согласно (2.5) и (2.6), 16» | МД, = г-1/пД(. (2.36) 1) Поскольку минимизируемая функция удовлет- воряет условию Липшица, то КД, Ф(х)>о;=цг------хе [Xf-i, Xi], (2.37) Поэтому, согласно (2.35) и (2.36), для интервалов (х,_ь х/) и (xj-ь Xj), удовлетворяющих условиям ₽=Г^7Ь1>1. R(i)>R(i), (2.38) xj xj-i справедливо неравенство О >£(«)-/?(/) >4(^-0,) + Н-'А{(Щ-2К)(^-1) -г~‘М}, . . - . КЬ} которое, учитывая, что min (Zj^, Zj)--мож- но переписать в виде О > 4 {min (Zj-i, zs) — uj + + Дд{т(Р — 1) — r-'M-2KM, откуда при r2M (0 — 1) — 2K[k — M > 0, (2.39); согласно (2.37), получаем <p(x)>min (zj-i, z,), хе[х,_ь х,], (2.40)" причем для справедливости (2.39) достаточно выпол- нения условия Если обозначить через / номер интервала оста- новки, то из (2.29) — (2.33) следует, что условия (2.38), (2.41) выполняются для i е J, если поло-
I § 2] АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА, жить j = i и р = а. Тогда из (2.40) и (2.13) сле- дует справедливость первого утверждения теоремы. 2) Пусть t есть номер интервала остановки. Тог- да, поскольку min zt) > <р*. цу = min (z^, zj) + -yl из (2.29), (2.30), (2.35) и (2.36) для любого jezJ получаем неравенство 0>₽(/)-7?(0> >тДу(1 — 7 + ^) —mA, + 4 {<р*~ min (?;_!, г,)}, из которого вытекает справедливость второго утверж- дения теоремы при а (г2 — 2г + 1) — г2 > 0. 3) Для доказательства третьего утверждения достаточно установить, что существует значение коэф- фициента г, при котором Л t = max (х, — Xi-t) е. + 8. (2.42) Представим величину А, из (2.42) в виде А, = 78 и воспользуемся неравенствами (2.29), (2.30) для ин- тервала остановки, которые, учитывая (2.35), (2.36), дают выражение f <5? 6? ) 0 >R (i)-R (у -1) + Ц- - > х ' i t ) ) где член в фигурных скобках может быть заменен нижней оценкой ^4Л4 (Ь — а) 4- -yj. В результа- те получаем неравенство для величины у при выводе которого использовалось следствие -|-р----7^, вытекающее из (2.15). Таким об- 1 разом, у->1 при Гг>оо.
94 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ (ГЛ. и 4) Согласно (2.35), (2.36) производная по г от разности /?(/)—R(t), где t есть номер интервала остановки, удовлетворяющий неравенствам (2.29), (2.30), и j е /, имеет нижнюю оценку вида A4At |а(1 - J-j-1] и, следовательно, указанная производная неотрица- тельна при г'^Уа/(а—1). Поэтому для любого зна- чения г из полосы нечувствительности, указанной в условиях теоремы, характеристики R (/), j <= Jне больше, чем характеристика R(t) некоторого интер- вала (x(-i, х(), длина которого не превышает 8, т. е. условия (2.29), (2.30) удовлетворяются для некото- рого t, которое может быть различным для различ- ных значений г из полосы нечувствительности. Щ Замечание. Отметим связь условия (2.31) и достаточного условия (2.17) сходимости метода из теоремы 2.1. При 8->0 для интервалов, не содержа- щих абсолютного минимума, имеет место —х,-1)/е->оо, так как эти интервалы не содержат предельных точек последовательности испытаний. При этом (2.31) пе- реходит в (2.17). 5. Строение последовательности в интервалах ли- нейности функции. Пусть в интервале [хр, х’] между двумя точками последовательности. {х*}, порождае- мой алгоритмом глобального поиска, минимизируе- мая функция <р(х) является линейной, т. е. Ф (х) = А (х — хр) + ф (»”), х е [хр, х’], и пусть при & ^max(p, q) величина т из (2.5), (2.6) не изменяется (это неизменное значение величины т обозначим через т«,). Тогда расположение любого числа s > 1 точек х*1» ..., xks,kx k„ после- довательности {х*}, принадлежащих интервалу [хр, х’], где {xft*, .... xfts} = {х°, .... х*8} (1 [хр, xffj,
§ 2] АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА . 95 совпадает с расположением первых s испытаний при минимизации указанной линейной функции в интер- вале [хр, х’] с помощью АГП при значении коэффи- циента г, равном г = пгт/А. В связи с этим представляет интерес изучение расположения точек последовательностей испытаний {х*}, порождаемых алгоритмом для линейных функ- ций при различных значениях коэффициента г, при- чем, поскольку любая линейная функция является однородной, то, учитывая свойство инвариантности последовательностей испытаний (см. п. 1 настоящего параграфа), достаточно рассмотреть три случая: <р(х)=0, хе [0,1], (2.43) ф(х)=х, хе [0,1], (2.44) ' ф(х)= — х, хе [—1,0], где два последних случая симметричны (за исклю- чением ситуаций, когда максимальное значение ха- рактеристики из (2.8) одновременно достигается в нескольких интервалах). Для описания взаимного расположения точек по- следовательности испытаний введем понятие тополо- гии последовательности. Определение 2.1. Пусть {t(k)} есть соответ- ствующая {xfc} последовательность номеров интер- валов, удовлетворяющих условиям (2.8), (2.9), т. е. содержащих точку хм очередного испытания: xfc+l е e(x(-i, xt), Тогда последовательность це- лых чисел ть та, . • •, где tj = 1, т* = t(k — 1), k > 1, соответствующую последовательности {х*}, будем называть топологией последовательности {хк} или топологией поиска, а ее первые k членов, т. е. ть ... тд, назовем k-топологией. Таким образом, топо- логия есть последовательность номеров интервалов, в которых на соответствующих шагах поиска выпол- няются испытания. Введенное понятие позволяет установить класси- фикацию последовательностей испытаний по их то- пологиям, и основной целью рассмотрения, проводи- мого в настоящем пункте, является выяснение тех
96 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИИ _ 1ГЛ. и критических значений коэффициента г, при которых происходит переход от одних топологий к другим. Кроме того, мы получим некоторые оценки плотности испытаний в интервалах линейности функции, не со- держащих точек абсолютного минимума. Эти оценки значительно сильнее, чем неравенства (2.28), вывод которых основан на более слабых предположениях. Теорема 2.4. Для всех функций вида ф(х) ss э const существует единственная топология Т1, т2, ...= 1, (1), (1, 3), (1, 3, 5, 7), ... .... (1, 3, .... 2”—1). (2.45) представляющая собой последовательность групп по 2"-1 возрастающих нечетных чисел, начиная с 1 и кончая 2" — 1, где п = 1, 2, ..., причем самой первой группе (n = 1) предшествует 1. Если минимизируемая функция является линейно возрастающей, то 1) т1( т2, ... = 1, 1, ... при 1<г Oi*0 = 2 + J/5, т. е. каждое очередное испытание осуществляется в первом интервале; 2) при r\N}<r^r\N-l\ N>3, где /^*=(1 — 2%VV))~1 и есть действительный корень уравнения V + %2 — 3X4-1 = 0, (2.46) топология поиска состоит из (N—1) -топологии, со- держащей лишь единицы, сопровождаемой последо- вательностью пар (1, N), т. е. Т1= 1, ..., TN-1=1, (Tjv=1, Tjv+1 = /V), ... . . ., (Tjv+2z = 1, Tjv+2i+l = N), ... ; 3) при r(!3) =3 + 2 ]/5< r где = = (1 — 2A,2°O>)—1 и X^00’—действительный корень урав- нения X3-X2-2X4-1 =0, (2-47)
АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА 97 § 2] топология состоит из двух единиц, сопровождаемых последовательностью пар (1, 3), т. е. Т1, т2, ... = 1, 1, (1, 3), (1. 3), ... Доказательство. Если минимизируемая функция является константой, то, согласно (2.43) и (2.5)-(2.9), xh+1 = х* + где номер t = t(k) определяется условиями Xt—Xt-i > Х} — Xj-i, '! xt — x(-i > Xj —Xj-i, Следовательно, каждое очередное испытание осу- ществляется в серединной точке самого длинного ин- тервала, левее которого нет интервалов такой же длины, откуда вытекает справедливость утвержде- ния (2.45). Теперь рассмотрим случай (2.44), т. е. минимизи- руемая функция является линейно возрастающей. В этом случае информация (2.2) состоит из пар ви- да (хй xt), т. е. ©А= {(хй х<):0С i^k}, причем, согласно (2.3) и (2.4), О = х0 < Xi < .. .'< Xfe= 1. (2.48) Поэтому выражения (2.7) и (2.9) могут быть соот- ветственно переписаны в виде R (0 = (xt -г xz_x) - 4х/_1, (2.49) х‘+1 = Хх,+ (1—Х)х,_ь (2.50) где использовано обозначение 7 Р. Г. Стронгин
98 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. п Обозначим точки х( из (2.48) и характеристики R(i) из (2.49),. соответствующие информации ак, через Xi — x((k) и R(i) — Rk(i). Покажем, что X1(6)=^-i, (2.52) 4Xn+1 (2.53) если ft-топология последовательности {х*} содержит N членов (N fe), равных 1 (т. е. в течение k шагов испытания N раз производились в первом интервале). Справедливость (2.52) немедленно следует из (2.50), если учесть, что, согласно (2.48), х0(й) = 0 и при k= 1 имеет место N — 1, т. е. X](l) = 1. Выраже- ние (2.53) вытекает из (2.49) после подстановки Xi из (2.52) и х0 = 0. Перейдем к доказательству первого утверждения теоремы. Поскольку при любом г > 1 величина X из (2.51) принадлежит интервалу 0<Х<1/2, то lim7?^(l) — 0, причем характеристика /?»(1) являет- А ->оо ся положительной для всех значений k~^\. Поэто- му, согласно условию (2.8), интервал (xk_l(k), Xk(k)) не может содержать точек последовательности {хк}, если Rk(k) 0. Из определения 2.1 и условия нумерации (2.48) следует, что ti = 1 и тг = 1, т.’ е. 2-топология при любом г > 1 имеет вид 1,1. Поэтому (xt-ь Xfe) = = (%, 1) при k — 2, и условие неположительности ха- рактеристики этого интервала после подстановки зна- чений Xfe-i =% и Хь = 1 в (2.49) может быть записано в виде неравенства X2 —ЗХ + 1>0, которое удовлетворяется при 0<Х<М“) = ^=^, что, согласно (2.51), эквивалентно неравенству 1 <1 < г ^г(оо) из первого утверждения теоремы. Итак, 3-топология при г гjoo) состоит из единиц,
§ 2] АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА 99 Пусть fe-топология (/г^З) состоит из единиц. Тогда из (2.52) вытекает, что {(0, 0), (X*-1, Xfe-1), (X, X), (1, 1)}, (2.54) откуда следует, что характеристики R(i) из (2.49) могут быть выражены через R(k) как Rk(i) Поэтому' Rk(i) <. Rk(k) при 1 < I < k и, следователь- но, (^4-1)-й член топологии также равен единице, если г^г\ . Докажем второе утверждение. Чтобы при .V-то- пологии, состоящей из единиц, (V+l)-e испытание было проведено в интервале (Хх-ь xN) = (X, 1), не- обходимо и достаточно выполнения неравенства /?д-(1) < Rn(N), которое эквивалентно требованию г>г(Л где r[N) соответствует единственному дей- ствительному корню XiW) уравнения (2.46). При этом, поскольку гiN) < r\N~11 (заметим, что значения г(2) не существует), то при V-топология, со- стоящая из N единиц, не может реализоваться. По- этому для получения (V + 1)-топологии вида Xi = 1, ..., Т№ 1, tn+i = N (2.55) необходимо и достаточно выполнения условий '(iJV><r<r(i'v-1), где N > 3. Согласно (2.50) испытание, попадающее в ин- тервал (X, 1), делит его на два подынтервала [X, (2 — Х)Х] и [Х(2 — X), 1]. Поскольку значения г)2) не существует, то интервал (X, 1) будет содержать не более одного испытания, если характеристика подынтервала [X, (2 — Х)Х] будет неположительной, для чего достаточно, чтобы г^.г^\ где соот- ветствует единственному действительному корню Х^* уравнения (2.47). При этом из ri3) = 3 4-2J/3 и 4°°’ > 9 следует, что для любого N > 3 неравенства (2.56) 7*
100 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. II являются непротиворечивыми и при N = 3 переходят в неравенства г< г (напомним, что г(2) не существует), указанные в формулировке третьего утверждения теоремы. Таким образом, для значений коэффициента г из интервала (2.56) (N 4-1) -топология совпадает с (2.55), и интервалы (X, (2 — Х)Х), (Х(2— X), 1) не содержат точек последовательности {хА}, ибо харак- теристики этих интервалов неположительны. Исклю- чим эти два интервала из дальнейшего рассмотрения и соответственно исключим пары (Х(2— X), Х(2 — X)) и (1,1) из множества сок+ь В оставшейся части [О, X] области определения содержатся точки W—1 ис- пытаний, которым соответствует (N—1)-топология, состоящая из единиц. Заменим переменную х на хХ-1 (такая замена не изменяет топологию, ибо линейная функция является однородной и последовательности, порождаемые ал- горитмом, обладают инвариантностью при умноже- нии минимизируемой функции на положительную кон- станту). Тогда информация со, соответствующая ос- тавшимся точкам испытаний (в новых координа- тах) имеет вид (2.54), если положить k = N—1. Поэтому при г из (2.56) очередные два испытания будут соответственно проведены в интервале (О, Х*-2) и в интервале (X, 1) (в новых координатах), после чего интервал (X, 1), соответствующий интер- валу (X2, X) в исходных координатах,' также может быть исключен из дальнейшего рассмотрения и т. д. Н Замечание. Мы рассмотрели случай линейно возрастающей функции. Рассмотрение линейно убы- вающей функции проводится аналогично. При этом топология последовательности испытаний соответ- ственно для первого, второго и третьего условий рас- смотренной теоремы имеет вид ть т2, ... = 1, 1, 2, 3, 4, 5, 6, 7. Ti, т2, ...= 1, 1, 2, 3.JV-1, (N, 1), (/V-f-2, 3), ... .... (N+21, 2Z+1).... ' Ti, Т2, ... = 1, 1, (2, 1), (4, 3), (6, 5), (8, 7), ...
$ 2J Алгоритм глобального Поиска 101 Таким образом, теорема 2.4 описывает разбиение интервала (1, гг0*]значений коэффициента г на счет- ное число областей, каждой из которых соответствует своя топология последовательности точек испытаний при минимизации линейных функций, причем топо- логии для возрастающих и убывающих функций яв- ляются различными и не совпадают с топологией при минимизации константы (последняя топология яв- ляется единственной для всех значений коэффи- циента г). Первые восемь значений (с точностью до трех цифр после запятой) величины приведены для иллюстрации в следующей таблице: N 3 4 5 6 7 8 9 10 5,828 4,675 4,378 4,287 4,255 4,243 4,238 4,237 При этом для любого значения N > 10 справед- лива нижняя оценка 4,236. Воспользуемся полученными результатами дЛя вывода оценок числа испытаний и плотности испы- таний в подынтервале области определения, не со- держащем точек абсолютного минимума функции, которая является линейной и отличной от константы в этом подынтервале. Следствие. Пусть хр, хч есть точки последова- тельности {xfe}, порождаемой алгоритмом при мини- мизации липшицевой с константой К функции ф(х), хе[а, Ь], которая является линейной в интервале [а, 0] = [хр, х’], ф(х)=А(х— а)+<р(а), хе [а, 0], (2.57) причем пнп{ф(а), ф(0)} = ф(х*) + Д > ф(х*), (2.58) где х* есть точка абсолютного минимума из (2.1), « пусть при max (р, q) величина tn из (2.6) явля-
102 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. П ется постоянной и удовлетворяет неравенству (2.17). Тогда для числа 7VaP точек последовательности содержащихся в подынтервале [<х, £], справедлива оценка ^p<dL2ln{'1V^}’ <2-59) где ц = 1, если /п/|А| ^4, и ц = 2, если /п/|А| 9. Доказательство. Предположим для опреде- ленности, что коэффициент А в (2.57) является поло- жительным. Тогда между функцией Ш = У, У<^ [0, 1], из (2.44) и функцией (2.57) существует следующее соответствие: <р(х) = А(Р — а)ф(^=^ + <р(а), х = (₽-а)«/ + а, причем, согласно (2.58), <р(а) =<р(х*)+Д. (2.60) При этом из (2.5) — (2.7) следует, что характеристи- ки Rv(i) интервалов (у1—1,у{) из первой задачи и ха- рактеристики Rx(i) соответствующих интервалов (х.-ь из второй задачи связаны соотношением R*(i) = А(р — a)Ry(i) —4cp(a). (2.61) Обозначим через j = j(k), где &>»max(/?, q), номер интервала (х^_1, xs) — (а, х,), левым концом которого является точка a = хр, и примем, что W—1 есть число точек последовательности {х"}, удовлетво- ряющих условию xfte(xp, x/(k-i)C=[a, р]. (2.62) Поскольку условие (2.17) предполагается выполнен- ным и интервал [а, р] не содержит точек абсолютного минимума функции ф(х), то из теоремы2.1 следует, что число N—1 является конечным. Поэтому су-
§ 2] АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА ЮЗ шествует столь большое s>max(p, q), что при лю- бом k s интервал (хн1, х;) не содержит точек после- довательности {х*}. Так как этот интервал (см. (2.62)) образовался в результате последовательного попадания N— 1 испытаний в левый (первый) интервал подынтервала [а, £], то, согласно (2.53), (2.60) и (2.61), его характеристика имеет вид Я(/) = Л(₽-а)^-4(ф(х*) + Д), (2.63) где X из (2.51) при г = тА~'. Теперь обозначим через t — номер интервала (Xi-i, х(), содержащего точку х*. Для характеристи- ки R(t) этого интервала справедливы выражение (2.20) и оценка (2.23) из теоремы 2.1. Поэтому, со- гласно (2.8), характеристика /?(/) интервала (xs-i, Xj), не содержащего точек последовательности {xft}, должна удовлетворять неравенству /?(/) ^-4ф(х*), которое, учитывая (2.63), определение величины X и г = тЛ-1, можно привести к виду |П /п(Р-а)Г " + 1 < 1 1пТ- J • (2.64) Из теоремы 2.4 следует, что число Na( точек по- следовательности {хй}, принадлежащих . интервалу [а, р], совпадает с (V +1, если г = тА~1 2 -j- }5, и Мац 2(iV1), если < Г2°\ Отсюда, учитывая неравенства (2.64) и X < 1/2, получаем утверждение теоремы (2.59). BR Замечание. Если при заданном значении кон- станты Липшица К минимизация функции ф(х), хе [а, Ь], выполняется по методу перебора с точ- ностью 6 по значению функции (см. замечание к тео- реме 2.2), то число Na$ узлов соответствующей сет- ки, принадлежащих интервалу [а, р], удовлетворяет неравенству
104 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИИ [ГЛ п Тогда из (2.59), положив т = 2К, получаем оценку < ПГ2 {(“д') которая сильнее неравенства (2.28). Следующая теорема обобщает результаты теоре- мы 2.4 на один класс кусочно линейных задач. Теорема 2.5. Пусть функция <р (х) определена при хе [0, 2Р], где р 1 есть целое число, и ф(х) = |х—2п+1|, хе [2(n—1), 2п], (2.65) 1 п 2₽-1, т. е. функция имеет 2”~t точек абсолют- ного минимума с нечетными значениями координат: 1, 3, 5, .... 2Р — 1. Тогда I) критические значения коэффициента г, разби- вающие пространство (г’^’.оо) на области одинаковых топологий последовательностей испытаний, совпада- ют с критическими значениями г для линейных функ- ций (не. констант); 2) при р =• 1 любой точке отрезка соот- ветствует одна и та же топология, а при р > 1 оди- наковые топологии соответствуют областям отрезка (l,/”’]- границами которых являются числа 1 < 2 = Г 1эо< ... < г 12 < г 11 = 1 +1^2 < Г1°°\ где числа riN определяются согласно (2.51) через дей- ствительные корни Хи» уравнения 2%w+1 —4Х+1 =0. (2.66) Доказательство. Из вида функции (2.65) и описания алгоритма (2.5) — (2.9) следует, что после первых 2Р-1 + 2 испытаний ®2₽-1+1 ={(0,1), (1,0), (2, 1), (4, 1), (6,1).(2₽, 1)}. (2.67) Поскольку результатами дальнейших испытаний в интервале.(0, 1) будут значения убывающей линей- ной функции 1—х, а в интервале (1, 2)—значения
MJ Алгоритм гловАльнбгб Поиска 105 возрастающей линейной функции х—1, то при р= 1 критические значения параметра г, при которых про* исходит изменение топологий, будут совпадать с кри- тическими значениями для линейных функций. Заметим, что в интервале (0, 2) на любом шаге существует подынтервал с положительной характери- стикой (например, подынтервал, левым концом кото- рого является точка I, — см. оценку характеристики первого интервала при минимизации функций вида (2.44), данную в доказательстве теоремы 2.4). Поэто- му при р > 1 и г 2 точки последовательности {xft} не принадлежат интервалам (2/, 2/4-2), 1 i < 2P-1, ибо этим интервалам соответствуют неположитель- ные характеристики, равные 2г — 4. И поскольку г^2<г(100>, то области (1, 2] значений коэффициента г соответствует единственная топология. Далее, согласно (2.67), /?(1) =/?(2) =г + г-’-2 и, следовательно, при г > 1 +1/2 характеристики ин- тервалов (2/, 2/4-2), 1 / < 2Р-1, будут больше, чем /?(1) и Я (2). Поэтому после 2Р 4-1 испытаний <ояР = {(о, 1),(1,0),(гйм^оГЮ), ... ..., (2Р -2,1), (2Р - 1,0), (2Р, 1)} и результатами дальнейших испытаний в любом подытервале (2i — 1, 2/), 1 2Р-1, будут значе- ния линейно возрастающих функций х — 2/4-1, а в подынтервалах (21, 2/4-1), 0 ^ / < 2Р-1,— значе- ния линейно убывающих функций 2/4^1— х. По- скольку 1 + УЪ<г(Г\ то области (1 4-)/2, г?0’] зна* чений коэффициента г соответствует (при данном р>1) единственная топология, а критические зна- чения в интервале оо) совпадают с критически- ми значениями для линейных функций. Остается рассмотреть интервал 2 < г < 1 4- 1'2 при р > 1. При этом, как следует из (2.53), после
I об МИНИМИЗАЦИЯ ОДНОМЁРНЫХ ФУНКЦИЙ (ГЛ. Н осуществления 2jV—1 испытаний в интервале (0, 2) максимальная характеристика (она соответствует двум подынтервалам, общей граничной точкой кото- рых является точка х — 1 глобального минимума) равна 42Л+1(1—2Х)-1. Поэтому для того, чтобы пер- вое испытание, проведенное в интервале (2, 4), имело номер 2Р-1 + 2Af + 1, необходимо и достаточно выпол- нения условий 4?Л+1<2г 4< 1 — 2Х Г 1 - 2V которые, учитывая (2.51), можно переписать как * ^1, W + 1 < % где Хиг есть действительный корень уравнения (2.66). Н Замечание. Топологии для функций (2.65) мо- гут быть построены на основе топологий, соответст- вующих линейным функциям при том же значении параметра г, с учетом критических значений riN. Рассмотрим два примера. Пример 1. Пусть ф(х) = — 11, хе [0, 2], (2.68) и Тогда, согласно теоремам 2.4 и 2.5, топология по- следовательности испытаний состоит из двух единиц, сопровожда- емых последовательностью пар чисел вида (k, k + 2), где k = = 1, 2, . . .., т. е. Ть т2,...= 1, 1, (1,3), (2,4), (3,5), (4.6),..., (2.69) что соответствует сходимости испытаний (с двух сторон) к точке минимума х = 1. При топология (для той же функции (2.68)) состоит из 4-топологии 1,1,1,3, сопровождаемой последователь- ностью четверок чисел вида (2 k, 2k + 2, 2k — 1, 2k + 5), где k == 1, 2,..., т. e. 4 Ti, т2,...,= 1, 1, 1,3, (2, 4, 1, 7), (4, 6, 3, 9),.., (2.70) Пример 2. Пусть p = 2 и 1 + 1^2 < г < r(1oo). Тогда Ti, t2,... =1, 1, 1, 3, (1, 3, 5, 7), (2, 4, 8, 10),..., (2.71)
§ 2] АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА Ю7 т. е. топология состоит из 4-топологии 1,1, 1,3, сопровождаемой последовательностью четверок чисел вида (k, k + 2, 3k -}- 2, 3k + 4- 4), где k = 1,2,... При этом последовательность точек испыта- ний можно разбить на две подпоследовательности, одна из кото- рых сходится (с двух сторон) к точке х = 1 абсолютного мини- мума, а вторая — к точке х = 3 второго абсолютного минимума (также с двух сторон). 6. Устойчивость при вариациях задачи. При вы- воде алгоритма глобального поиска из вероятностной постановки и при дальнейшем изучении его (вне свя- зи с исходной вероятностной постановкой) мы предпо- лагали, что результаты испытаний совпадают со значениями минимизируемой функции ф(х) в точках испытаний xfe,T. е. zk=q)(xk), k = 0, 1, ... Однако реальный вычислительный процесс неизбежно сопро- вождается погрешностями. Поэтому для практической реализации численного метода важно оценить степень устойчивости получаемого приближения по отношению к возможным погрешностям в вычислениях значений функции *). Заметим, что минимизация функции ф(х), хе е [а, Ь], при наличии ограниченных погрешностей может рассматриваться как минимизация некоторой другой (точно вычисляемой) функции ф(х), хе [а, Ь], отличающейся от ф(х) на (в общем случае негладкую или даже разрывную) ограниченную вариацию, т. е. |ф(х) — ф(х) | б, хе [а, Ь], (2.72) причем приближения ф* и х* из (2.13) и (2.14), полученные для функции ф(х), принимаются за оцен- ки экстремума функции ф(х). Тогда устойчивость по отношению к ограниченным погрешностям может быть оценена, например, степенью близости прибли- жения ф* и искомого минимального значения ф(х*) *) Исследование устойчивости численных методов составляет важную главу не только в теории оптимизации (см., например, А. Н. Тихонов [1]), но и в других разделах вычислительной математики (см., например, А. А. Самарский и А. В. Гулин [1]). Однако в настоят >м пункте будут рассмотрены лишь неко- торые оценки, непосредственно относящиеся к введенному алго- ритму минимизации многоэкстремальных функций.
108 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. II из (2.1). Следующая теорема содержит некоторые оценки такого рода. Теорема 2.6. Пусть хк= {х°, ..xk} есть усече- ние (по точности е) последовательности {х*}, порож- даемой алгоритмом при минимизации функции ф(х), хе [а, Ь]9 удовлетворяющей неравенству (2.72), где ф(х) есть липшицева функция (с константой К). Тогда z ~ Itf - <Р(**)1<Ф + 6. а>1,‘ (2.73) если на шаге остановки для величины m из (2.5), (2.6) справедливо неравенство тп>л(14- + Р>), (2.74) где (2-75> Доказательство. Из условия Липшица, (2.13) и (2.72) следуют неравенства / кдл . min I р;--у2) — 6 < q> (х*) < + 6, (2.76) в которых использованы обозначения (2.34) при Zt = ф(х(), 0 i k. Обозначим через t номер интервала остановки. Тогда из (2.29), (2.35) и (2.36) следует неравенство 0 > R (i) - R (t) > m {Д( - Д( (1 + г-2)} - 4 (ц, - р(), согласно которому КД. КД. Нг 2 2 ’ если m (m — 2К) (А, — А() — А(ЛГ2 > 0. Поскольку Рг> 1 i k, то , ь «Ке „ КД( 'l’. - > (2.77) (2-78) (2.79)
§ 21 АЛГОРИТМ ГЛОБАЛЬНОГО ПОИСКА 109 если Д< ае, где а > 1 (из условий теоремы). При Д< > осе неравенство (2.79) следует из (2.77) и (2.30), если выполняется условие (2.80) достаточное для справедливости (2.78). Из (2.76) и (2.79) вытекает оценка (2.73), и остается показать, что условия (2.74), (2.75) обеспечивают выполнение неравенства (2.80). Согласно (2.15) Аг ^;-|-(1 — г~*), 1 i k. По- этому из (2.5), (2.72) и условия Липшица следует оценка М , 4rfi К Ke (г - 1)’ подстановка которой в (2.80) дает (2.74), (2.75). HI Теорема 2.7. Пусть {хк} и {yh} есть последова- тельности испытаний, порождаемые алгоритмом со- ответственно при минимизации непрерывной функции ф(х), хе[а , 6], и при минимизации функции ф(г/) = <p(t/) +SA(z/), у^[а, 6], отличающейся от ср на ограниченную вариацию. Тогда для любого за- данного k 1 существует такое положительное число б*, что при 0^ |б| <6fe k-топологии последовательностей {хк} и {ук} совпа- дают, если при минимизации ф (х) уравнение (2.8) для каждого v, 1 v k, имеет единственное целое ре- шение t — соответствующее информации (т. е. на каждом из первых k шагов существует един- ственый интервал, имеющий максимальную харак- теристику). Доказательство. Для совпадения 6-топологий достаточно, чтобы \[ту1 = х1, 0<i^6. (2.81) 6-»0 Из условий (2.3) следует, что (2.81) необходимо вы- полняется при,/= 0 и 1=1. Допустим, что (.2.81)
11G МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. II выполняется для любого i, 0 i v < k. Покажем, что в этом случае (2.81) справедливо также и при i = v 1. Согласно (2.9) xv+1 <= (х(_ь х(), (2.82) где i = t(y) есть решение уравнения (2.8), причем по условию теоремы это решение является единствен- ным, т. е. (2.83) Характеристики R (t) из (2.5) — (2.7) непрерывны по Xj, Zi. Кроме того, из допущения справедливости (2.81) при 0 i v следует, что limx|?(t/i) = 2’ = ф(х*), O^t^v, 6-»0 ибо функция <р(г/) непрерывна и функция Д(у) огра- ничена. Поэтому из строгих неравенств (2.83) выте- кает, что при достаточно малом значении |6| i/v+1e (z/i-i, у<), (2.84)' где t=t(v) из (2.83). Теперь из (2.82), (2.84)' и не- прерывности (2.5), (2.9) по xit Zi, 0 i у, следует справедливость (2.81) при 1 = ^+1. И Замечание. Подчеркнем, что оценка (2.73) точности получаемого приближения из теоремы 2.6 и устойчивость k-топологий, рассмотренная в теореме 2.7, предполагают лишь малость вариации минимизи- руемой функции (например, малость погрешностей, вызывающих вариацию задачи) и не требуют глад- кости или непрерывности этой вариацйи. Таким обра- зом, такая характеристика локального поведения функции, как гладкость, играющая важную роль в теории методов вычисления локально оптимальных точек, не является существенной при минимизации многоэкстремальных функций с помощью предложен- ного алгоритма глобального поиска. Для иллюстрации отметим, что, например, оценка (2.59) для чцсла испытаний з подынтервале [а, £] из
§ з] Ускорение сходимости . til « (2.57) остается справедливой и в случае, когда в этом подынтервале минимизируемая функция отличается от линейной на достаточно малую (в остальном про- извольную) вариацию. § 3. Ускорение сходимости Целью настоящего параграфа является изучение возможностей ускорения сходимости при решении многоэкстремальных задач вида (2.1). Один способ такого ускорения мы уже обсуждали в первой главе (§ 2, п. 1). Согласно этому способу решение задачи разбивается на два этапа. Сначала отыскивается при- ближение, лежащее в области притяжения глобально- го экстремума (т. е. решается собственно многоэкст- ремальная задача), а затем полученное приближение уточняется локальными методами, обладающими гео- метрической (или более быстрой) сходимостью, что и обеспечивает ускорение на заключительной части поиска. Такой подход предполагает возможность фор- мального определения момента переключения с одного метода на другой, т. е. оценку того, что найденное приближение лежит в области притяжения глобаль- ного экстремума. Трудность построения таких оценок приводит к тому, что в большинстве методов (см., на- пример, гл. IV, § 1, в книге Д. И. Батищева [1] или работу А. Г. Ж и'л и н с к а с а [3]) этот вопрос решается эвристически. В связи с этим представляет интерес создание многоэкстремальных методов, для которых скорость сходимости, начиная с некоторого шага, становится близкой к геометрической, т. е. ал- горитм автоматически переходит к уточнению точки минимума со скоростью, характерной для локальных методов, хотя правила выполнения итераций в про- цессе решения задачи остаются неизменными и гаран- тируют сходимость к абсолютному минимуму. Один из таких алгоритмов предлагается в настоящем па« раграфе, причем этот алгоритм является дальнейшим развитием метода, изучавшегося в § 2.
112 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. н 1. Монотонная и почти монотонная сходимость. Определение 3.1. Пусть последовательность испытаний {xfe}, порождаемая алгоритмом глобально- го поиска (см. § 2, п. 1) при минимизации функции ф(х), хе [а, й],-сходится к точке х* (если выполнено условие (2.17) теоремы 2.1, то точка х* является точкой абсолютного минимума), т. е. limxft = x*. (3.1) fe->00 Если существует такое целое число s > 0, что при любом k > s и любом / = / (k) из выполнения нера- венства " min(zy,2^_1)><pft = min zi (3.2) * следует, что интервал (xj_j, х;) не содержит точек последовательности {xfe}, то сходимость (3.1) будем называть монотонной. В случае, когда интервал (х}-1, х}) из (3.2) содержит не более одной точки по- следовательности {xfe}, сходимость (3.1) будем назы- вать почти монотонной. Таким образом, если сходимость является моно- тонной, то при k s каждое очередное испытание должно осуществляться в интервале, содержащем минимальное из ранее вычисленных значений функ- ции (значение ф*) , т. е. min(zt_lt zt) = ф\ k^s, (3.3) где t из (2.8) и, следовательно, xk+1 е (х,_ь х(), t — (3.4) В случае почти монотонной сходимости при k s должно выполняться либо равенство (3.3), либо нера- венство г*+‘>ф*. (3.5) Действительно, нарушение условия (3.3) означает, что интервал (х(-ь х() не содержит минимального из ранее вычисленных значений функции и, согласно
§ 3) Ускорение сходимости 113 определению почти монотонной сходимости, точка I х"+1 должна быть единственной точкой последователь- ности, лежащей в этом интервале. С другой стороны, если допустить, что условие (3.5) тоже нарушено, fe+1 k Ь-М т. е. z < ф, и, следовательно , ф, = г , то вне интервала (xt-i, xt) также расположено лишь конеч- ное число точек последовательности, ибо интервалы (х}-и Xj), отличные от (x(-i, xt), не содержат мини- мальное значение ф*+1. Поэтому одновременное на- , рушение условий (3.3) и (3.5) невозможно. Для иллюстрации укажем, что сходимость (3.1) при минимизации функции (2.68) является монотон- ной, если 1 С г /Г* (см. топологию (2.69)), и явля- 1 ется почти монотонной, если ri3)<r^ Г2°) (см. то- пологию (2.70)). При этом х* = 1 и s = 1. Введенные понятия монотонной и почти монотон- ной сходимости описывают сходимость, которая в оп- ределенном смысле является геометрической. Перей- дем к точной формулировке этого свойства. Введем величину Д(*) = ,2 (Xj-Xj^) (3.6) и множество £/(*)=. U (х/.ьхД (3.7) jeJ(fe) где J(k) = {/, 1 min (zj_lt zj = ф*}, (3.8) т. е. U(k) есть объединение всех интервалов, содер- жащих минимальное вычисленное значение ф* функ- ции, а Д(£) есть суммарная длина всех таких интервалов. Если сходимость является монотонной, то 4 xk+ve=U(k), v=l, 2..................... (3.9) а в случае почти монотонной сходимости мощность ц({х‘+1, .... x*+2v}nC/(£)) >v, (3.10) т. е. пересечение указанных множеств (при k s) I содержит не менее v точек, v= 1, 2, ... х- 8 р. г. Стронгин
114 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. й Теорема 3.1. Пусть последовательность {х*}, по- рождаемая АГП при минимизации функции ср(х), хе [а, й], удовлетворяет условию (3.1) и функция <р(х) является унимодальной в некоторой окрестности W точки х*. Тогда существует такое s > 0, что для величины Д(&) из (3.6) справедливо ^q'b(s), q < 1, (3.11) где k = s + 2v, v = 1, 2........... (3.12) если сходимость (3.1) является монотонной, и & = 2($ + 2v), v = 1, 2, .... (3.13) если сходимость (3.1) является почти монотонной. Доказательство. Пусть предельная точка х* является граничной, например, х* = а. Из теоремы 2.1 и условия (2.4) нумерации испытаний следует, что в этом случае U(k) = (х0, Xi), 6>1, и поэтому U{k + 1) = (хо, х‘+1), если для /, из (3.4)' справедливо, что Тогда из (2.9) получаем неравенство А (6 4-1)<Ц-A (fc) (3.14) для величины (3.6), справедливое также и при х* = b (в последнем случае U(k) = (xft_b xs)). Пусть х* является внутренней точкой интервала [а, 6]. Из предположения унимодальности функции (см. неравенства (1.3.9), (1.3.10)) в окрестности V7 точки х*, являющейся локально оптимальной (теорема 2.1), и двухсторонней сходимости к этой точке (лем- ма 2.1) следует существование столь большого числа 80 > 0, что при k So x*^U(k) a W, /+’е№, v = 0, 1........ (3.15) причем число • [i (J (&)) элементов множества J(k) из
§ 3] УСКОРЕНИЕ сходимости 115 (3.8) удовлетворяет условиям 2<ц(У(£))<3. (3.16) Кроме того, согласно предположению теоремы, будем считать, что сходимость (3.1) является монотонной ,(или почти монотонной) при k So- Введем коэффициенты aj=Aj/A(, /, /<=/(/>)', (3.17) где kj=Xj—Xj_1( 1^/^А, и номер t из (3.4). Тог- да, если z‘+1 = <р(х*+!) ><р* при t<=J(k), то, со- гласно (2.9), Д (k + 1) <Д(£) —^-Д(, или Д(*+1).<A(£)J1--U 2 а/ГЧ, (3.18) ( 2 WGJ(fe) / ) а если zft+1 <<(>*, то Д(6 + 1) = Д(, или . .. д(* + 1) = д(*)( 2 «/г*. (ЗЛ9) UeJ(M / Наконец, при zfc+1 = ср* справедливо, что Д(& + 1) = = Д(£) и число увеличивается на единицу, что, учитывая (3.16), возможно лишь при p.(J(k)) =* .= 2. Таким образом, из каждых двух последователь- ных точек х*+* из интервала (3.4), где t принадлежит J(fe), хотя бы для одной справедливо либо (3.18), либо (3.19). Допустим, что существует такое s > so, что при любом k s коэффициенты (3.17) удовлетворяют неравенствам О < 6i а/^ б2 < оо. /е/(£), причем, поскольку а( = 1, то предположение отно? сится лишь к значениям / =# t. Тогда из (3.14) и (3.18), (3.19) следует неравенство Д(& + 1) <<7Д(&), где q < 1, из которого согласно (3.9) вытекает спра- ведливость (3,. 11), (3.12), если сходимость является
116 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИИ 1ГЛ. II монотонной. При почти монотонной сходимости, учи- тывая (3.10), получим справедливость утверждения (3.11), (3.13), поскольку из (3.15) и условия унимо- дальности следует, что в (3.5) возможно лишь стро- гое неравенство. Остается показать существование указанного значения s. Оценим величину а} сверху. Неравенство /?(/) ^/?(/), справедливое, согласно (2.8), для номера t из (3.4), можно переписать в виде 0>-^ {г2(а>— 1) — 2r(ajUj — ut) + (а,и/ — u?)h (3.20) где для i = / и I = t <3-21) Квадратный трехчлен в (3.20) имеет корни _ГаЛ-м< гг------Г" (3.22) Поэтому, если otj>- 1, то из г > 1, входящего в условие г^Гг, откуда, согласно (3.21) ка (3.20) и требования (2.6), вытекает, что и (3.22), следует оцен- оо. (3.23) Теперь оценим величину снизу. Из (3.15) сле- дует существование такого числа s >• $0, что при k s для любого /е/(А) найдется число р, где So Р <. k, при котором х₽+1е(хЛп_1( xj(P))ct/(p) и либо (3.24) ХД(м-1 = ХЛя-ь xj(M = x”+1, либо — Xp+i, Xj(*) —
§ 3] УСКОРЕНИЕ СХОДИМОСТИ 117 При этом, согласно (2.15), Ддм Ддр)- (3.25) Пусть t = t(k) из (3.4) входит в J(k) при k^s и индексу j=At, где j=j(k)^J(k), соответствует число р из (3.24). В этом случае найдется такой номер I = Цр), что (x(_i, х() с (х(-1, х() cz U(p), т. е. Д, < Дь (3.26) причем либо /(р) = j(p), либо /(р)¥=/(р). В первом случае, используя (3.25) и (3.26), получаем Во втором случае из (3.24) и (2.8) следует, что /?(/(р)) ^Я(/(р)), откуда, согласно (3.23) и (3.25), (3.26), В заключение отметим, что полученные оценки коэффициентов оц и неравенства (3.18), (3.19) позво- ляют дать грубую верхнюю оценку множителя q, вхо- дящего в (3.11): 0<р<тах^нз + 2, 2(X2 + 2)j< 1» где х = 1--7" < * ♦ 2. Условия почти монотонной сходимости. Теорема. 3.2. Пусть <р(х), хе[«, Ь], есть лип- шицева с константой К. функция, удовлетворяющая условию <р(х) = К|х —х*|, xelFczfa, Ь], (3.27) в некоторой окрестности W точки х*, и для последо- вательности {х*}, порождаемой АГП для этой функции
118 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1гл. н при г = 2, справедливо (3.1). Тогда сходимость (3.1) является почти монотонной. Доказательство. Пусть существует такое це- лое число q 0, что хя = х*. Тогда из (3.1) и двух- сторонней сходимости следует существование двух целых чисел р, s > 0 таких, что (хр, Xя) U (хя, Xs) a: W (в случае, когда q = 0, т. е. х* = а, существует лишь интервал (хя, Xs), а при q=l, т. е. х* = Ь, сущест- вует второй из двух указанных интервалов), и,соглас- но (3.27), для величины М из (2 5) справедливо, что М = К, если &>max(p, q, s). Поскольку в интерва- ле (хр, хя) функция <р(х) является линейно убываю- щей, а в интервале (х’, х’)—линейно возрастающей, то при г = 2 сходимость (3.1) является монотонной,- а следовательно, и почти монотонной (см. описание соответствующих топологий в первом утверждении теоремы 2.4 и в замечании к этой теореме). Остается случай, когда х*#=х*. k = 0, 1, ... (3.28) В этом случае, согласно (3.1), существуют такие два целых числа р, q > 0 (для определенности положим р > q), что х*<= (хр, Xя) = (х(_1, Xt) с=. W, t=t(p), (3.29); причем без потери общности можно принять М = К = = 1 при k^p, откуда, учитывая (3.27) и (3.29), по- лучаем <р(х) = |х —х*|, хе (хр, х’). (3.30) Поскольку все точки последовательности {х‘}, кроме некоторого конечного числа, лежат в интервале (хр, хя), то для доказательства теоремы достаточно пока- зать почти монотонную сходимость подпоследова- тельности точек xft е {х*} П (хр, Xя) при k> р. Обозначим через t = t(k) номер интервала, со- держащего точку х* при k р, т. е. х*е. (x(-i, xt) с (х₽, хя), t = t(k), (3.31)
§ 31 Ускорение схоДимбстй 119 и условимся считать число р настолько большим, что - = min(z<_1,z(). Введем число v = v(k), k^p, определяемое ус- ловиями ___ v (р) — 0, v(k + 1) = _ fv(A), х*+‘ ф (Xj-x, xt), W)+l, x*+* e (xt_x, xt), '-tW' и сопоставим интервалу (3.31) величины Av — Xt Xt—i _ (xt xt-i Av I — X* где необходимо выполняется О < | av| < 1/2, (3.32) (3.33) (3.34) причем, согласно (2.9) и (3.30)., (3.31), а» < 0, если zt < zt-\, и <xv > 0, если zt > z(_t (случай av = 0 не- возможен, так как приводит к противоречию с пред- положением (3.28)). Вычислим характеристику (2.7) для интервала (3.31). Учитывая (3.30), условие г —2 и используя обозначения (3.32), (3.33), получим, что R (t (k)) = 2Av«v, v = v (k), (3.35) причем, поскольку из (3.1) и двухсторонней сходи- мости. следует Av-* 0 при &->оо, то, принимая во внимание (3.34), имеем - 1йпЯ(Цй)) = 0. (3.36) fe->O0 Допустим, что а3 > 0 и при некотором 1^ р точка х'+) принадлежит интервалу (3.31), где Тогда х* е (х”, х,+1) и, согласно (3.30), <р(х) =х — х'+1,-|- (х'+1 —х*), ze (х'+1, х9). (3.37)
120 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1гл. Ц Рассмотрим множество точек последовательности {х*}, принадлежащих интервалу (xi+1, х4]. Обозна- чим это множество через {«0) = {х\ ....х*0 = {х*} n (х'+1, х’ь (3.38) где ut = х 1 и q. = k0 < ... < kt. Поскольку г = 2, то, в силу (3.37) и первого утверждения теоремы 2.4, должно выполняться ui+1e=(x'+1, ut), 0<i<s. (3.39) Оценим характеристику Из (2.63), (3.37) и (3.39), (2.51), X = 1/4 при г = 2, (3.32), (3.33), выводим Если обозначить “ — 2-4s+1 — Г Rt интервала (х'+1, м(). учитывая, что, согласно и используя обозначения (3.40) s = 0,l............. (3.41) то из (3.40) следует, что /?о^0, а°^ао (s=0), R, 0, R,-i >0, а* ао < а’-1 (3.42) (s>0), (3.43) откуда, учитывая (2.8) и (3.35), (3.36), находим, что множество (3.38) содержит s +1 точку (включая х4), если заданное положительное значение ао удовлетво- ряет неравенствам (3.42) или (3.43) при соответству- ющем значении' s. Тогда, принимая во внимание (3.39), достаточным условием почти монотонной схо- димости является выполнение требования _ г>+1 = (3.44) при s > 1 и ао из (3.43). Заметим, что в этом случае при любом I, 0 i < s—1, левому концу интервала (3.39) соответствует минимальное из всех вычислен- ных значений функции.
J § з] УСКОРЕНИЕ СХОДИМОСТИ 121 Покажем, что указанное .условие выполняется. Из (3.33) следует справедливость (3.44), если ой < 0, ... , av < 0, v = (3.45) Согласно (3.33) правилу (2.9) и обозначениям (3.32), Av-h = — Av (1 -1 av 1) (3.46) и ’ 3av-l av>0, av < 0. av+i ' 2(1 -“J’ 3av+l (3.47) 12(1+%)’ Пусть а/ < 0. Тогда из (3.47) (I + аг) (1 + °Ч+1) = Н (1 + ai) h И “ “I", и с помощью индукции по j выводим IT (1 + «г +;) = av (1 + a>i) — (3.48) j=0 av+i = pav —av_i, aQ = 1, — p. (3.49) Применяя к (3.49) известный метод производящих функций (см., дЩпример, Дж. Риордан [1]), нахо- дим, что av = _L(2v+2-2-v). (3.50) О Теперь из (3.48), (3.50), положив I — 1 и подставляя ai из (3.47), получаем, что условие (3.45) выполняет- ся, если «o<₽v = 7T^’ v=l,2,... (3.51) О | ‘ Тогда из (3.43) и (3.51) вытекает справедливость (3.45) и (3.44), если iv, v = v(^,-i),
122 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ и откуда, согласно (3.41), (3.51), должно выполняться V = V (k8-\) s -|- 1. (3.52) Учитывая (2.8), остается показать, что при а0 из (3.43) и v(^-i) =$ + I для Rs-2 из (3.40) справедли- во неравенство ^s-2 > R (^8—1 I)) ~ 2As+1as+i. Из (3.45), (3.46) и условия ао > 0 следует, что As+1= Д(,^а(,)П(1+а1+>). Воспользуемся представлением Г 8 1 Г 8— 1 "1 — 1 (3.53) - 1, (3.54) а,+1= 11(1+«!+/) 11 I J=o J U=o где си из (3.47), и подставим (3.48), (3.50) в (3.54). В результате получим 9А 2 _ Ар («о (4s+< + 5) - З]2 s+1 8+1 3 [а0 (2-4s - 5) + 3] 4e+1 и, подставив (3.40) и (3.55) в неравенство убеждаемся в справедливости этого неравенства. Следующая теорема указывает, что установлен- ное выше условие (3.27) почти монотонной сходимости является существенным. Теорема 3.3. Пусть функция ф(х), Ь], является гладкой и унимодальной в некоторой окрест- ности W точки х* е (а, Ь) и последовательность {x7i}, порождаемая АГП, сходится к этой точке. Тогда схо- димость не является почти монотонной (и, следова- тельно, не является монотонной). Доказательство. Допустим, что сходимость (3.1) при k s > 0 является почти монотонной. Для заданного положительного е существует такая пара чисел р, q > s (для определенности положим p>q), что х* (= [хр, х9] = [xj_i, xj <= W, j = /(p), (3.56) (3.53), (3.55) (3.52), 1 I dtp (х) ~М dx г, х&. |%р, х9], (3.57) и
§31 УСКОРЕНИЕ СХОДИМОСТИ 123 где М из (2.5). Условимся обозначать через t = t(k) номер интервала, содержащего точку х* на шаге k > р, т. е. х* e[x(-i, х(] cz [х₽, х’]. (3.58) Поскольку сходимость (3.1) является двухсторон- ней, то из (3.56) следует существование такого числа 1> р, что при k I интервал (х”, х«) содержит не менее трех точек последовательности {х*}, и, следо- вательно, в силу унимодальности <р(х), справедливо хотя бы одно из следующих двух утверждений: (Ху-кХу) = (хр, Ху), (•*7-1. Ху) = (Ху-!, Х«), min(£P, ?у)> <р*, min (Zy-x, z«) > ср*, (3.59) где / = j(k), l. Тогда из условия почти монотон- ной сходимости следует, что интервал, для которого указанное утверждение справедливо (для определен- ности примем, что справедливо (3.59)), содержит не более одной точки последовательности {хА}. Допустим, что интервал (3.59) не содержит точек последовательности {хк}. Тогда из (2.8), (3.1) и (3.58) следует неравенство R(t(k))^R(j(k)), k^l, которое, учитывая (2.5) — (2.7) и (3.57) — (3.59), при- водит к необходимому условию г2(1-а)<4ге(^-^-] + ае2, (3.60) где А = Xj — Xj_i и а = (х( — x(_i)/A. Из (2.15) вы-, текает оценка длины интервала (3.59), возникающе- го после попадания не более чем трех испытаний в интервал (х₽, х’), A>te^3(x9-xP), которая после подстановки в (3.60) при а = 0 (за- метим, что а->0( если k-*-<x>) дает неравенство (г — I)3 < 32ег2. / Поскольку последнее неравенство не удовлетворя- ется при достаточно малом 8, то интервал (3.59)
124 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. п должен содержать хотя бы одну точку последователь- ности {х*}. Аналогично показывается, что он содер- жит не менее чем две точки. При этом роль интерва- ла (xj-i, х3) играет левый подынтервал, возникающий в результате попадания испытания в интервал (3.59), и следует показать, что этот новый подынтервал так- же содержит хотя бы одну точку последовательности испытаний, если е из (3.57) достаточно мало (т. е. мала рассматриваемая окрестность (3.56) предель- ной точки х*). Итак, сходимость (3.1) не является почти монотонной. Ц Замечание 1. Установленные условия сущест- вования и несуществования почти монотонной сходи- мости тесно связаны с вероятностным предположени- ем (1.6.17), использованным при выводе дискретного алгоритма, на основе которого построен АГП. Сог- ласно этому предположению (см. первое замечание в п. 1 § 1) априорное математическое ожидание функ- ции <р(х*)» в окрестности точки ха пропорцио- нально разности |х*—ха|, что аналогично условию почти монотонной сходимости (3.27). Указанное пред- положение является вполне естественным, например, при минимизации функций |<р(х)|, являющихся не- вязками уравнений вида <р(х)=0, хе [а, 5], (3.61) если левая часть изменяет знак в точке корня (т. е. пересекает ось х в этой точке). Вместе с тем, как уже отмечалось (см. второе замечание в п. 1 § 1), предположение (1.6.17) не вполне адекватно для функций, которые являются гладкими в окрестности точки минимума х*. Поэтому естественно, что для таких функций недостижима быстрая сходимость, возможная при условии (3.27). Вопросы ускорения сходимости для этого случая об- суждаются в следующем пункте. Для иллюстрации существенности эффекта почти монотонной сходимости для практических вычислений рассмотрим численный пример.
§ 3J УСКОРЕНИЕ СХОДИМОСТИ 125 Пример. Рассмотрим уравнение (3.61), левая часть кото- рого, изображенная на рис. 3.1, определяется выражением <р (х) = sin х + sin -у- х + In х — 0,84х -f* 3, х е= [2,7; 7,5]. (3.62) Решение этого уравнения путем минимизации |<р(*)1 с помощью АГП при г = 2 и точности 8 в условии остановки (2Л2) порожда- ет усеченную последовательность, длину которой (т. е. число испы- таний, предшествующих выполнению условия остановки) обозна- чим через ke. Значения £е для ряда значений 8 приведены в сле- дующей таблице, последняя строка которой содержит также разности А* между верхней и нижней оценками первого корня х\ (разности Ag и Ag для двух других корней х£ и хз Равны соответствующему значению 8): 8 10~2 10 4 10 6 IO'8 k 8 37 59 89 113 Аг 88 бе 38 8
126 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. (! При этом полученные нижние оценки корней (с точностью до трех цифр после запятой) имеют вид xt = 4,608; х2 = 5,836; х3 = 6,480. Точки усеченной последовательности (для случая 8 = 0,01) отмечены штрихами на рис. 3.1 (верхняя диаграмма), причем группы испытаний, расположенных в близких точках, изображены темными прямоугольниками, около которых про- ставлено число испытаний в группе. . Теперь рассмотрим результаты минимизации с помощью АГП (также при г = 2) самой функции ф(х) из (3.62), которая (в от- личие от |ф(х) |) является гладкой. При этом длина усеченной последовательности составила 28 испытаний при е = 10-2 (соот- ветствующие точки отмечены штрихами на рис. 3.1—средняя диаграмма) и составила 222 испытания при е = 10~4, хотя функ- ция (3.62) имеет единственную точку абсолютного минимума (в отличие от трех точек для функции |ф(х) |). В обоих случаях большая часть усеченной последовательности принадлежит малой окрестности экстремума и образует в этой окрестности е-сеть, что находится в полном соответствии с третьим утверждением теоре- мы 2.3, поскольку оценка величины т из (2.5), (2.6) существенно больше, чем абсолютное значение производной функции ф(х) в малой окрестности точки минимума. Для сравнения отметим, что монотонный алгоритм, предла- гаемый в следующем пункте, минимизирует функцию (3.62) за 15 шагов при е = 10“2 и за 26 шагов при 8 = 10“4. Замечание 2. Хотя почти монотонная сходи- мость характеризуется геометрической скоростью (утверждение (3.11) теоремы 3.1), характер такой сходимости существенно отличен от свойств миними- зирующих последовательностей, порождаемых опера- торами сжатия, соответствующими локальным (на- пример, градиентным) алгоритмам. Отображение (3.47), рассмотренное в теореме 3.2, не является сжи- мающим. Оно имеет счетное число неустойчивых не-, подвижных точек, и для значений av из (3.33), опре- деляющих точки xft+I последовательности испытаний, справедливо, что сколь угодно малая вариация ао приводит к любой (ограниченной лишь принадлеж- ностью к интервалу (3.34)) вариации av за достаточ- но большое число шагов. Отображение (3.47) и свя- занная с ним последовательность {%*} являются од- ним из примеров возникновения «стохастичности» в динамических системах (см., например, Ю. И. Ней- мар к [2])» . -
§ 3] УСКОРЕНИЕ СХОДИМОСТИ 127 3. Монотонные алгоритмы. Возможный путь дости- жения быстрой сходимости при минимизации глад- ких функций ф(х), не удовлетворяющих условию (3.27), состоит в том, чтобы минимизировать не саму функцию <р(х), а некоторое преобразование этой функции Ф(х)=Г(ф(х)), удовлетворяющее условию (3.27) и сохраняющее рас- положение точки х* абсолютного минимума, т. е. из (2.1) должно следовать у Ф(х*) = min Ф(х). х6[а,Ь] Так, например, для многоэкстремальной функции ф(х) =2 — cos х — cos 2х, № [—л/2, Зл/2] в качестве такого преобразования можно взять Ф.(х) — У<р(х) (см. рис. 3.2) *). Более общим классом подобных преобразований является, например, Ф(х) = ?[и(ср(х))] = V1 — (1 — и)п, 1^1, «>1, (3.63) где и = а(Ф(х))=^^, (3.64) причем ф * из (2.1) и Ф° = max ф (х). (3.65) При этом F(u)i^l^nu, .если м->0, -4-(1 — и)п~\ если и —> 1. du I 4 . ’ *) Минимизация <р(х) потребовала 135 шагов, а минимизация V <р (х) — 16 шагов (в обоих случаях г = 2, е = 0,001). Располо- жение испытаний для второго случая отмечено штрихами на рис. 3.2. . .....
128 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИИ 1ГЛ. И Поэтому для липшнцевой в отрезке [а, &] функции ф(х) такой, что при х—*-х* ф(х) <р* 4- а|х— х*|**, а‘> 0, р. :> 1, функция Ф(х) из (3.63), (3.64) будет удовлетворять условиям (3.27) при х—► х * с точностью до О(|х— — х * |), если положить I = ц и выбрать достаточно большое значение п (во многих приложениях I — = ц = 2, ибо в малой окрестности точки абсолютно- го минимума гладкую функцию ф(х) можно считать квадратичной). Однако, в общем случае, непосредственное исполь- зование преобразований вида (3.63), (3.64) оказыва- ется невозможным, поскольку значения ф * из (2.1) и ф° из (3.65) являются неизвестными. Возможный выход состоит в том, чтобы заменить эти значения их текущими оценками ф* и ф^ построенными по инфор- мации т. е. Ф* = ФА = min г1, ф = ф» = max г\ (3.66) и воспользоваться преобразованием (3.63) при м = ил(ф(х)) = ^=^. (3.67) В результате на каждом шаге k процесса минимизации используется, вообще говоря, свое преобразование
§ 31 УСКОРЕНИЕ СХОДИМОСТИ 129 Фк(х) исходной функции ф(х). Поэтому условимся включать операцию преобразования значений функ- ции непосредственно в отображения вида (2.10), опи- сывающие правила выбора точек испытаний, что при- водит к новому классу алгоритмов, которые мы будем называть монотонными алгоритмами глобального по- иска (сокращенно МАГП). Вычислительная схема МАГП, соответствующая любой конкретной непрерывной и строго возрастаю- щей функции F(u), 0^ 1, при и = ик из (3.67), может быть получена из схемы АГП (см. п. 1 § 2), если заменить второй пункт правил 1)—6) выбора точки х‘+1 очередного испытания правилом: 2а) вычислить значения Zi — Ф*(х<) = Г[ык(ф(х<))], (3.68) соответствующие результатам ф(х£) испытаний в точ- ках Xi из (2.4), и оценить согласно (2.5) максималь- ное абсолютное значение М относительной первой разности. Замечание 1. Если абсолютный минимум глад- кой функции ф(х) достигается на границе области оп- ределения, т. е х * = а или х * = b (указанные слу- чаи не соответствуют условиям теоремы 3.3),то про- изводная этой функции в точке х* может быть от- лична от нуля и поэтому не следует преобразовывать такую функцию. Чтобы учесть этот случай, можно вместо правила 2а использовать следующее: 26) вычислить значения (ф(хг), min (г°, Z1) = ф*, _ Zi ~ 1Фй(^г). min (z°, г1) > ф#, ’ где ф*и Фь(х<) соответственно из (3.66) и (3.68), и оценить величину М согласно (2.5). Правило 26 имеет и другое достоинство. Оно пре- дотвращает деление на нулевую разность Фо —ф* в (3.67). В дальнейшем условимся использовать именно это правило, т. е. первые k членов последовательно- сти {xft} порождаются правилами АГП, если мини- мальное вычисленное значение функции ф# = ф& 9 р. Г. Стронгин ,
130 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. II соответствует испытанию в одном из концов интерва- ла [а, Ь]. Замечание 2. Из свойства инвариантности (см. п. 1 § 2) следует, что последовательность испыта- ний, порождаемая МАГП, не изменится, если вместо преобразования F(u) использовать последователь- ность преобразований Fk(u) =алГ(и)4-^ (т. е. при данном k величины г( из (3.68) вычисляются соглас- но Fk(u)), ак >0 и ₽* — вещественные числа (k = 1, 2, ...). Отсюда, в частности, следует, что при F(u) = и последовательности испытаний порождае- мые МАГП и АГП для одной и той же минимизируе- мой функции, совпадают. Кроме того, поскольку ыа(Ф») = 0, то без потери общности можно принять, что Г (0) =0. (3.69) В заключение подчеркнем, что МАГП применяется для минимизации непреобразованной функции ф(х), ибо преобразование включено в правила выбора ис- пытаний. Для иллюстрации функционирования-моно- тонного алгоритма точки усеченной последовательно- сти, порождаемой МАГП для функции (3.62) при г=2 и е=0,01, отмечены штрихами на рис. 3.1 (нижняя диаграмма). При этом использовалось преобразова- ние (3.63) для значений п—\ и /=2. 4. Сохранение характера сходимости. Следующая теорема утверждает, что для последовательностей ис- пытаний, порождаемых монотонными алгоритмами, сохраняются справедливыми важные свойства, уста- новленные в теореме 2.1 для последовательностей, порождаемых АГП, т. е. использование текущих оце- нок ф* и <р0 вместо экстремальных значений ф* и ф° (ср. выражения (3.67) и (3.64)) не приводит к изме- нению характера сходимости. Теорема 3.4. Пусть для минимизируемой функ- ции <р(х), х<= [а, Ь], и преобразования F(u), и ^0, из (3.68) выполняется: 1) функция F(u) является выпуклой (вверх), стро- го возрастающей и удовлетворяет условию (3.69);
§ з] Ускорение сходимости 131 2) функция Ф(х) = Г[и(<р(х))], где ы(<р(х)) из (3.64), является липшицевой с константой Кив не- которой окрестности W точки х * е (а, Ь) удовлетво- ряет условию (3.27), причем х* есть единственная точка абсолютного минимума функции <р(х). Тогда для последовательности испытаний {х*}, по- рождаемой монотонным алгоритмом при минимиза- ции функции <р(х) в отрезке [а, Ь], справедливы пер- вые три утверждения теоремы 2.1 и, кроме того, lim xft = х*, fe->oo если, начиная с некоторого шага N, для любого k величина пг удовлетворяет условию (3.70) Доказательство. Пусть хе(а, Ь) есть пре- дельная точка последовательности {хА}, порождае- мой МАГП. Тогда последовательность {xft} содержит две подпоследовательности, одна из которых сходит- ся к точке х справа, а другая — слева. Обоснование этого утверждения проводится аналогично доказа- тельству леммы 2.1, так как условия рассматривае- мой теоремы обеспечивают ограниченность функций Ф*(х) из (3.67), (3.68) на множествах Хй = {хе[а,&): ф*<ф(х)} при любом k > 1 (предполагается, что <р0 >> ср*— см замечание 1 в п. 3). Из условий теоремы следует также, что функция <р(х) является непрерывной. Поэтому, следуя доказа- тельству теоремы 2.1, получаем справедливость пер- вого и второго утверждений, если справедливо третье утверждение. Доказательство третьего утверждения в свою оче- редь проводится аналогично доказательству соответ- ствующего утверждения теоремы 2.1, однако наличие преобразования (3.67), (3.68) приводит к тому, что 9*
132 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. п неравенство, соответствующее неравенству (2.19), имеет вид R (/(*)) >-4Ф*(«) +8Ь где ек = ФА(х) — Ф4(х«) > 0, х, x’eXft, и, кроме того, вместо (2.20), получим lim/?(/(£)) = lim {—4ФЙ (х)}, А-»оо Л-»оо если множество значений величины т, соответствую- щих последовательности номеров k, имеет конечную верхнюю грань. Из (3.64), (3.67) следует, что uk = whu — vk, где причем и v»+i v*- Поэтому разность ей имеет положительную нижнюю грань при k N >0. Остается показать ограниченность последовательно- сти {АЦ значений оценки М из (2.5). Допустим, что <Р® = ф* при некотором q > 1. Тог- да vh = 0 при любом k"^ q и, в силу выпукло- сти F(u), |ФДх,) — (ФДх,.,) | С ©к|Ф(х,)—Ф(х,-0 |, причем, поскольку функция Ф является липшицевой, то , k>4- \Ф w “ ф j Пусть теперь <р* > <р* при любом значении k, и предположим, что в этом случае последователь- ность {AfJ не является ограниченной, т. е. sup =оо, 73.71) 1<Л<оо Покажем, что при сделанном допущении точка х* является предельной точкой последовательности {х*}. Из (2.5) — (2.7) и условия 0 ФДх,) Г(1) выте- кают следующие оценки для характеристики /?(/)
§ 3] Ускорение сходимости 123 произвольного интервала (x(-i, х(), 1 i k: rM(xt — Xt-t) -4F(1) (3.72) Пусть x есть некоторая предельная точка последова- тельности {х*}. Обозначим через j = j(k) и t = t(k) соответственно номера интервалов, содержащих точ- ки х и х*. Если допустить, что точка х* не является предельной, то при k—► оо длина интервала (х(_ь х() имеет положительную нижнюю грань. Поскольку при этом X;—X;-i—► 0 и значение М неограничено, то из (3.72) следует справедливость неравенства при достаточно больших значени- ях k, что противоречит допущению хЛ+1 Ф (X;-i, xt). Таким образом, если последовательность {AfJ не- ограничена, то из точек последовательности {х*} мож- но построить подпоследовательность, сходящуюся к точке х*. Из условий теоремы вытекает существование ок- рестности W точки х * такой, что ф(х) = (<р° — <p*)F-1(/(|x—х*|) + ф*, xaW, (3.73)' где Е-1 есть (вогнутая и строго возрастающая) функ- ция, обратная функции F (т. е. F~l(F(u)) = и). Пусть два числа р н q настолько велики (для опреде- ленности положим р <.q), что при любом k q х*<= (х(-1, х() с (хр, х’) с W, t = t(k), (3.74) < X = [а, Ь]\(хр, х«) с: Xq, и пусть число I > q удовлетворяет условию minф(х) ф' + б(ф° — ф*), 0<6<1. (3.75) KGX ‘ * Обозначим для краткости ы(ф(х)) через и(х) и запи- шем тождество F(“(*i))~f (ц(*<-1)) и (х.) - и xl xi—1 ..(3.76)
134 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. 11 левая часть которого при 0 и 1 имеет положи- тельную нижнюю грань, ибо F(u) есть выпуклая и строго возрастающая функция при и 0. Поэтому, в силу липшицевости функции Ф(х) = f(u(x)), ми- нимизируемая функция ф(х), связанная с и линейным выражением (3.64), необходимо также является лип- шицевой. Заменим в (3.76) величины и(х) на uk(x) из (3.67), для которых согласно (3.75) справедлива оценка ик(х) 6, хеХ, k^l. Поскольку для вы- пуклой функции F(и) справедливо, что £(ц + Дц)-Г(ц) ГД б<ы<ы+дм, Ди - о ’ ' ’ то из (3.76) следует неравенство xi xi— 1 </<!, Xj—t, Xi^X, где K\ есть некоторая константа и k I. Теперь покажем, что аналогичное неравенство справедливо для точек xt-lt х, <= [хр, х’]. Из (3.74) следует, что при k I минимальное значение <р* достигается на одном из концов интервала (x(_i, х(). Для определенности положим, что (см. рис. 3.3) ф(х<) = <р^ t = (3.77) Тогда из (3.67), (3.73) и (3.77) вытекает, что ыДх) = ayJF-^KIx — х *|) — -F-‘(K|xt - х*|)}, . (3.78) если хеХй П IF при k^q (точки этого множества от- мечены штриховкой на рис. 3.3) и, следовательно, ФДх) = ^(.'/Дх)) < шД|х —х*|, поскольку возрастающая функция F (и) является вы- пуклой. Отсюда, учитывая равенство ФДх<) = 0, по- лучаем оценку ф» м." ?» (»<-) <wllK. xt xt—l
§ 31 УСКОРЕНИЕ СХОДИМОСТИ 135 Пусть теперь х, < х{ (случай xt < xt рассматрива- ется аналогично). Из (3.68) и (3.78), учитывая вы- пуклость F(u), выводим I<Ы*<) — ФЛ^-1) | wk{K\xt — x*\ — __ _ -F[F-' (К | х^-х* I) -F-> (К I x(-x* 1)1}, где разность, стоящая в квадратных скобках, имеет нижнюю оценку (напомним, что функция F~l явля- ется вогнутой) / Y -- V* \ . 1—Н--------- F-^/qxi-x*!). к л — xi—1 / ' Поэтому Фь (х<) — фь (хг— 1) - . Х,“Х* \ 1>--° ' V < WbK 1 + , Y -- Y. п I 1 Y ---- Y. . и остается показать ограниченность отношения А/ xl xi—1 xl xi—1 ’ Пусть k I. Тогда существует такой номер s > q, ЧТО (Xj-i, Xj) = (Xs, Xj), ИЛИ (Xi-i, Xj) = (х>ь Xе), где / = /(s— 1), т. e. интервал (Xi_b x() образовался в результате проведения испытания в точке х8 е (х,-Ь Xj). При этом, если /(s—1) =/(«—!), где / из
1ГЛ. II 136 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ (3.77)’, то, согласно (2.15), а —1)'. В про- ’ тивном случае, т. е. когда /(s— 1) =# Z(s— 1) и, следо- j вательно, zt < z(-t < z( и O^R(t(s—1))—R(j(s — — 1)), повторив рассуждения из доказательства тео- ремы 3.1, приводящие к выражениям (3.20) — (3.23), получим оценку Итак, предположение (3.17) приводит к своему от- рицанию. J Перейдем к доказательству последнего утвержде- j ния теоремы, для чего достаточно показать, что х* 1 является предельной точкой последовательности {xs}, s| если выполняется условие (3.70). I Пусть х есть некоторая предельная точка последо- вательности {х‘}, а точка х* не является предельной. Ь Обозначим через j = j(k) и t = t(k) номера интер- валов, содержащих соответственно точки х и х*. Тогда Пт K(/(i))<0, xb+i^(xf_i,x<), (3.79) если k достаточно велико. Кроме того, из справедли- вости третьего утверждения теоремы 2.1 следует, что Ф* > Ф (*) > Ф (х*) = <р*, т. е. величины vh имеют положительную нижнюю г, грань. * Поскольку функция Ф(х) является липшицевой, то 2К(х, — x(_j) — 2{Ф(х() +Ф(х(_!)} >0. (3.80) Далее, учитывая выпуклость F(u), получаем оценку ФДх) = F{whu(x) — ц*} < tM>(x), xt=XK, которая совместно с (3.80) приводит к неравенству , /?(/(£)) >0, k^N, (3.81) где N из условия (3.70). Но (3.81) и (3.79) противо- речат правилу (2.8).
©БОЁЩЁННОЁ УСЛОЁИЁ ЛИПШИЦА • 137 § 41 § 4. Алгоритмы для функций, удовлетворяющих ' обобщенному условию Липшица Целью настоящего параграфа является построе- ние алгоритмов решения задачи (2.1) для случая, когда минимизируемая функция ф(х), х е [а, Ь], удовлетворяет условию вида (1.3.25), которое будем называть обобщенным условием Липшица (важный класс таких задач будет рассмотрен в следующей главе). При этом |ф(х')-Ф(х")| Яр(х', х"), х', х" <= [а, b], (4.1) причем условимся, что функция р описывает некото- рую метрику и р(х', х") = f(|x' — х"1), , (4.2) где функция f имеет обратную функцию f~l (т. е. f-*(f(Ax)) = Дх). 1. Обобщенные алгоритмы. Обозначим расстояние в метрике (4.2) между точками x(_j, х{ из (2.4) через р<, т. е. р, = p(x(-i, Xi) == f (х4—Xj-O, К i < k, (4.3) и заменим в выражениях (2.5), (2.7) и (2.12) разно- сти х< — х(-1 величинами р4. При этом ------- М = шах ——г——. (4.4) R (0 = + fe.T-ftj)8. - 2 (гг + 2i_i), (4.5) pf 8 ИЛИ Х( — Х(_1 /“’(в), ' <(4.6) и, кроме того, введем выражение *+1 _ х( + sign (zf - г<-1) J (г | zt - 2t_i 11 * 2 2r 1 1 m J‘ (4.7) Теперь определим алгоритм, описание которого полностью совпадает со схемой АГП (см. п. 1 § 2),
138 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ |ГЛ. п если в последней заменить все ссылки на выражения, указанные в левом столбце следующей таблицы, со- ответствующими ссылками из правого столбца: (2.5) — (4.4), (2.7) —(4.5), (2.9) — (4.7), (2.12) — (4.6). Условимся называть этот новый алгоритм обоб- щенным алгоритмом глобального поиска (сокращен- но ОАГП). В следующем пункте мы покажем пригод- ность ОАГП для минимизации функций, удовлетво- ряющих неравенствам (4.1), если в (4.3) и (4.7) ис- пользуется. та же функция f, что и в определении метрики (4.2). 2. Условия сходимости и плотность испытаний. Для последовательности испытаний {х*}, которую обобщенный алгоритм (с метрикой р) сопоставляет минимизируемой функции ср(х), удовлетворяющей ус- ловию (4.1) (для той же метрики р), справедливы первые три утверждения теоремы 2.1. Четвертое ут- верждение также справедливо, если заменить усло- вие (2.17) условием m > 4 К. ” - (4.8) Доказательство этих утверждений проводится ана- логично доказательству теоремы 2.1, причем предва- рительно (подобно рассмотрению в лемме 2.1) уста- навливается двухсторонняя сходимость к предельным точкам х е (а, Ь). Различие достаточных условий сходимости (2.17) и (4.8) вытекает из того обстоя- тельства, что условие (4.1) порождает для интервала [Xj-i, xj, содержащего точку минимума х*, оценку Zj + z}~i — 2Kpt jC 2<p (x ♦), отличную от (2.22). Следующая теорема является обобщением тео- ремы 2.2.
§ 4] ОБОБЩЕННОЕ УСЛОВИЕ ЛИПШИЦА 139 Теорема 4.1. Пусть ф(х) из задачи (2.1) удов- летворяет условию (4.1) и ср(х) ср(х *) + А, хе [а, (3] с=[а, Ь], причем функция f из (4.2) является выпуклой и f(p— — а) А/4/С > 0. Тогда для плотности Ра9 (см. (2.24)) последовательности {xft}, порождаемой ОАГП при минимизации ф(х), справедлива оценка о (М) если m -\К. Доказательство. Следуя схеме доказательст- ва теоремы 2.2, для любого интервала [x,-i, х{] с с [а, И получаем оценку Я (i) < - 4<р (х*) + {Е тр. _ 4д), из которой следует, что характеристика интервала [Xj-ь xj, содержащего точку х* (см. (2.23)), будет больше, чем если f (хг — Xj_j) Поскольку для ОАГП неравенство (2.15) справед- ливо и tn 4/С, то евклидово расстояние между точ- ками Xj-i, хг <= [а, р] при любом k.> 1 удовлетворяет УСЛОВИЮ __ . 3 с—1 /64Д\ г—1 /24Д\ .—1 / Д \ Xf — Xi_i^-g-A \17m)^' \m}' Поэтому Аар<(Р - а) 1 ' P-а (4.Ю) где Naf есть число точек последовательности {х‘}( принадлежащих интервалу [а, р]. По условию тео- ремы f (р - а) > ~ откуда , д Т’ что после подстановки в (4.10) приводит, согласно (2.24), к выражению (4.9). Ё5
140 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ 1ГЛ. II Замечание. Если минимальное значение рас- смотренной функции <р(х) отыскивается по методу пе- ребора с точностью б (см. замечание к теореме 2.2), то шаг сетки 8 определяется из условия откуда следует, что плотность испытаний Р^в любом подынтервале [а, 0] cz [а, Ь] удовлетворяет неравен- ству 2/~1 (6//С)' Из последнего неравенства и (4.9) при т == 4К и Л > 46, учитывая вогнутость функции f-1, получаем оценку Р аС Р°а *af> } *ар! аналогичную оценке (2.28). - 3. Устойчивость. Для последовательностей испыта- ний, порождаемых обобщенными алгоритмами, спра- ведливо утверждение теоремы 2.7 об устойчивости 6-топологий, а также справедлива следующая теоре- ма, доказательство которой проводится аналогично доказательству теоремы 2.6. Теорема 4.2. Пусть х* есть усечение (по точно- сти е) последовательности испытаний, порождаемой ОАГП при минимизации функции ф(х), хе [а, 6], удовлетворяющей неравенству |ф(х)—ср(х) |<б, хе[а, Ь], ’’(4-11) где ф(х) из (4.1), причем функция f из (4.2), исполь- зуемая в ОАГП, является выпуклой. Тогда для ф* из (2.13) ыф(х*) из (2.1) справедливо | ^ — Ф (х*) | + 6, а>1,
§ 4] ОБОБЩЕННОЕ УСЛОВИЕ ЛИПШИЦА 141 если на шаге остановки (4.12) где ₽ = ^1) • 4. Согласование метрики. Условия сходимости и оценки плотности испытаний из п. 2 предполагают, что в обобщенном алгоритме используется та же мет- рика, что и в условии (4.1), которому удовлетворяет минимизируемая функция. Свойство устойчивости по- зволяет избежать такого согласования метрики. Действительно, пусть минимизируемая функция ф(х) удовлетворяет условию (4.1) с метрикой (4.2), и пусть существует близкая к ней функция <р(х), удовлетворяющая неравенствам (4.11) для заданного 6 >0. Если при этом функция <р(х) удовлетворяет еше и условию (4.1) с некоторой константой К' и мет- рикой р'(х, х + Дх) = /'(Дх), Дх > 0, (4.13) то, согласно теореме 4.2, минимизация ф(х) может быть приближенно осуществлена обобщенным алго- ритмом с метрикой р' из (4.13), даже если функция ф(х) не удовлетворяет условию (4.1) при метрике р', т. е. . sup оо? (4.14) а<х<х+Дх<Ь1 ' V**! 1 Однако такой подход приводит к неограниченному возрастанию плотности испытаний Раз (б) в любом по- дынтервале [а, £] с [а, б] при б —* 0, т. е. lim Рар (б) = оо, (4.15) 6^0 что указывает на целесообразность согласования метрики в условии (4.1) и в алгоритме, поскольку при использовании метрики из (4.1) плотность испытаний остается ограниченной для подынтервалов, не содер- жащих точек абсолютного минимума (см. (4.9)),
142 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. II Покажем, что (4.15) вытекает из (4.14). Констан- та К', очевидно, зависит от б, причем, согласно (4.14), К'(б) —* оо при б—>0, откуда следует, что для зна- чений т из достаточных условий сходимости (4.8) или из более жестких условий (4.12) справедливо limm = оо. д-*0 Из (4.1) и (4.11) вытекает неравенство |<Р W I < |Ф(* *) I + 6 +Kf (b — а) =Д, х<=[а, Ь]. Поэтому для характеристики /?(/) любого интервала (*н, Xi), 1 i k, справедлива оценка тр’. — 4Д < R(i)<2mp' + 4Д. (4.16) Допустим, что при некотором • k для заданного е >0 существует интервал (х,_ь х,), не содержащий точек последовательности испытаний, и х} — хи1 > е. Тогда из (4.16) следует выполнение неравенства > R(i(k)) (4.17) для некоторых достаточно больших значений m и k, если i(k) есть номер интервала, содержащего какую- либо предельную точку последовательности испыта- ний (т. е. р--^0 при При этом неравенство (4.17) противоречит сделанному допущению (согласно (4.17) и (2.8) интервал (Xj-i, х,) должен содержать хотя бы одну точку последовательности испытаний). § 5. Другие модификации и результаты экспериментов Кроме вариантов основного алгоритма (АГП), рассмотренных выше (МАГП, ОАГП), возможны и другие модификации, три из которых обсуждаются в следующих пунктах. 1. Рандомизированный алгоритм. Алгоритм гло- бального поиска, свойствам и обобщениям которого посвящена настоящая глава, сопоставляет минимизи-
§ 5] Другие модификации 141 руемой функции <р(х) последовательность испытаний, зависящую от коэффициента г >> 1, входящего в вы- ражение (2.6) для величины т. При решении кон- кретных задач значение коэффициента г должно быть достаточно большим, чтобы удовлетворялось неравен- ство (2.31), гарантирующее после остановки вычисле- ний по условию (2.12) точность, не меньшую, чем в методе перебора на сетке с шагом 8 (из (2.12)), или хотя бы удовлетворялось неравенство (2.17), являю- щееся достаточным условием сходимости. Но, с дру- гой стороны, с ростом г возрастает (приближаясь при г —>- оо к количеству узлов сетки метода перебо- ра) число испытаний, предшествующих выполнению условия остановки (см. третье утверждение теоре- мы 2.3). В случае,. когда для минимизируемой функции известна константа Липшица К, выбор значения г не вызывает затруднений, ибо условия (2.17), (2.31) имеют вид т где f > 1, и, согласно (2.5) и (2.6), т = гМ, причем М К. Однако во многих прикладных задачах доступны лишь очень грубые априорные верхние оценки кон- станты Липшица для минимизируемой функции. В такой ситуации естественно воспользоваться ре- зультатами рассмотрения, проведенного в п. 7 § 1. Будем считать, что заданы две оценки коэффициента, указанные в (1.37), причем конкретное значение, ге {гь г2}, которое следует использовать на данном шаге, определяется с помощью случайного механиз- ма. При этом вероятность выбора значения г — гх примем равной оценке р° из теоремы 1.2 и преобразу- ем выражение для этой оценки таким образом, чтобы р° вычислялось не через индексы i}, а через координа- ты Xi входящие в из (2.2) — (2.4). Указанное пре- образование выполняется аналогично переходу от ди- скретного алгоритма к непрерывному (см. п. 8 § 1). В результате получим следующие правила выбора испытаний при минимизации функции <р(х), о]. Первые два испытания выполняются в точках из (2.3). Для выбора точки xk+l, k 1, очередного (& + 1-го испытания необходимо:
144 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. и о I 1) выполнить первое и второе правила из описа- ния АГП (см. § 2 п. 1); 2) положить пг = пгь где ту есть значение пг из (2.6), вычисленное при г = г\, и выполнить четвертое и пятое правила из описания АГП\ 3) вычислить d =m(xt — xt-i) — (zt +z(_i) (5.1) и положить dt — d, ti = t, Ri = R(t) где t и R(l) из (2.8); 4) положить пг = m2, где m2 есть значение пг из (2.6), вычисленное при г —г2, и выполнить четвертое и пятое правила из описания АГП; 5) вычислить d из (5.1) и положить d2 = d, t2 = t, R2 = R(t), где t и R(t) из (2.8); 6) если выполняется условие ti = t2, то положить в противном случае П — ~Ь ^2 Rj . р 2dx + 2da - ’ (5-2) (5.3) 7) однократно реализовать случайный механизм с двумя исходами 1 и 2, соответственно имеющими ве- роятности р\ = р и р2 — \ — р; 8) выбрать точку xk+l согласно (2.9), где t = tb пг = mi, если случайный механизм дал исход 1, и t = t2, пг = m2, если случайный механизм дал исход 2. Описанный алгоритм (условие остановки и теку- щие оценки экстремума определяются так же, как и в АГП) условимся именовать рандомизированным алгоритмом глобального поиска (сокращенно РАГП)*). *) Мы не останавливаемся на конкретных схемах реализации случайных механизмов путем построения последовательностей псевдослучайных чисел, поскольку этим вопросам посвящена об- ширная специальная литература (см., например, И. М. Соболь [1]).
§ 51 Другие модификаций 145 Теорема 5.1. Для вероятности р из (5.2), (5.3) справедливы оценки fi~ 1 Доказательство, что Р<у- Из (2.7) и (5.1) следует, mht 2d — R(i) = mA 2L где использованы обозначения (2.34) и неравенство (2.36). Обозначим, для краткости, и ^соответст- венно через Д1 и Дг. Аналогично обозначим б^ и б«2 через 61 и 62. Из описания алгоритма следует, что = /?(/2, Г2) /?(/ь Г2). Поэтому 2 (di + d2 RJ 26^ R (t19 г2) “h 2б?2 R% 23 и, кроме того (см. (5.4)), 2di 2d2 — Ri — R% = f 6? ] / — -----г-? 4- /п2Д2 ( 1 1 ‘I22 <5-6) Поскольку левая часть (5.5) есть удвоенный числи- тель выражения (5.3) и левая часть (5.6) есть знаме- натель того же выражения, причем слагаемое в фи- гурных скобках из правой части (5.5) меньше, чем слагаемое в фигурных скобках из правой части (5.6), то для величины р из (5.2), (5.3) справедлива верх- няя оценка р <1/2. Теперь обозначим через pi и р.2 величины р«, и pt, из (2.34). Тогда / 62 \ 2 (d, + d2 - R2) = 4 (ра - И1) + 2 т1Дх . (5.7) Ю Р. Г. Стронгин
146 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИИ 1ГЛ. П Поскольку, согласно описанию алгоритма, /?! = /?(/!,>!) И), , то (см. (2.35)) 4(щ-И1)>-^п1Д1+^ + ^1*2+ и после подстановки последнего неравенства в (5.7) получаем / / 6? \ f * 62 \ 2 № + d2 - R.) > А - ) (5.8) Из (5.3), (5.6) и (5.8), учитывая оценки (5.4), окон- чательно выводим mi (1 — г^2) (Дх + Дг) п — 'Г1 Р 2/п1Д1 + 2т2Д2 2г2 ’ что не противоречит (5.2). Щ Замечание. Алгоритмы, подобные РАГП, мож- но построить и для монотонных и обобщенных алго- ритмов путем формального переноса той же схемы рандомизации коэффициента г. В первом случае роль величин zu входящих в и dv, v = 1, 2, будут играть преобразованные значения из (3.68), а во втором — следует заменить расстояния х(—x(-i в и dv их значениями в метрике (4.2). Результаты экспериментов, иллюстрирующие целе- сообразность введения рандомизации при оптимиза- ции некоторых типов функций приведены в послед- нем параграфе следующей главы. 2. Минимизация на системе отрезков. Рассмотрим задачу минимизации липшицевой функции ф(х) на п множестве D, гдеО= (J [аг, Ьг],причем а, < < 2=1 < al+i < Ь<+ь 1 i < и, т. е. область определения D представляет собой объединение п неперекрываю- щихся отрезков. Поскольку решение х* задачи Ф(х*) = min ф(х) (5.9) x^D
§ 5] ДРУГИЕ МОДИФИКАЦИИ 147 связано с решениями х* задач ф(х*) = min ф(х), (5.10) соотношениями х* = Ха, а = arg min <р(х*), (5.11) то вычисление точки х* из (5.9) можно выполнить путем независимого решения п задач вида (5.10) с последующим сравнением полученных оценок экстре- мума согласно (5.11). Однако в случае, когда константа Липшица пред- полагается одинаковой, возможен более экономный способ. Будем считать, что функция <р(х) определена в интервале [а, &] = [аь Ьп], и применим для ее ми- нимизации АГП из § 2. Поскольку при этом значения <р(х) в подынтервалах (bit ai+]), 1 ^ / < п, вычи- сляться не должны, внесем в алгоритм некоторые из- менения. Примем, что первые 2п испытаний осуществ- ляются в точках а(, bit т. е. x°=alt x' = bi, ..., х2п~2=ап, x2n-1=5n. Для выбора точки хА+1'любого следующего испытания (k 2п— 1) необходимо: 1) выполнить первое правило из описания АГП (см. § 2, п. 1); 2) вычислить величину М согласно выражению где М = max ieJ г1 г1—1 xi xi— 1 (5.12) J = {i, 1 г < A : (х<-1, Xi)^D} .(5.13) U Zt = Cp(Xi)- 3) выполнить третье правило из описания АГП; 4) вычислить характеристики R'(i) из (2.7) для всех интервалов (x,-i, х,), i е J, где J из (5.13); ’ 5) заменить условие (2.8) выражением R (0 = max R(i) (5.14) teJ и выполнить пятое и шестое правила из описания АГП. 10*
148 ' МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИЙ [ГЛ. II Таким образом, предлагаемый алгоритм отличает- ся от АГП лишь тем, что относительные разности в (5.12) и характеристики в (5.14) подсчитываются только для интервалов (x<-i, xf), принадлежащих области определения D (номера, этих интервалов со- держатся в множестве J из (5.13), которое является различным на различных шагах вычислительного про- цесса). Аналогично можно модифицировать монотон- ные, обобщенные и рандомизированные алгоритмы для минимизации на системе отрезков. При этом изу- чавшиеся выше схемы минимизации на отрезке [а, Ь] можно рассматривать как частный случай (когда число отрезков п = 1). Пример. Пусть минимизируемая функция ф(х)*) и мно- жество D, состоящее из трех неперекрывающихся отрезков, опре- деляются условиями (см. рис. 5.1) 5 Ф(х) == ^sin + О х + k), x^D, (5.15) £> = [-10, — 8] (J[— 6, — 2] UlO, 10]. (5.16) *) Указанная функция рассматривалась в работе Б. О Ш у* б е р т а [1].
ДРУГИЕ МОДИФИКАЦИИ 149 § 5J Решение этой задачи с помощью монотонного алгоритма (исполь- зовалось преобразование (3.63) для значений п = I = 2) на си- стеме отрезков (5.16) при г = 2 и точности 8 = 0,001 в условии остановки потребовало 73 испытания (точки расположения испы- таний отмечены штрихами на рис. 5.1), Для сравнения отметим, что применение монотонного алго- ритма (при тех же значениях параметров) для независимого ре- шения трех задач вида (5.10), соответствующих рассматриваемому примеру, с последующей оценкой результата из (5.11) потребовало в общей сложности 96 испытаний. 3. Вычисление колебания функции. В ряде при- кладных задач возникает необходимость вычисления и минимального и максимального значений функции ф(х) в интервале [а, Ь]. К числу таких задач отно- сится, например, оценка колебания Д функции ср(х) в отрезке [а, Ь]: Д = max <р(%) — min ср(х), (5.17) xs[a,b] хе[а,Ь] используемая, в частности, в задачах стабилизации (например, стабилизация значений тока при вариа- ции частоты). Разумеется, для вычисления (5.17) можно не- зависимо оценить максимум и минимум функции с помощью алгоритмов, рассмотренных в настоя- щей главе. Однако для экономии числа испыта- ний естественно воспользоваться информацией со* из (2.2), накопленной при решении одной задачи, для решения другой. Обсудим возможный вариант такого комбинированного алгоритма, основанный на АГП из § 2. Прежде всего отметим, что рассмотренные выше алгоритмы предназначены для минимизации функции ф(х). Известно, что максимизация <р(х) сводится к минимизации функции cpi (х) =— <р(х). Если внести указанное изменение знака непосредственно в выра- жения, описывающие АГП, то получим алгоритм мак- симизации функции <р(х). Чтобы аглоритм охватывал оба случая (мини- мизация и максимизация), введем коэффициент
150 МИНИМИЗАЦИЯ ОДНОМЕРНЫХ ФУНКЦИИ [ГЛ. 11 ул=±1 и. положим (? ______________________г. \2 R (i) = m(xi — Xi_t) + - 2?ft (гг + г^), yk+i-xt + xt-^ ^(г4-г/!) 2 2т (5.18) (5.19) Наконец, заменим в описании АГП ссылки на выра- жения (2.7) и (2.9) соответственно ссылками на (5.18) и (5.19) и в дополнение к оценкам (2.13), (2.14) для абсолютного минимума введем оценки <pft = max <р(х’), (5.20) ° Хо = arg max <p(x‘) (5.21) для абсолютного максимума. Тогда при yk = 1 алго- ритм выполняет минимизацию функции <р (х), а при ук = — 1 — максимизацию этой же функции. Для одновременного определения минимума и максимума можно, например, положить 7ft=l для всех шагов с номерами k, предшествующими выпол- нению условия остановки (2.12), а после усечения последовательности по условию остановки принять = —1 и продолжить решение задачи (сохраняя на- копленную при 7й=1 информацию coj до повторного выполнения условия остановки. Возможны и другие варианты. Положим, напри- мер, Ъ=(—1)\ 6 = 0,1,... (5.22) Тогда последовательность {х*}, порождаемая алгорит- мом, содержит как подпоследовательность, сходящую- ся к точке минимума липшицевой (с константой /С) функции <р(х), так и подпоследовательность, сходя- щуюся к точке максимума этой функции (если вы- полняется достаточное условие сходимости (2.17)). Заметим, что использование выражений (5.18) — (5.22) в монотонных и рандомизированных алгорит- мах также позволяет применять эти алгоритмы для
§ 5] ДРУГИЕ МОДИФИКАЦИЙ 151 одновременного определения минимума и максимума функции ср(х). Пример. Оценка колебания (5.17) функции (5.15) в области хе [—10, 10] путем одновременного вычисления минимума и мак- симума этой функции с помощью монотонного алгоритма (с пре- образованием (3.63) для п = I — 2) при г = 2 и е = 0,001 по- требовала 115 испытаний, причем (с точностью до трех цифр после запятой) Л = 26,869. Решение этой же задачи путем независимого вычисления минимума и (отдельно) максимума потребовало в це- лом 205 испытаний. 4. Результаты численных экспериментов. В дополнение к иллю- страциям, рассмотренным выше, приведем результаты более пред- ставительного вычислительного эксперимента по минимизации с помощью АГП и МАГП нескольких сотен тестовых функций, по- рождаемых выражением (Дж. С. Хилл и Дж. И. Гибсон [1]) N * * > <р(х) = а0+ 2 F>siny x + ^cos ух|, х£[0, 1], (5.23) где коэффициенты а$ и bj суть равномерно распределенные в ин- тервале [-1.1] независимые случайные величины, a N— случай- ная величина, равномерно распределенная на множестве целых чисел, лежащих в интервале Г4.141- . Выбор системы тестовых функций (5.23) связан с тем обстоя- тельством, что функции, являющиеся отрезками ряда Фурье, встре- чаются во многих прикладных задачах оптимизации (например,
152 МИНИМИЗАЦИЯ ОДЙОМЁРНЫХ ФУНКЦИЙ [ГЛ. it - в задачах оценки максимального эквивалентного напряжения вдоль сечений элементов составной конструкции, которые возникают при расчете прочности —В. П. Малков и Л. П. Бех [1]). Результаты минимизации для шести различных выборок по 100 функций вида (5.23) представлены на рис. 5.2. При этом все функции одной выборки минимизировались при одинаковом значе* нии точности е в условии остановки (каждой выборке соответ- ствует свое значение е) и для всех выборок использовалось оди- наковое значение г == 2 в АГП и МАГП, Кривая Ц1(е) на рис. 5.2 изображает зависимость среднего числа испытаний при миними- зации с помощью МАГП от точности е (выборочные значения отмечены крестиками). Средняя эффективность АГП (число испы- таний в расчете на одну функцию) на тех же выборках обозначе- на через p,2(e) (см. кружки на рис. 5.2). Экспериментальные данные, представленные на рис. 5.2, по- казывают, что с ростом требуемой точности монотонный алгоритм становится заметно эффективнее исходного АГП (см. для сравне- ния теоремы 3.2 и 3.3). Выборочная надежность (относительное число правильно решенных задач) для обоих методов в целом по всем шестистам функциям оказалась не хуже 0,98. В заключение отметим, что стандартная программа (для ЭВМ М-222) монотонного алгоритма (с преобразованием (3.63) для n = 1 и / = 2), использованная в этих экспериментах, описана в работах Р. Г. Стронгина и И. В. Тришиной [1,2].
ГЛАВА III МНОГОМЕРНАЯ МНОГОЭКСТРЕМАЛЬНАЯ МИНИМИЗАЦИЯ В настоящей главе мы возвращаемся к многомер- ной многоэкстремальной задаче, сформулированной в § 1 гл. I и состоящей в оценке точки у* и значения <р* абсолютного минимума вещественной функции ф(у) в Af-мерном гиперкубе (или гиперпараллелепи- педе) D, т. е. Ф* = Ф (у*) = min ф(у\ (0.1) D = {у е : at у{ < bit 1 i < N}, (0.2) где у = (yi, ..., yN). При этом основной целью про- водимого ниже рассмотрения является обобщение од- номерных многоэкстремальных алгоритмов из преды- дущей главы для решения многомерных задач вида (0.1), (0.2) в предположении, что значения функции ф(у) могут быть вычислены достаточно точно (испы- тания без погрешностей). § 1. Предварительное обсуждение ' В первой главе мы уже рассматривали различные подходы к решению многоэкстремальных задач. Од- нако при этом рассмотрении мы не касались тех до- полнительных трудностей, которые возникают при ре- шении многомерных задач по сравнению с решением вадач одномерных, отложив такое обсуждение до на- стоящего параграфа. Основная трудность решения многомерных много- экстремальных задач вида (0.1), (0.2) вызывается ростом вычислительных затрат при увеличении раз- мерности пространства, содержащего область D. Если минимизируемая функция является липшицевой и ре- шение задачи осуществляется по методу перебора
154 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [ГЛ. III » (см. п. 3 § 4 гл. I), то с ростом размерности число уз- | лов соответствующей сетки увеличивается экспонен- | циально. I Экспоненциальное возрастание числа испытаний 1 остается справедливым и для оптимальных алгорит- 11 мов (В. В. Иванов [1], В. В. Леонов [Г], 1 А. Г. Сухарев [1]), которые являются значительно I более, экономными, чем перебор. Однако для этих ме- I тодов возникает еще и вторая трудность — построение I оптимальных покрытий сложных многомерных обла- | стей, необходимое для оценки экстремума и выбора 1 испытаний, является тяжелой вычислительной зада- 1 чей, методы решения которой известны лишь для не- 1 которых случаев. Для более простых (не оптималь- 1 ных) покрытий удается предложить вполне реализуе- I мые алгоритмы (см., например, Ю. М. Данилини С.. А. Пия веки й [1]), но и здесь вычисление оце- нок экстремума и выбор точек испытаний существен- но усложняются с ростом размерности пространства, поскольку они связаны с решением вспомогательных многомерных многоэкстремальных задач (более простых, чем исходная задача (0.1), (0.2)). Аналогич- ные трудности реализации решающих правил возника- ют и при вероятностных подходах (см., например, Р. Г. Стронгин [5], В. Р. Шалтянис [!])• Для упрощения решения задачи (0.1),' (0.2), как J уже отмечалось в первой главе, важную роль играет наличие некоторых специальных свойств минимизи- руемой функции ср(#). Эти свойства можно отнести к двум.}типам. Свойства первого типа позволяют свести решение многоэкстремальной задачи к решению зада- чи одноэкстремальной. Свойства второго типа обеспе- чивают уменьшение (редукцию) размерности задачи. Предположения о том, что глобальный экстремум является «глубоким» (т. е. значение функции в абсо- лютном минимуме существенно меньше, чем в локаль- ных минимумах) или «широким» (т. е. велик относи- ! тельный объем области притяжения глобального ми- нимума), представляют собой примеры свойств пер- вого типа. В первом из указанных случаев можно пе- рейти к оптимизации «сглаженной» унимодальной
§ 1] ПРЕДВАРИТЕЛЬНОЕ ОБСУЖДЕНИЕ 155 функции (см. п. 4 § 2 гл. I), а во втором случае до- статочно, например, осуществить локальный спуск из небольшого числа начальных точек (см. п. 1 § 2 гл. I) и т. п. Для обсуждения свойств второго типа воспользу- емся известным утверждением (см., например, Ч-. Карр и Ч. Хоув [1]), связывающим решение задачи (0.1), (0.2) для непрерывной функции ф(у) с решением последовательности «вложенных» одномер- ных задач: min<p(y)= min ... min ф({/15..., yN). (1.1) y;Ve[aN’b2v] Выражение (1.1), называемое обычно многошаговой схемой редукции размерности, в сочетании с некото- рыми дополнительными предположениями о функции лежит в основе ряда мощных вычислительных мето- дов оптимизации (см., например, Р. Веллман [1], В. С. Михалевич [1], Н. Н. Моисеев [1]). . Начнем с простейшего случая. Если ф(у) = S ф,-(«/,), 1=1 то, согласно (1.1), N min<p(y)=2/ min <pf(«/г)1 ySO i=l IviGp'i.bi] J и решение многомерной задачи сводится к независи- мому решению N одномерных задач. В более сложном и весьма важном для приложе- ний случае, когда N ф(У) = 5 Уд, 1=2 из (1.1) следует (см., например, Н. Н. Моисеев [1]), что . _ z . . пнпф(у)= min fx(y^ VN^[aN>bN]
156 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [Гл. Hi где A+i(t/i+i)= min {fi(yt) + <fi(yi,yi+i)}, 2<i<.V, /2(1/2) = min При этом решение многомерной задачи требует лишь табуляции одномерных функций fi(yt), 2 < i < N, причем вычисление каждого значения Д(у() предпола- гает решение одномерной задачи минимизации. Мы, однако, не будем останавливаться на деталь- ном рассмотрении упрощающих допущений первого или второго типа (эти вопросы освещены в указанных выше книгах) и ограничимся предположением, что минимизируемая функция из задачи (0.1), (0.2) яв- ляется липшицевой. В этом случае схема (1.1) не по- зволяет обойти трудности, связанные с экспоненци- альным возрастанием числа испытаний при увеличе- нии размерности задачи, но использование этой схе- мы существенно упрощает решающие правила алго- ритма многоэкстремальной оптимизации, поскольку, согласно (1.1), решение многомерной задачи (0.1), (0.2) сводится к решению одномерной задачи Ф* = тшф(у)= min Ф, (ух), (1.2) ySD l/iSfanbiJ где Ф«(1/1, • • •,Уд = min Фж(£/1, yt+d, Vi+ie[ai+i,bi+i] (1.3) Фм(01, Угд = ф(1/1, •• Угд, (1.4) причем каждое вычисление значения одномерной функции q>i(yd для заданного у\ предполагает мини- мизацию по у2 функции фг({/ь Уд и т. д. (см. (1.3)) до вычисления фл согласно (1.4). В связи с этим вы- ражения (1.2) — (1.4), вытекающие из схемы (1.1), в сочетании с одномерными алгоритмами послужили основой для создания ряда многомерных методов (см., например, Ю. Г. Евтушенко [1], С. А. Пи-
§ и предварительное обсуждение 157 явский [1], Р. Г. Стронгин [15])*). Последний из этих методов будет рассмотрен в следующем па- раграфе. Вместе с тем алгоритмы, построенные по схеме (1.1), имеют и ряд недостатков. При использовании этой схемы точность в условии остановки, обеспечи- вающем прерывание решения любой вложенной одно- мерной задачи вида (1.3), должна быть задана зара- нее, и если эта точность окажется недостаточной, то решение задачи в целом придется повторить заново (с большей точностью). С другой стороны, если точ- ность завышена и решение задачи прерывается в свя- зи с окончанием вычислительных ресурсов, то полу- ченное приближение будет соответствовать оценке ми- нимума функции в некоторой подобласти области D, поскольку схема (1.1) предполагает последовательное решение задач минимизации функции ф(у) в подоб- ластях области D (см. выражения (1.2) — (1-4)), ко- торые постепенно заполняют D (поэтому в случае пре- рывания в значительной части области D может не быть ни одного испытания, хотя в другой части уже построено покрытие, отвечающее заданной точности). В связи с этим представляет интерес рассмотрение также и других схем, редуцирующих многомерные задачи к одномерным. Такая редукция может, напри- мер, быть выполнена с помощью кривых (мы будем называть их развертками) Пеано. Известно, что отрезок [0, 1] вещественной оси мо- жет быть однозначно и непрерывно отображен на ги- перкуб D с RN. Отображения такого рода обычно на- зывают кривыми Пеано (см., например, Н. Н. Л у зи н [1]). Пусть у(х)> х е- [0, 1], есть кривая Пеано. Тог- да из непрерывности ср (у) и у(х) и равенства D= [у (х) : 1} (1.5) следует, что min(p(y)= min <р(у(х)), ’ (1.6) y=D хе[о,1] *) Заметим, что метод перебора в многомерном гиперкубе также обычно реализуется по схеме (1.1).
158 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [ГЛ. П1 т. е. решение многомерной задачи минимизации ф(у) сводится к минимизации одномерной функции <р(у(х)) (В. С. Брусов и С. А. Пиявский [1], Р. Г. Стронгин [10, 12, 13, 16]). Схема редукции (1.6) обеспечивает построение по- степенно уплотняющейся под заданную точность не- равномерной сетки сразу во всей области О, и поэто- му в случае прерывания вычислений будет получена оценка минимума для' всей области D (но с точ- ностью, меньшей, чем заданная). Следует отметить, что и эта схема имеет свои недостатки. При ее использо- вании теряется часть информации о близости точек в многомерном пространстве (точки у' и близкие в гиперкубе D из (1.5), могут иметь прообразы х' и х" при соответствии у(х), которые не являются близкими в отрезке [0, 1]). Этот недостаток может быть в оп- ределенной степени преодолен, если для точки у, в ко- торой вычислено значение функции, восстанавливать все прообразы х, переводимые в нее соответствием у(х) (т. е. вычисление одного значения <р(у), у е /9, интерпретируется как вычисление нескольких значе- ний <р(//(х)), хе [0, I]). Все эти вопросы и соответствующие вычис- лительные схемы будут рассмотрены в третьем и четвертом параграфах. Там же обсуждаются возможности исполь- зования более простых, чем кривые Пеано, глад- ких разверток, покрывающих заданную 8-сетку в гиперкубе D ‘(при этом равенство в (1.6) выполня- ется лишь с точностью порядка #8, где К — константа Липшица функции ф(у)). Глава заканчивается описанием результатов экс- периментального сравнения нескольких алгоритмов многоэкстремальной оптимизации на выборке из ста задач (§ 5). В заключение отметим, что в настоящее время рас- сматриваются и некоторые приближенные методы све- дения многомерных задач к задачам меньшей размер- ности, с которыми читатель может познакомиться, например, в работах В. Шалтяниса и А. Вар- на й т е [1, 2].
§ 2] МНОГОШАГОВАЯ ОПТИМИЗАЦИЯ 159 § 2. Многомерные алгоритмы с редукцией размерности по схеме многошаговой оптимизации 1. Схема многошагового алгоритма и вопросы схо- димости. Пусть минимизируемая функция ф(у) = == ф(уь ...» yN) определена в гиперкубе (или гипер- параллелепипеде) D из (0.2). Тогда, как уже отмеча- лось в § 1, решение многомерной задачи минимизации (0.1) может быть сведено к решению последователь- ности вложенных одномерных задач, записанных в правой части (1.1), которые можно также представить в виде (1.2) — (1.4). Введем обозначения v(=. (yi, .... Уд, и определим функции y*+l = y*+i (®г), 1 < i < ЛГ, как решения одномерных задач из правой части (1.3), со- ответствующие заданным векторам г?,-, 1 i < N, т. е. Фг(«’г) = = = min <р,+1(г»г,</1+1). (2.1) аг+1<»1+1<ьг+1 При этом функции ф.(»() определены в областях Dit являющихся проекциями области D на координатные оси yi, ..., у,, т. е. Dt = {и s l^j^i}. Если обозначить через у\ решение одномерной зада- чи из правой части (1.2), т. е. Ф1(У1) = min Ф1(У1)> (2-2) то, согласно (1.2) — (1.4) и (2.1), (2.2), вектор у' ^D, определяемый условиями У\ = У\-> У^х У\^\[У^ ••• ..., Кл<Л/, является решением задачи (0.1),т.е.
160 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [ГЛ. III Воспользуемся алгоритмом глобального поиска из § 2 гл. II для решения одномерных задач (2.1), (2.2), дающих решение многомерной задачи (0.1), и будем сокращенно именовать такой метод АГП-М (алгоритм глобального поиска многошаговый). При этом естест- венно допустить, что точность е в условии остановки (2.2.12) при минимизации по переменной у( (обозна- чим указанное значение точности через е4) может от- личаться от требуемой точности при минимизации по другой координате. В связи с этим будем характери- зовать АГП-М вектором точностей s= (ei, .... ew). Аналогично введем вектор г = (гь ,.., rN) значений коэффициентов г из (2.6), определяющих значения ве- личины пг при минимизации по у{, 1 i N (будем обозначать эти значения через mf). Заметим, что поскольку одномерные задачи (2.1) решаются приближенно, то функции <р, (vf), определен- ные через операцию взятия минимума, не являются непосредственно вычислимыми. Действительно, вычисление <px_i(t»N_i) для задан- ного Vft-i состоит в минимизации с помощью АГП функции cpw(fw) =<р(у) по у я. В результате будет получена приближенная оценка (2.2.13) минимально- го значения <pN-i (vw-i), которую обозначим через i|)w_i(vN_i). Поэтому вычисление фк-з^х-г) для за- данного vn-2 будет осуществляться уже как прибли- женная минимизация функции it>N-i(vN_i) по yN-i и результатом этой минимизации будет соответствую- щая оценка (2.2.13), кторую обозначим через фк-г^-г), и т. д. Наконец, оценку (2.2.13) решения задачи (2.2) обозначим через Ф*. Теперь естественно поставить вопрос о близости полученной оценки ф# и искомого минимального значения ф* из (0.1), (1.2). Ответ на этот вопрос дает следующая теорема. Теорема 2.1. Пусть при любом i, 1 i N, функции ф<(»(), ViGDj, являются липшицевыми с константами Ki. Тогда для приближения ф., получае- мого при решении задачи (0.1) путем минимизации функций (2.1), (2.2) с помощью АГП, справедливо, что lim ф* = ф*, (2.3) et->0
§ 2] МНОГОШАГОВАЯ ОПТИМИЗАЦИЯ 161 если еж = 0^), (2.4) w, кроме того, при прерывании минимизации по у{ вы- полняется неравенство 2Л, + Д, 1 Д > 0. (2.5) Доказательство. Пусть для некоторого i, \ справедливо, что |фг(^) — гМ^)| (2.6) Это условие выполняется при i = N, если положить (Vn) == фдт И бл :=: 0. Допустим далее, что функция минимизируется по в интервале [af, b<] с помощью АГП при точно- сти Ei и значении гъ обеспечивающем выполнение не- равенства “>’• <2-7> где Тогда из теоремы 2.6 гл. II, учитывая определения функций (pf_i(Vi_i) и фг—1 (vf-i), получаем оценку , а/(.8. — 4- Vi-i^Di-1, из которой следует, что неравенство (2.6) справедли- во также при i — 1 > 0, если положить аК-в. 6i_i = бг + (2.9) Предположим теперь, что условия (2.7) выполне- ны при каждом значении i, 1 N. Тогда из (2.6), (2.9) и 6jy = 0 получаем N I Ф* - % I < 61 + 1 = Т 2 откуда, согласно (2.4), следует (2.3). П Р. Г. Стронгиц
162 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [ГЛ. III Остается показать, что условия (2.4) и (2.5) обес- печивают выполнение неравенств (2.7) при достаточ- но малых в;, 1 i N. В силу (2.5) min (/пг-2/С4)>Д>0, и, следовательно, при достаточно большом числе а > 1 и достаточно малом числе £ > 0, где • Р> max pj (2.10) и Pj из (2.8), неравенство (2.7) должно выполняться при любом i. Наконец, из (2.8) и (2.9) имеем что позволяет выбрать достаточно малое р в (2.10), если е( достаточно мало (см. (2.4)). Q Таким образом, доказанная теорема указывает не- обходимое взаимное согласование координат вектора точностей е в АГП-М и согласование координат век- тора коэффициентов г со значениями констант Лип- шица, . соответствующих функциям из одномерных подзадач (2.1)., (2.2). Достаточным условием липши- цевости этих функций является липшицевость исходной функции <р(у) из задачи (0.1) в области D из (0.2), причем в этом случае Kt= К, I i N (доказатель- ство этого утверждения будет дано в следующем пункте). Замечание. Одномерные подзадачи (2.1)', (2.2) можно решать и другими алгоритмами из третьей главы, например монотонными или рандомизирован- ными. В результате получим монотонный многошаго- вый алгоритм (МАГП-М) и рандомизированный мно- гошаговый алгоритм (РАГП-М). В некоторых случаях может оказаться целесообразным применение сме- шанных многошаговых алгоритмов, когда для одно- мерной-минимизации по различным координатам ис- пользуются различные типы одномерных алгоритмов (мы вернемся к этому вопросу в следующем пункте),
МНОГОШАГОВАЯ ОПТИМИЗАЦИЯ 163 § 21 2. Минимизация в выпуклой области с вычислимой границей. Схема редукции (1.1) может быть исполь- зована и для более сложных областей, чем (0.2). Пусть, например, функция ср(^) определена в области D вида (плоский треугольник) D = {у <= R2: 0 < у2 yi < 1}. Тогда min ср (у) = min ( min q>(«/i, </2)l = = min f min <p (yr, y2)]. o<y2<i b2<y.<i > Рассмотрим теперь произвольную выпуклую область DaRN. Обозначим через S1+i = S<+i(Vi) сечение мно- жества D, т. е. Shi (vf) =. .........у») e RN~{: • (Vi,yi+i..yN)^D}, и Si = D. Поскольку множество D предполагается выпуклым, то проекция P(Si+i) на ось yi+i любого сечения S(+] необходимо является интервалом, т. е. P(Si+i(vt)) = [ai+1, &i+1] = [a(+i(Vi), bi+i(Vi)], l^i<N, (2.11) HP(Si)' =P(D) = [a1( M. Определим, согласно (2.1), функции <pi(Vi), пола- гая, что роль граничных пар аг+ь в (2.1) играют границы соответствующих интервалов из (2.11), за- висящие от векторов vf. Заметим, что указанные функ- ции <pi(vf) определены в областях D(, являющихся проекциями множества D на пространства R‘ с коор- динатными осями t/ь yi, 1 I N. В результате решение многомерной задачи (0.1) для произвольной выпуклой области D, так же как и для области (0.2), сводится к решению последовательности одномерных подзадач вида (2.1), (1.2), однако при этом требует- ся, чтобы границы любого интервала (2.11) были вы- числимы для заданного значения вектора vt. Теорема 2.1 остается справедливой и для этого случая, если функции <p2(v2) являются липшицевымц ,11*
164 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1ГЛ. Ill в областях Di. Следующая лемма указывает некото- рые условия, при которых липшицевой функции ф(у) соответствуют липшицевы функции фг из (2.1). Лемма 2.1. Пусть функция ф(у), у D, являет- ся липшицевой с константой К и граничные пары из (2.11) являются кусочно линейными функциями вида ai+i(Vi)= max {аУс^ + ДУ}, l<f<A\ (2.12) Ьж(^.) = min + 1<1<АГ, (2.13) где aViVt, ₽1ог есть скалярные произведения век- торов из R‘ и AVi, Bi есть константы *). Тогда функ- ции Dh являются липишцевыми с констан- тами Ki, 1 i N, где N— 1 Kn = K, Ki^Kl[(l + ^), l^i<N, i=i (2.14) %} = max f max |aj||, max ||₽}|P.. J - Заметим, что если область D является гиперпарал- лелепипедом, то все векторы аУ и рУ должны быть нулевыми и, согласно (2.14), Кг — К. 1 i /V. Доказательство. Из (1.4) и условий леммы следует, что cpN есть липшицева функция (с констан- той Kn = К) на множестве DN = D. Пусть для некоторого i, 1 i < N, функция cpi+1 является липшицевой с константой Ki+i из (2.14) на множестве Di+i. Покажем, что в этом случае функция фг- из (2.1) также является липшицевой с константой Ki из (2.14) на множестве Dit Оценим разность А = I Ф; Ы - Фг (®«) I = = | <рж (vi, y*i+l (vi)) - <p1+i(vh y*+l (ог))|, *) Представление граничных пар (2.11) в виде (2.12), (2.13) возможно, например, если область D является выпуклым много- гранником.
$21 МНОГОШАГОВАЯ ОПТИМИЗАЦИЯ 165 где Vt^Di, vt =г»( + Дг>(еО( и, согласно (2.1), (vt, y*+i(Vi))^Di+l, (&, 0i+i(v{))Di+1. Допустим, что Фг(»г) > Ф*(М (2.15) (обратное неравенство рассматривается аналогично), и разберем три возможных случая: У*г+ч (®г) < ai+l (®г), "i+l (®i) C y*+i (vt) < &1+1 (Vi), yi+i(Vi). Для этих трех случаев, учитывая (2.15) и справедли- вость условия Липшица для функции фг+1» соответст- венно получаем Фг (®г) < ФИ1 ai+i (®,)) < < Фг (®г) + tfi+i fl + max ||аТП|| Д®г f, Фг (®г)< Фг+i (®г, У*+1 (Vt)) < <p; (vt) + Ki+l || bvt ||, Фг (® <) < Фг+i («г, bi+i (<Di)) < < Фг (Vi) + Ki+i (1 + max | рШ || А®г Ik откуда следует, что A /Cf+i||Avf||(1 +Хг), где X, то же, что и в (2.14). Из последнего неравенства выво- дим оценку которая дает (2.14), если применить индукцию по • Замечание. В общем случае из липшицевости функции ср(у) не следует, что функции (pf из (2.1) так- же будут липшицевыми. Для иллюстрации рассмот- рим пример функции, которая является липшицевой* в круге единичного радиуса с центром в начале коор- динат, представляющем собой область минимизации, т. е. ч D=b>e£2: У1 + У1<1}- (2.16)
166 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1гЛ. nt В этом случае Р (SJ = [—1,1], Р (S2) = |^— 1 — у2, У1 — г/|] и функция ф2 = Ф является липшицевой с константой К. Что касается функции ф1 (r/i), то, про- ведя рассуждения, аналогичные доказательству лем- мы 2.1, получим оценку —Ф1 (1/1)1 14- 4- к | ri-d/x + Az/J2 - 1 < </<(14-/2)]/[А^П, т. е. функция ф] (г/i) удовлетворяет обобщенному ус- ловию Липшица (2.4.1) в метрике (2.4.2), где функция f имеет вид У| Дх|. Поэтому для минимизации функ- ции ф(уь г/2) по многошаговой схеме (1.1) в области (2.16) можно применить смешанный алгоритм, соглас- но которому минимизация ф2 по У2 выполняется с по- мощью АГП из §2 гл. II, а минимизация ф1 поу\ вы- полняется с помощью обобщенного алгоритма (ОАГП) из § 4 гл. II при метрике (2.4.2), определяемой функ- цией f указанного выше вида. 3. Невыпуклые и неодносвязные области. В общем случае, когда область D из задачи (0.1) не является выпуклой, проекции P(S;) сечений 5<(г»,-1) могут быть отличны от интервалов. Так, например, если D={y(=R*'. 1<^ + г/2<4}, т. е. область D — плоское кольцо, то P(Si) = [—2, 2], но РШ* И— а, а], — 2<^<-1, ([-а,-PlUlP.a], - 1<1/1<1, где а = |Л4 —z/2 и ₽ = 1 — 1/|. . Но и в общем случае можно свести решение мно- гомерной задачи (0.1) к решению одномерной задачи (1.2), если определить функцию ф] из (1.2) через
§ 21 МНОГОШАГОВАЯ ОПТИМИЗАЦИЙ 167 последовательность функций 4i(vt)= min t/i+i), v f+iep(Si+i(’i)) ..............(2.17) где, как и в (1.4), <pN = <р. Заметим, что решение одно- мерных задач вида (2.17) для проекций P(Si+i), яв- ляющихся объединениями непересекающихся отрез- ков, может быть выполнено с помощью модификации АГП, предназначенной для минимизации на системе отрезков (см. п. 2 § 5 гл. II). Для практической реа- лизации такой схемы важно лишь, чтобы границы от- резков, составляющих проекцию P(St+i (»<)), были бы непосредственно вычислимы для любого заданного v{ eDt. В заключение обсуждения многошаговых алгорит- мов приведем пример численного решения многоэкст- ремальной задачи максимизации в плоской невыпук- лой области. Пример. Пусть максимизируемая функция -*) имеет- вид- <Р(У1. Уг) = 1,5у|ехр[1 — — 20,25 — У,)1] + + (0,5^- 0,5)* (у8 - I)4 ехр [2 - (0,5ух - 0.5)4 - (у,- I)4 ] и область D определяется условиями (у1-.2,2)’+(у1-1,2)»<(1,5)8, + I- Для иллюстрации на рис. 2.1 изображены граница области D («серп») и линии постоянного уровня функции <р. Задача решалась с помощью монотонного многошагового ал- горитма (МАГП-М — см. замечание в п. 1) при . tii = 0,7 < у\ 3,7 = Ъи ( _______________ / Zt/i—2\21 а2 (yi) « max |1,2 -1/2,25 - (ух - 2.2)3, 21 - j. | < < У г < 1,2 + 1/2,25 - (I/! - 2,2)« = bi (У1). *) Указанная функция рассматривалась в работе К. И о с а к и и др. [1].
168 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ (ГЛ III Получено приближение (заданная точность 8| = ej = 0,001) у* = 0,942, 1/2 ~ 0,945, ср* = 1,489. Время решения (на ЭВМ М-222) составило менее 10 секунд (ис- пользовалась стандартная программа, описанная в работе Р. Г. Стронгина и И. В. Тришиной [3], нашедшая приме- нение в некоторых системах оптимального проектирования — см. В. П. Малков и Л. П. Бех [2]). § 3. Многомерные обобщенные алгоритмы с редукцией размерности при помощи разверток В этом и следующем параграфах будут рассмот- рены вопросы, связанные с решением задачи (0.1), (0.2) по схеме (1.6), когда многомерная задача реду- цируется к одномерной с помощью развертки у(х), отображающей отрезок [0, 1] вещественной оси на область D (см. (1.5)). 1. Развертка типа кривой Пеано. Рассмотрим од- но из отображений у(х), для которого справедливо (1.5), (1.6) и которое будет использовано в дальней-
§ 3] РЕДУКЦИЯ Пйи ПОМОЩИ РАЗВЕРТОК 169 шем для построения численных методов. В качестве такого отображения выберем кривую Пеано, опреде- ляемую построением, предложенным Гильбертом, ибо такое построение наиболее просто обобщается на многомерный (Л/' > 2) случай. При этом нам потре- буется' несколько более детальное, чем обычно Рис. 3.1. (см., например, Н. Н. Лузин [1]), конструктивное описание, пригодное для последующего создания ал- горитмов приближенного вычисления таких кривых. Указанное построение непрерывного однозначного отображения у(х) отрезка [0, 1] на гиперкуб '(область (0.2), очевидно, приводима к виду (3.1) ли- нейным преобразованием координат) состоит в сле- дующем. 1) Гиперкуб D из (3.1), длина ребра которого рав- на 1, разделяется координатными плоскостями на 2N гиперкубов «первого разбиения» (с длиной ребра, равной 1/2), которые занумеруем числами г\ от 0 до 2V—1, причем гиперкуб первого разбиения с номе- ром 2] условимся обозначать через Z)(zi) (случай М = 2 изображен на рис. 3.1). Далее, каждый гиперкуб первого разбиения в свою очередь также разбивается на 2N гиперкубов второго
170 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1ГЛ. lit разбиения (с длиной ребра, равной 1/4) гиперплоско- стями, параллельными координатным и проходящими через серединные точки ребер гиперкуба, ортогональ- ных к этим гиперплоскостям. При этом гиперкубы второго разбиения, входящие в гиперкуб D (zi), ну- меруются числами 22 от 0 до 2W— 1, причем гиперкуб ар , _ ,, ар ..z . ар гтЕ-1-I-I I I И-fl I II-1-1...................!-]/? da9dn^Wa^daPd(Wd(ipd(lPd&d(p)d^d^d(3/l)dai)d(pdti(W Рис. 3.2. второго разбиения с номером z2, входящий в D(z\)', условимся обозначать через D(zi, z2). Продолжая указанный процесс, можно построить гиперкубы любого m-го разбиения с длиной ребра, равной (1/2)т, которые условимся обозначать через D(zx,.zm), причем ; . D(zx) zz>D(zi, z2) то ... =>D(z}, ., zm\ и 0 Zj^ 2я — 1, 1 sj / tn. 2) Теперь осуществим деление отрезка [0, 1] на 2я равных частей, каждую из которых в свою очередь также разделим на 2х равных частей и т. д., причем элементы каждого разбиения нумеруются слева на- право числами Zj (j—номер разбиения) от Одо 2я—1. При этом интервалы т-го разбиения условимся обоз- начать как d(zi.....zm), где, например, d(z\, z2) обозначает интервал второго разбиения с номером г2, являющийся частью интервала d(zi) первого раз- биения с номером Zi. Заметим, что d(2i) => d(zb z2) =>...=) d(zi, ., zm) и длина интервала d(zit ,.zm) равна (l/2)mW. Предполагается, что интервал d(2i, ..., zm) содер- жит свой левый конец; он содержит правый конец тогда и только тогда, когда 21 = z2 = ... =zm = 2я — 1
§ з) Дедукция при помощи разверток 171 (случай N == 2 изображен на рис. 3.2 для т = 1 и т = 2). 3) Примем, что точка у(х) ^D, соответствующая точке хе [0, 1], при любом tn 1 содержится в ги- перкубе £>(zi, .... zm), если х принадлежит интервалу d(zit ..., гот),т. е. хеф, ..., zm) —+у(х) ^D(zi, zm). Построенное соответствие у(х) является однозначным. 4) Для любого xed(2i.....zm) справедливо, что Следовательно, если представить х в виде двоичного числа с фиксированной запятой, т. е. х 1у 2 ) (3.2) где a,i есть двоичные цифры (ос4 = 0 или а4 = 1), то по первым mN цифрам он,..., атк этого числа можно указать гиперкуб т-го разбиения D(zi, ..., zm), со- держащий точку у(х), поскольку N—1 Zj = 2 —»(2!), (3.3) 1=0 где из (3.2). To есть точка y(x) может быть оценена с точностью (l/2)m+1 по каждой координате, если дано (3.3). «* 5) Чтобы построенное отображение было еще и непрерывным, наложим требования на порядок, нуме- рации гиперкубов каждого разбиения. Определим вектор zm == (гь ..., zm), соответствую- щий гиперкубу D(zi.....zm) т-го разбиения,_и усло- вимся, что вектор zm предшествует вектору zm, если при m 1 либо Z\ < Z], либо существует такое k, 1 k <_ m, что Zj = zjt 1 k, п z»+i < zk+i. Введенное отношение предшествования устанавли*. вает совершенный строгий порядок на множестве 2™*
172 Многомерная мййймизаЦи^ (ГЛ. 1й различных векторов zm, минимальным элементом ко- торого является вектор (0, 0), а максимальным — вектор (2W — 1, ..., 2N — 1). Будем говорить, что векторы zm и zm (и соответст- венно гиперкубы D(zi, ..zm) и D(zit ..zm)) явля- ются смежными, если один из них предшествует дру- гому и не существует вектора zm такого, что zm-<7т-<"гт или "zm<(zm-<zm, где — символ отношения предшествования. Теперь для непрерывности построенного отображе- ния достаточно, чтобы смежные гиперкубы любого т-го разбиения (т 1) имели общую грань. Рас- смотрим один возможный способ установления такой нумерации. 6) Введем вспомогательный гиперкуб Д = {у е : — 2^ yt 2, 1 sC i N}, (3.4) который разделим координатными плоскостями, про- ходящими через начало координат, на 2V частей. За- нумеруем числами s от 0 до 2* — 1 гиперкубы, состав- ляющие указанное разбиение, и условимся обозначать часть гиперкуба Д, получившую номер s, через Д(«). Назовем центром u(s) гиперкуба Д(з) точку «(s) удовлетворяющую условию |u((s)| = l, т. е. абсолютное значение любой координаты этой точки равно 1. Теперь для того, чтобы гиперкубы Д(з) и Д(« + 1) при 0 sS s < 2N—1 имели общую грань, необходимо и достаточно существование такого номера j = j (s), 1 N, что “i(s+1)-( ut(s), (3-5) т. e. центры этих гиперкубов должны отличаться лишь одной координатой. Опишем возможный способ нумерации числами s, удовлетворяющий требованиям (3.5). Введем двоич- ное дерево, содержащее N ярусов, нумеруемых снизу
§ 3] РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 173 вверх (двоичное дерево для случая N = 4 изображе- но на рис. 3.3)*). Вершины и узлы этого дерева бу- дем называть точками. Занумеруем точки дерева чис- лами s таким образом, чтобы номер любой точки в левом поддереве, соответствующем некоторому узлу, (~ЛЛ) (~ШУ (~ШЛ) (ШЛ (ШЛ) d-Ш (ЛЛЛ) шллу Рис. 3.3. был меньше, а номер любой точки из правого подде- рева, соответствующего тому же узлу, был больше, чем номер общего узла (корня) этих поддеревьев. Тогда нумерация в любом поддереве начнется с самой левой вершины верхнего (Л/-го) яруса, принад- лежащей данному поддереву. После завершения ну- мерации некоторого поддерева нумеруется узел, для которого это поддерево было левым, и начинается нумерация правого поддерева, соответствующего дан- ному узлу. В качестве минимального номера при- мем I. Тогда максимальный номер равен 2ЛГ—1 (см. рис. 3.3). Теперь установим взаимно однозначное соответст- вие между точками дерева и центрами гиперкубов, составляющих разбиение множества Д из (3.4), и при- пишем каждому центру номер соответствующей ему точки. Положим к(0) = (—1, ..., —1) (заметим, что в дереве нет точки с номером 0). Пусть известен вектор u(s), где $ 0. Тогда оп- ределим вектор u(s + 1) из (3.5), приняв в качестве j = j(s) номер яруса в дереве, содержащего точку с номером s + 1. *) Понятие дерева дается в любой книге по теории графов (см., например, О. Ope [1]).
174 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1ГЛ. HI Заметим, что если s — четное число, т. е. s = 2k, то ' j(2k)=N, 0<6^2"~i —1, ибо вершины с нечетными номерами s + 1 лежат в ярусе N и, следовательно, ( нг(2б), 1</<У, и, (26+1)= ‘J ' (3.6) ‘ ' I — «i (26), i = У. ' ' Поскольку в дереве не существует последователь- ности точек с номерами 1, ..., $, содержащей четное число вершин и узлов из каждого яруса, то различ- ным номерам s соответствуют различные векторы «(s), т. е. нумерация охватывает все 2N гиперкубов A(s), если сопоставить гиперкубу номер содержаще- гося в нем центра. Отметим также, что и (2N— 1) = = (1,—1, ..., —1), ибо при переходе от и(0) к u(2N—1) проходятся (в порядке нумерации) все точ- ки дерева, содержащего четное число точек во всех ярусах, кроме первого. Для иллюстрации номера s и вектора и (s), соответствующие случаю N = 4, указа- ны на рис. 3.3. 7) Установим некоторые свойства введенной ну- мерации A(s), которые понадобятся в дальнейшем. Каждому вектору u(s) сопоставим число l(s) и век- тор v(s) такие, что /(26) = /(26—1) = /(26—1), 1 ^6<2N-’-1, (3.7) /(0) =/(2W — 1) = У, (3.8) где / из (3.5), и Vi (26) = vt (26 - 1) = H;(26— 1), 1<1<У, - и, (26 - 1), / = У, (3.9) г>(0)=«(0). (3.10) Таким образом, если s — нечетное число, то Z(s) есть номер координаты, которой вектор a(s-]-l) отлича- ется от вектора u(s), a v(s) отличается от u(s) лишь
РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 175 § 3] lV-й координатой и, в силу (3.6), (3.9), v(2&+ 1) = м(2й), 0 sS/? ==£ 2Л'-'—1. (3.11) Из (3.7) следует, что l(2k)^N, 1^1г^2я~' — 1, ибо j(2k—1) ф N. Тогда, последовательно используя (3.11), (3.5) и (3.9), получим М2* + 1) = _W2Z>), (2k), i^N, ~\~Vi(2k), i = l(2k), i = N, (3.12) и, кроме того, согласно (3.10), (3.11), v(l)=v(0). (3.13) 8) Рассмотренное правило нумерации порождает вектор и (2я — 1), отличающийся от вектора и (0) лишь первой координатой. Построим на основе этого правила другую нумерацию, при которой начальный и конечный центры отличаются координатой с номе- ром t. Центр, имеющий номер s при этой нумерации, и соответствующие ему вектор v и число I соответст- венно обозначим через m‘(s), v‘(s) и l‘(s). Положим «‘ (s) = (m((s), u2(s).«i-i(s), «i(s), uN(s)). (3.14) Тогда векторы v‘(s) получаются из v(s) перестанов- кой координат в (3.14), и • t»i ($) и о( (s), подобной перестановке ’/(s), /(s)#=l, l(s)^t, l'(s) = • 1, /(s) = /, (3.15) При этом J,. Z(s) = l. Ui (2N-1) = Ui (0), i t , t (3.16) -«1(0), i=t,
176 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [ГЛ. 1П Зафиксируем произвольное целое значение /, 1 t N, и применим введенное правило нумера- ции еще и для случая, когда в качестве начального центра выбран произвольный вектор w‘(0), абсолют- ные значения координат которого равны единице. Центр, имеющий при данном начальном векторе номер s, будем обозначать через «'($), а соответствующие ему вектор v и целое число I — через v'(s) и /($). Тогда t4(s) = - Mi(*) «'(0), l<i<7V, (3.17) v?(s) = -c4(s)u'(0), (3.18) ?(s)=f(s). (3.19) Таким образом, мы установили способ нумерации гиперкубов Д(«), приписывающий любому заданному гиперкубу нулевой номер, обеспечивающий наличие общей грани у гиперкубов Д($) и Д($+1) и удов- летворяющий условию (3.16) для заданного t. 9) Воспользуемся правилами нумерации элемен- тов A(s) разбиения гиперкуба Д из (3.4) для уста- новления нумерации по гт гиперкубов D(z\.......zm) каждого m-го разбиения, обеспечивающей наличие общей грани у любых двух смежных гиперкубов. Для нумерации гиперкубов (т+1)-го разбиения, входящих в гиперкуб D(zi.......zm) (или в D при т=0), введем линейное отображение g, сопостав- ляющее точке y^RN образ g(zb zm; у) и такое, что g(zlt ..., zm; D(zi, ..., zm)) = Д. Теперь примем, что гиперкубу D(zt, ..., zm, zm+t) со- поставляется номер zm+i = s тогда и только тогда, когда он является прообразом элемента A(s) разбие- ния гиперкуба Д из (3.4), т. е. ^-т+1 — S * * g (Zj, . . ., Zm't D(Zi, . . ., Zm, Zm+i)) =: Д (s), (3.20) причем нумерации элементов A(s) no s при каждом наборе значений z\, ..zm могут соответствовать свой
РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 177 § 3J начальный вектор «‘(0) И свое число t (см. (3.14) — (3.19)). Проведенная нумерация гиперкубов D(zb zm, Cm+i) по zm+i (для каждого набора Zi, ..., zm) сопо- ставляет каждому такому гиперкубу центр u(zm+1) элемента Д (zm+i), являющегося его образом при ото- бражении g (см. (3.20))’, и соответствующие этому центру число l(zm+i) и вектор v(zm+j.) из (3.7) — (3.10), преобразованные для заданных «‘(0) Ч Тогда отображение g из (3.20), очевидно, можно представить как g(*x.....zm;y) = 2m+2 ---------. V ' (3.21) .где a(zi), ..., «(zm) есть центры, сопоставленные гиперкубам D(zi)z3 ...^>D(zi, ,.zm), причем случаю т = 0 соответствует g(y) f= 4y, у е RK. Завершим процесс нумерации, положив, что при нумерации по zm+i гиперкубов (пг+1)-го разбиения, входящих в D (zi, ,,Zm), начальный центр и (0) (т. е. центр элемента Д (0) разбиения гиперкуба Д) и число t выбираются согласно правилу u(0).= v(zm), f==/(zm)’, (3.22) где v(zmJ и l(zm) соответствуют гиперкубу D(z\, ... ,£»), причем при /п.= 0 примем t И(О).= (-1, .... -1), ?==1. \ (3.23) Теорема 3.1. Введенная нумерация обеспечи- вает наличие общей грани у любых двух смежных гиперкубов из любого т-го разбиения (т 1). Доказательство. Заметим, что при любом zb 0^Zi<2w—1, гиперкубы D(zi) и D(z1 + 1) имеют общую грань, лежащую в плоскости, ортого- нальной к /(zi)-ft координатной оси, где /(zi) из (3.5), поскольку таким свойством обладают образы A(zi) и A(zi-f-l) этих гиперкубов при соответствии (3.20). Пусть теорема справедлива для гипёркубов любо- го k-co разбиения, где Покажем, что 12 р, г. Стронгин
178' МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1ГЛ. HI тогда она справедлива и для гиперкубов (т’4-1)-го разбиения. Поскольку гиперкубы D(zi.....zm+i) составляют /n-е разбиение гиперкуба D(zl), то при любом фик- сированном 21 смежные гиперкубы D(zlt ..zm+i) имеют общую грань. Остается показать, что для лю- бого Zi, 0 Z] •< 2N — 1, гиперкубы D(zi, 2W— 1, 2N— 1). и D(zi4-1, 0.......0) (3.24) также имеют общую грань..1 Заметим, что, согласно (3.21), точка т ' У(г1(...,гт)=2(4-У+1й^) (3-25) j=i' / принадлежит всем гиперкубам (m-f-l)-ro разбие- ния, входящим в D(zi, .... zm). В связи с этим усло- вимся именовать точку (3.25) центром гиперкуба D (zi, .,., zm). Теперь необходимое и достаточное ус- ловие существования общей грани у гиперкубов из (3.24) можно записать как условие существования такого номера I, 1 N, что " |f/i(z1,2iV — 1.2N-l)-z/i(z14-l,0, . ..,0)| = f 0> i =^= h -{(1/2ГЛ <3-26). т. e. центры указанных гиперкубов должны различать- ся лишь одной координатой и абсолютная разность значений этой координаты должна равняться длине ребра гиперкуба (/п+ 1)-го разбиения. Введем обозначения «(zr...zm; zm+i), v(zlt .. .,zm; zm+i), /(zi.zm; zm+i) для векторов «(zm+1), v(zm+1) и числа /(zm+i), соответствующих гиперкубу D(zi....zm, zm+1), поскольку нам потребуется ин- дикация гиперкуба m-го разбиения, содержащего данный гиперкуб (/«+ 1)-го разбиения. Пусть Zi = 2k — 1, 1 k 2W-1 — 1, т. е. гь есть нечетное число, причем Zi=/=2W—1. Тогда при нуме-
Ml РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 179 и,(гг.2" рации по z2 гиперкубов D(z\, z2), входящих в D(zi), в силу условий (3.22) и (3.7), имеем t= Ifo) N, u(zi\ 0) == v(zt), откуда, учитывая (3.9) и (3.16), / =/= I (Zi), i N, ,, ’ ' (3.27) l = /(2i), t=N, ’ -“i (21), t=£N следует, что /(гц согласно (3.9) и (3.27), (21), (21), причем из (3.8), (3.15) и 2" — 1) = Л/. Кроме того, ^2* <-1ы. '3-28> Теперь при нумерации по z3 гиперкубов D(zi, 2Л'—1, z3), входящих в D(z\, 2N—1), следует по- ложить (см. (3.22)) t = N, и(гь 2N — 1; 0) = v(zr, 2‘v — 1), откуда (см. (3.16), (3.27) и (3.28)) «(гь 2"—1; 2N — l) =«(zi; 2х- 1) (3.29) и (см. (3.8), (3.15)) /(гь 2"—1; 2"—1) = 1. (3.30) (Тогда, согласно (3.9) и условию (3.14), I — Ui (гх; 2 — 1), i = 1. - ’ (3.31 Далее, поскольку при нумерации по г4 t= 1, «(г1) 2W— 1, 2N — 1; 0) =v(zb 2"-1; 2I * * * V-1), то (см. (3.31), (3.16) и (3.8), (3.15)) ; u(Zi, 2N — 1, 2"—1; 2N— 1) =«(zi; 2N — 1), Z(zb 2N - 1, 2N— 1; 2N — 1) =/V = /(zi; 2N — 1), 12*
180 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [гл. rii что совпадает с ситуацией, рассмотренной при за- вершении нумерации по г2. Поэтому при лю- бом т > 1 _ u(zb 2N — 1...2V— 1; 2N — 1) = и(гь 2N — 1), что после подстановки в (3.25) дает y(*x.2W-l....2"-1)=. ~ 4 (й [1 - (4)и]« 2N - ’)}• <3-32) Теперь перейдем к нумерации гиперкубов, входя- щих в £)(zi + 1). Согласно (3.9) = v(zi)j. (3.33) и, в силу (3.5) и (3.7), “i (Zj + ) - ( _ U{ i = z (2jt Из (3.10), (3.22) и (3.33) следует, что v(zi + 1; 0) = м^ + 1; 0) = и поэтому tt(zi + 1, 0; 0) = V(Z1). Продолжая, получим u(zi + 1, 0..0; 0) =v(z!), что после подстановки в (3.25) дает y(Zi + 1,0, ...,0) = = (2i)j. (з.35)' Теперь из (3.32) и (3.35) вытекает справедливость (3.26) при Z = /(zi), поскольку векторы «(zj им(з14-, 4-1) (см. (3.34)) и векторы u(z\\ 2" — 1) и v(zi) различаются лишь /-ми координатами и, кроме то- го, Ui(zi4-J) = —^(zi).
§ з) РедукЦиЯ При помощи разверток 181 Пусть теперь Zi = 2k, 1 k 2W_1 — 1, т. е. Zi — четное число, причем Z\ Ф 0. Тогда из (3.7) сле- дует /(zi) =/(^1 — 1) Ф N и, кроме того, согласно (3.9) и (3.5), ; - Поскольку a(zi; 0)=t»(2i), то из / = /(zi), и (3.36) получаем Hj(2i:2"-1) = «,(21), - «i (*1), i^n; - i = N, (3.16) (3.37) и поэтому (напомним, что /^=Л/), согласно (3.9), »(2ь 2" — 1) = u(zi). Отсюда, учитывая /(21; 2W—1) = Л/, имеем, что при нумерации числами 23 / = N и величины u(z\, 2я—1; 2W—1), /(21, 2W-1; 2N—1), v(zi, 2N—1;2"—1) определяются соответственно выражениями (3.29) — (3.31), где «(2i; 2я— 1) из (3.37). Поэтому равенство (3.32) остается справедливым и при четном Zi Ф 0, если «(2ь 2я—1) из (3.37). Из (3.22) и (3.10) следует, что a(zi + 1, 0; 0) = v(zi + 1; 0) = a(zi + 1; 0) = = v(2t + 1), где, согласно (3.12) и (3.36), v(zi +1)f = u(zi). Поэтому в общем случае a(zi 4-1, 0, ..., 0; 0) = а(21), откуда у(21 4- 1,0, ...,0)=< = 4 (a (zi 4- 1)4-[1 -(тТЬМ’ (3,38) где, в силу (3.6), векторы a(zt4-l) и а (21) разли- чаются лишь Л/-ми координатами. Теперь из (3.32) и (3.38) следует справедливость (3.26) при l = N, поскольку векторы a(zi) и а(2п 2я — 1) также раз- личаются лишь Л/-ми координатами (см. (3.37)), т. е. a(zG 2*— 1) = a(zi 4- 1).
182 Многомерная минимизация ,|гл. 111 Остался случай Zi = 0. В этом случае, согласно (3.8), (3.10) и (3.22), «(0; 0) = а(0) и t = N, что обеспечивает справедливость (3.37) при zi = 0 и, кроме того, в силу (3.9), (3.14) и (3.8), (3.15), цг(0;2*-1) = 1 Uj (0), l 1, I Л\ = (-«г(0), i=l, i = N, /(0;2N-l)=l. (3.39) Теперь из (3.22) и (3.39), учитывая (3.37), получаем (3.29), причем I(0,2к—1; 2N—\)=N. Применяя индукцию, убеждаемся, что формула (3.32) в случае четных Zi охватывает и случай Zi — 0. Из (3.10), (3.16) и (3.22) следует ‘ и(1, 0....0;0) =v(0), т. е. при zj = 0 формула (3.35) также справедли- ва. н 2. Многомерный обобщенный алгоритм. Пусть у(х), хе[0, 1], есть кривая Пеано, покрывающая областьD из (0.2). Тогда,согласно (1.6), решение за- дачи (0.1) сводимо к минимизации <р(у(х), хе[0, 1]. Следующая лемма устанавливает, что функция ф(^(х)) удовлетворяет обобщенному условию Лип- шица (см. § 4 гл. II), если функция <р(у) является липшицевой, т. е. для минимизации <р(у(х)) могут быть использованы обобщенные алгоритмы из треть- ей главы. Лемма 3.1. Пусть <р(у) есть липшицева с кон- стантой К функция, определенная в области D из (3.1). Тогда функция <р(#(х)), х<=[0, 1], где у(х) есть непрерывное однозначное отображение из п. 1, удовлетворяет условию IФ (У (х')) - Ф (У (х")) !<К0 х' - х" |, (3.40) где х', х" <= [0, 1] и — MtfN. Доказательство. Пусть \х' — х"\ > 0 существует такое целое число m 0, что N(m-t-l) f i I <|x'-x"|<(-i-) . . Тогда (3-41)
§ 3] РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 183 При этом точки х' и х" будут принадлежать либо од- ному и тому же интервалу m-го разбиения <2(гь ... ..гга), либо двум разным, но смежным интервалам т-го разбиения. Следовательно, их образы у(х') и у(х") принадлежат либо одному и тому же соответ- ствующему гиперкубу т-го разбиения, либо двум разным гиперкубам т-го разбиения, имеющим об- щую грань. Тогда |1к(х')-у(х")||^у^(1/2)”-1, что, согласно (3.41), дает ||у (У) - у (х")||< (4 VN)^\х'-х"\, (3.42) откуда следует (3.40), поскольку функция ф(у) яв- ляется липшицевой с константой К. М Таким образом, функция ф(у(х)), х е [0, 1], удовлетворяет условию (2.4.1) с константой X, при метрике р (х', х") = / (| х7 - х" |) = frl х' - х" I, (3.43) где функция f имеет обратную функцию. Поэтому для минимизации ф(у(х)) можно воспользоваться обобщенным алгоритмом (см. п. 1 § 4 гл. II), соот- ветствующим метрике (3.43). Такой способ решения многомерной задачи (0.1) условимся в дальнейшем именовать многомерным обобщенным алгоритмом глобального поиска (сокращенно МОАГП). При этом способе решение одномерной задачи из правой части (1.6) с помощью-ОАГП порождает по- следовательность точек испытаний {хй} в интервале [0, 1], образом которой при соответствии у(х) яв- ляется (порождаемая МОАГП) последовательность точек {у*} в гиперкубе D, где yh = у(^). Заметим, что при избранном в п. 1 построении у(х) любая точка y^D является не более чем 2N- кратной, т. е. ей соответствует не более чем 2" про образов в интервале [0, 1]. Поэтому любая точка у* абсолютного минимума функции ф(у), y^D, порож- дает не более чем 2" точек абсолютного минимума функции ф(у(х)), что позволяет немедленно рбрб-
184 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [ГЛ. III щить условия сходимости из п. 2 § 4 гл. II на случай минимизации с помощью МОАГП. Теорема 3.2. Пусть {ук} есть последовательность испытаний, порождаемая МОАГП при минимизации липшицевой с константой К функции y<=D, Тогда 1) если у' и у" есть две предельные точки после- довательности {ук}, то ф(у') = <р(у"); 2) если у' есть предельная точка последовательно- сти {у*}, то ц>(Ук)>Ч>(У')', 3) если у* есть точка абсолютного минимума функции <р(у) и при любом достаточно большом fe > 0 для величины, пг из (2.6), (4.4) справедливо неравенство m > 16/Cy.V, то у* является предельной точкой последовательности {//'*}, причем Игл у* » у*, если у* есть единственная точка абсолютного ми- нимума. Замечай и е. Соответствие у (х) из п. 1 опреде- ляется через предельный переход и при практической реализации МОАГП может быть вычислено лишь приближенно. Однако обобщенные алгоритмы устойчи- вы при малых вариациях задачи (см. п. 3 § 4 гл. II). 3. Минимизация в неодносвязных областях. Пусть в отрезке [0, 1] задана система интервалов, образу- ющая множество d - Д d}, (3.44) где dj есть некоторые элементы d (zj, ,.., zmj) разбиений отрезка [0, 1], рассмотренных в п. 1, со- ответствующих (возможно, различным) значениям m.j, 1</<п. Тогда образ y(d) множества (3.44) при соответствии у(х) будет представлять собой объ- единение соответствующих элементов Dj = у (dj), 1 j п, из /ПрХ разбиений гиперкуба D, т. е. не- которое в общем случае неодносвязное множество. При этом минимизация функции <р(у(х)) на сис- теме отрезков (3.44) (см. п. 2 § 5 гл. II) будет соответствовать минимизации функции <р(у) в
§ 3J редукция при помоги разверток 185 неодносвязной многомерной области У (d) — U Dy. 7=1 Для иллюстрации рассмотрим пример. Пример. Пусть функция *) ф (У1. У2) = У1 + У% — cos 18vt — COS 18у3 определена в квадрате Ух, У2 1 • Рассмотрим задачу ми- нимизации этой многоэкстремальной функции в области, которая *) Указанная функция рассматривалась в книге Л. А. Р а- стригина [ 1 ]<
186 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1Гл nt D(2, 2), D(3.2), изображенным на рис. 3.1), грех квадратов треть- его разбиения и десяти квадратов четвертого разбиения. Область минимизации изображена на рис. 3.4 (исключенные квадраты покрыты штриховкой). Задача решалась с помощью МОАГП, при- чем одномерная минимизация функции ср (у (х)) осуществлялась на системе отрезков, соответствующих квадратам, составляющим об- ласть минимизации. Точки 127 проведенных испытаний отмечены на рис. 3.4 (точка абсолютного минимума соответствует началу координат). 4. Кусочно линейная развертка. Вернемся к по- строению, рассмотренному в п. 1. Согласно (3.25) 2mN центров у (zi...zm) гиперкубов т-го разбиения D(zi, ,zm) образуют равномерную ортогональную сетку в области D из (3.1), причем шаг этой сетки (по любой координате) равен 2~т. Установим сле- дующую нумерацию узлов этой сетки. Занумеруем слева направо по i все интервалы, составляющие т-е разбиение отрезка [0, 1], т. е. d(zb ..., гт) — [хи х1+1), 0<tX2m* — 1, где через х4 обозначен левый конец интервала, имею- щего номер i, и будем считать, что центр гиперкуба D(z\, ».., zm) имеет тот же номер i, что и соответ- ствующий этому гиперкубу интервал d(zi...zm), т. е. У,=y(z\, .... zm), О < i<2’""—1. При этом центры yt и yt+i необходимо соответствуют смежным гиперкубам, имеющим общую грань. Рассмотрим отображение 1(х) отрезка [0, 1] в гиперкуб D из (3.1), определяемое выражениями (ц) (%) х \ х _? > (3.45) Х<+1 х. j w (х) = X [1 - 0<с<1. (3.46)
§ 3] РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 187 Образ любого подынтервала отрезка [0, 1] вида [хД1 — xi+i(l—2mW)-‘], 0s^i<2mN— 1, (3.47) Рис. 3.3. при соответствии /(х), очевидно, является линейным отрезком, соединяющим узлы и yi+i, и, таким об- разом, Z(x), 0 х 1, есть кусочно линейная кривая, соединяющая узлы у(, 0 —1, в порядке их нумерации. Эту кривую усло- вимся в дальнейшем имено- вать пеаноподобной кусочно линейной разверткой отрезка [О, 1] в гиперкуб D из (3.1), поскольку она является при- ближением (с точностью не хуже 2-т по каждой коорди- нате) к кривой Пеано у(х) из п. 1. Для иллюстрации на рис. 3.5 изображен образ от- резка [0, 1] при соответст- вии Z(x) для случая N =: =2, т=3 (узлы сетки отмечены темными кружками). Введенное отображение Z(x) сопоставляет мини- мизируемой многомерной функции ф(у) одномерную функцию ф(/(х)), причем, если функция ф(у) являет- ся липшицевой (с константой К), то пнпф(уХ min ф(/ (х)) + (КУ N) (4_'Г+1 (3.48) у=о хе[о, 1] \ z / и приближенное решение многомерной задачи сводит- ся к решению задачи одномерной, где функция ф(/(х)), O^x^l, удовлетворяет обобщенному ус- ловию Липшица (2.4.1) в метрике (3.43). Доказательство последнего утверждения для слу- чая, когда ‘ - < |х' - х" 1 < (4)“. ‘ п < т, (3.49) проводится аналогично доказательству леммы 3.1. В случае, когда (3.49) не справедливо, т. е. точки х'
188 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ (ГЛ. HI и х" принадлежат либо одному подынтервалу вида (3.47), либо двум подынтервалам, имеющим общую гра- ничную точку (и соответствующие образы 1(х') и 1(х") лежат либо на одном линейном отрезке, либо на двух разных линейных отрезках, имеющих общую точку), из (3.45) и (3.46), учитывая, что узлы yt и yi+i раз- личаются лишь одной координатой, получаем оценку III (х') - I {х") 1 < -~т^~-1- < 2 IУ - х"1, (3.50) подобную неравенству (3.42), Таким образом, для решения одномерной задачи из правой части выражения (3.48) можно использовать обобщенный алгоритм (см. п. 1 § 4 гл. II) с той же метрикой (3.43), что и при развертке типа кривой Пеано. При этом точность решения одномерной за- дачи должна, очевидно, быть согласована с погреш- ностью, определяемой тем обстоятельством, что раз- вертка 1(х), 0 х 1, покрывает сетку Н(т, N) = {ус 0<i^2mN-l}, (3.51) но не всю область D. Если принять, что погрешность решения одномерной задачи должна иметь тот же по- рядок, что и второе слагаемое в правой части (3.48), то, согласно (3.50), точность г в условии остановки (2.4.6) для обобщенного алгоритма и номер т раз- биения, определяющего используемую сетку (3.51), будут связаны соотношением (l/2)mfr+I. (3.52) Замечание. Поскольку кривая I(х) состоит из линейных отрезков и для пары точек 1(х'), 1(х"), лежащей на любом из этих отрезков, справедливо не- равенство (3.50), то функция ф(/(х)), соответствую- щая липшицевой с константой К функции <р(у), также является липшицевой с константой Кт = возрастающей с ростом т (т. е. возрастающей по ме- ре увеличения требуемой точности решения задачи). Поэтому (по тем же причинам, что и в п. 4 § 4 гл. П) минимизация <р(Z(х)) с помощью АГП или
§ 3] РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 189 ОАГП с метрикой р(х-{-Дх, х) = /(|Дх|)\ для кото- рой справедливо lim Дх->0 Vi д*| Н|Д*1) 00, нецелесообразна и следует использовать метрику (3.43). 5. Простота развертки и скорость сходимости. Из предыдущего пункта следует, что заданной точ- ности решения задачи минимизации функции <р(у) в гиперкубе D из (3.1) соответствует вполне опре- деленная сетка Н(т, N) из (3.51), которая покры- вается разверткой Z(x), O^x^l. При этом реше- ние многомерной задачи из левой части (3.48) сводит- ся к минимизации функции <р(/(х)). Соотношение (3.48) остается справедливым и в случае, если вместо развертки 1(х) из (3.45), (3.46) использовать любую другую непрерывную развертку s(x), O^x^l, покрывающую сетку (3.51). В связи с этим естественно использовать наиболее простую развертку, покрывающую указанную сетку. Если ограничиться рассмотрением кусочно линей- ных разверток, то простоту развертки можно оце- нивать минимальным числом составляющих ее ли- нейных отрезков. Очевидно, что пеаноподобная раз- вертка Цх) из п. 4 не является самой простой, ибо, например, кусочно линейные кривые (типа спирали и типа телевизионной развертки), изображенные на рис. 3.6 и соответствующие случаю N =. 2, ш = 3 (узлы сетки отмечены темными кружками), состоят из меньшего числа линейных отрезков, чем пеано- подобная развертка, представленная для того же случая на рис. 3.5. Поэтому, описав, например, «те- левизионную» кривую в параметрической форме как Z(x), 0 < х < 1, где h « = у-(- 1)^’ {(у-)”* - 1 + |6 | - б], tt (х) = j- J(1 + 2q) _ 1 + I 6| + б},
190 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1ГЛ. HI и ? = Z = x(2m — 2-m), б = I — q— l+2-m, получим развертку, более простую, чем Z(x). Эта развертка может быть обобщена и на случай N > 2. Однако простые кусочно линейные развертки имеют один существенный недостаток, обусловленный Рис. 3.6. именно тем обстоятельством, что соответствующая кусочно линейная кривая содержит линейные отрез- ки, покрывающие большое число (например, 2т) уз- лов се|жи (3.51), Остановимся на этом подробнее. Сэдймарная длина всех отрезков, составляющих Kyco'gjo линейный образ интервала [0, 1] при соот- ветствии s(x), 0^ х^ 1, равна *) L = 2т(х-1> — 2 —т Пусть s(x') и $(х") есть соответственно начальная и конечная точки некоторого линейного отрезка, со- держащего 2т узлов сетки (3.51). Тогда Ь(х,)-т5(х")|Ы-(4-)’П>4-. у/. 2”-12” 1 Л л j — %mN < 2mN9 *) Предполагается, что любой отрезок, являющийся частью кривой s(x), параллелен некоторой координатной оси.
§ 3] РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 191 откуда / т(1 —— Л м __________ lls(x') — S(x")||> V2 ' N' } V I x' — x" I- Следовательно, даже при метрике (3.43) не суще- ствует единой (для всех значений т> 1) констан- ты, обеспечивающей выполнение обобщенного усло- вия Липшица (2.4.1) для функции <p(s(x)), соответ- ствующей липшицевой функции cp(jr), хотя функции <р(у(х)) и ф(^(х)) такому условию удовлетворяют (с константой, не зависящей от т). Увеличение же кон- станты с ростом т при неизменном колебании функ- ции (максимальная разность значений одномерной функции <p(s(x), O^x^l, не больше, чем мак- симальная разность значений функции <р(у), ysD) приводит к возрастанию плотности испытаний, ко- торая приближается к плотности метода перебора (см. п. 2 и п. 4 § 4 гл. II). Результаты численных экспериментов, иллюстрирующие этот недостаток, приведены в § 5. Таким образом, применение простых разверток не может обеспечить той эффективности, которая до- стижима при развертке у(х) типа кривой Пеано и при приближающих ее кривых 1(х) из п. 4. 6. Неинъективная развертка. Напомним, что кри- вая Пеано у(х)~ из п. 1 определена через предель- ный переход и поэтому практически реализуемо лишь то или иное приближение к этой кривой. Одним из та- ких приближений является кусочно-линейная разверт- ка 1{х) из п. 4, покрывающая узлы сетки Н(т, N) из (3.51), где значение т определяется требуемой точностью решения задачи (см. (3.52)), т. е. / (х) —• 1т (х). и построение Z(x) тем проще, чем меньше значение т. Однако эта простая развертка не обладает двумя важными свойствами, которые есть у кривой Пеано у(х), приближаемой ею. Первый недостаток связан с тем, что сетка Z/(m-f-’ + v, N), имеющая шаг (1/2)”1+'’, не содержит узлов более грубой сетки Н{т, N), Поэтому точка
192 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1ГЛ. ш в общем случае не может быть покрыта кривой lm+v(x), О^х^ 1, и, следовательно, значения функ- ции <р(/т(х)), вычисленные при минимизации с по- мощью ОАГП, когда размерность редуцировалась разверткой Zm(x), не могут быть использованы, если затем в связи с необходимостью более точного реше- ния задачи применяется развертка Zm+„(x), v^l. Разумеется, этот недостаток может быть устранен, если использовать значение т более высокое, чем это необходимо для обеспечения первоначально за- данной точности. Например, можно использовать максимально возможное значение т„ определяе- мое длиной машинного слова (для конкретного типа применяемой ЭВМ), описывающего координату х<= е [О, 1] (см. (3.2) и (3.3)). Тогда при любой задан- ной точности е в условии остановки (2.4.6) для обоб- щенного алгоритма используется одна и та же раз- вертка 1т, (х), соответствующая значению т„ которое превышает значение т из (3.52), согласованное с заданной точностью е. При этом возможность ис- пользования результатов предшествующих испыта- ний в процессе уточнения решения задачи (если такое уточнение потребуется) покупается ценой при- менения самой сложной в вычислительном отношении развертки 1т, (х) для любой заданной точности. Второй недостаток кусочно линейной развертки 1(х) связан с тем обстоятельством, что она является взаимно однозначным соответствием между отрез- ком [0, 1] и множеством {/(х) iOj^xsC 1}, лежа- щим в области D, хотя кривая Пеано у(х) из п. 1 таким свойством не обладает (точка у е D = = {«/(х) : 0 х 1} может иметь несколько про- образов в отрезке [0, 1] при соответствии у(х), но не более, чем 2"— см. п. 1). Кратность точек y^D при соответствии у(х) является фундаментальным свойством, отражающим сущность понятия размер- ности: отрезок [0, 1] и гиперкуб D являются рав- номощными множествами, первое из них можно од- нозначно отобразить на второе, но если такое ото- бражение непрерывно, то оно не может быть взаимно однозначным, причем размерность N гиперкуба опре-
§ 3] РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 193 деляет возможную кратность (2N) для отображения у(х). Поэтому точка у* абсолютного минимума функ- ции <р(у) в гиперкубе D может порождать несколь- ко точек х’, где у* = y(xj), абсолютного минимума функции ф(р(х)) в отрезке [0, 1], каждая из кото- рых будет предельной точкой последовательности ис- пытаний, порождаемой обобщенным алгоритмом (см. п. 2). Однако, если бы отображение у(х) было не- посредственно вычислимо, то, восстанавливая все; прообразы 4 в отрезке [0, 1] для каждой точки ук е= D, в которой вычислено значение функции 2'1 = ф(р‘), где = можно было бы интер- претировать вычисление одного значения zk в точ- ке ук е D как вычисление значений функции у(у(х)) в нескольких точках х* е [0,1]. Включение всех та- ких пар (xt, zk) в информацию ю*, накапливаемую обобщенным алгоритмом при минимизации ф(р(х)), могло бы компенсировать потерю части информации о близости точек в многомерном пространстве, имею- щую место при переходе от многомерной задачи ми- нимизации ср (у), y^D, к одномерной задаче мини- мизации ф(р(х)), х<=[0, 1]. Но, как уже отмеча- лось, развертка у(х) не является непосредственно вычислимой, а приближающая ее кривая Цх) не имеет кратных точек, хотя функция <р(/(х)) может иметь несколько точек локального минимума, близ- ких (по значению функции) к точке абсолютного минимума (т. е. возрастание вычислительной слож- ности задачи, обусловленное «расщеплением» точки абсолютного минимума на несколько прообразов, имеет место и при развертке Цх)). В связи с отмеченными недостатками кусочно линейной развертки Цх) построим еще одну разверт- ку р(х)=рт(х), отображающую некоторую рав- номерную сетку в отрезке [0, 1] на сетку Р(т, N) в гиперкубе D из (3.1), имеющую шаг (1/2)"* (по каждой координате) и такую, что Р(т, N) cP(m+l, N), (3.53) причем развертка р(х) также является приближением 13 р, г. Стронгин
194 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [ГЛ. Ш к кривой Пеано у(х) и имеет кратные точки (узел сетки Р(т, N) может иметь до 2N прообразов в от- резке [0, 1]). 1 Примем, что множество узлов сетки Р(т, N) сов- падает с множеством вершин гиперкубов D(zi, ... ..., zm) m-ro разбиения области D из (3.1), рассмот- ренного в п. 1. Тогда шаг сетки (по любой координа- те) равен (1/2)"*, общее число различных узлов со- ставляет (2m4-l)w, и так как вершины гиперкубов m-го разбиения являются также вершинами гиперку- бов любого следующего разбиения m + v, где 1, то включение (3.53) справедливо. Заметим, что каждая из 2я вершин любого гипер- куба D(zi, .... zm) m-ro разбиения является вершиной лишь одного из гиперкубов (т+1)-го разбиения D(zi, ..., zm+i), входящих в D(z\, ..., zm). Общую вер- шину гиперкубов D(zi, .... zm, zm+i) <=.D(zi, zm) (3.54) обозначим через p(?i, .,zm+i). Поскольку, согласно (3.25), центр гиперкуба из левой части (3.54) и центр гиперкуба из правой части (3.54) связаны соотноше- нием у (Zi, ...,zm+1) =у(гх.....гт) + (1 \тп-|-2 . 2 J ®(^1> • 1 • > %т> ^>л+1)> ТО Р^1.......Zm+1) = ^(Z1, .\.,2m) + "I” 2 ® (^1> • • • > ^т< ^т+1)> (3.55) причем, изменяя zm+i от 0 до 2N—1, получим все 2я вершин p(zb ..., zm, zm+i) гиперкуба D(zi, ..., zm). Выражение (3.55) устанавливает однозначное со- ответствие между 2(т+1,я интервалами (т-)-1)-го раз- биения d(zj, ..., zm+i) отрезка [0, 1] и (2”*+ 1)я узлами p(zj, .... zm+i) сетки Р(т, N), причем указанное со- ответствие, очевидно, не является взаимно одно- значным.
§ 3] РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 195 Занумеруем, как в п. 4, все интервалы d(z\, ... , .zm+i) слева направо по i от 0 до 2(m+1,jr— 1 и обо- значим левый и правый концы интервала с номером I соответственно через xt и xi+i. Теперь введем нумера- цию центров y(zi.....zm+i), полагая, что центр, соот- ветствующий интервалу d(zlt .... zm+]), имеет тот же номер i, что и указанный интервал. В результате определено взаимно однозначное соответствие узлов х(, 0 < i < 2<m+1,x — 1, (3.56) равномерной сетки в интервале [0, 1] и центров yt, порождающее согласно (3.55) однозначное соответст- вие узлов Xt и узлов р е Р (пг, N). Заметим, что если центры yt и y(+i лежат в одном и том же гиперкубе m-го разбиения, то им (а следо- вательно, и точкам Xt, x(+i) соответствуют различные узлы р е Р (т, N). Поэтому один и тот же узел р мо- жет соответствовать соседним точкам х4 и xi+i тогда и только тогда, когда у, и у^\ принадлежат различным гиперкубам m-го разбиения. Поскольку число гиперкубов т-го разбиения равно 2m!t, то су- ществует ровно 2mN — 1 различных смежных пар х4, x,+i, точкам которых соответствует один и тот же узел р (в общем случае различный для различных пар). Каждую такую пару удобно заменить одним узлом, чтобы соседним узлам сетки в отрезке [0, 1] всегда соответствовали различные узлы р<=Р(т, N). Сделаем это следующим образом. В отрезке [0, 1] построим равномерную сетку, узлы которой обозначим через hit 0 < / < 2(т+1И — 2mN = q, (3.57) причем ho—. О и hq= 1. Теперь сопоставим узлу h, сетки (3.57) узел Xj сетки (3.56), где , = / + (3.58) и будем считать, что узлу h} соответствует узел ре еР(т, /V), порождаемый согласно (3.55) центром yt
196 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ . ' 1ГЛ III при i из (3.58). Построенное отображение равномер- ной сетки (3.57) в отрезке [0, 1] на сетку Р(т, N) в гиперкубе D будем называть пеаноподобной неинъ- ективной разверткой р (х) = рт (х). Для иллюстрации на рис. ,3.7 изображены узлы сетки Р(2,2) (темные кружки) и около каждого узла 16 17 19 20 18 21 ( '15 23 24{ 12 13 'б 8 11 10 7 7 2 'б о' р -L । 4 28 29 31 32 30{ 33{ *27 26 'з4 25{ 35 36' 7z7 39 /7 42{ 38 37' 43 46 47 44 45 j 48 Рис. 3.7. проставлены номера / всех отображаемых на него точек hs из (3.57). Остановимся на вопросе определения всех прооб- разов hj заданного узла peP(m, N) при соответст- вии р(х). Пусть U есть множество 2" различных век- торов удовлетворяющих условию |и,| = 1, 1 i N. Тогда, согласно (3.55), множество всех центров гиперкубов (т+1)-го разбиения, порождаю- щих один и тот же заданный узел ре P(m, N), име- ет вид К(р) = {У = Р— (l/2)m+I«, «е U:y<=D}. Каждому центру у е Y(р), имеющему номер t, т. е. у = у(, однозначно соответствует узел xt сетки (3.56), который, используя выражение j = i — E(i/2N), сле- дует пересчитать в узел h} сетки (3.57), порождаю- щий ту же точку р. Различные узлы hjt получаемые
§ 3) РЕДУКЦИЯ ПРИ ПОМОЩИ РАЗВЕРТОК 197 в результате такого расчета, и составляют множество прообразов точки р при соответствии р(х). Заметим, что вычислительные аспекты будут рассмотрены бо- лее подробно в следующем параграфе. 7. Многомерный обобщенный алгоритм с неинъек- тивной разверткой. Для функции ф(рт(/г})), опреде- ленной на сетке (3.57) и соответствующей липшице- вой с константой К функции ф(р), справедливо нера- венство min<p(y)< min ф(р(/гД) + (K/jV)(4-Y"+1, аналогичное оценке (3.48). Отсюда, задавшись тре- буемой точностью решения задачи минимизации функции <р(у), можно оценить значение т и получить р„(х). Затем для решения одномерной задачи мини- мизации <р(р(х)) следует использовать обобщенный алгоритм с метрикой (3.43), подобно тому, как это следует делать при минимизации функции <p(Z(x)), порождаемой кусочно линейной разверткой из п. 4. Однако функция ф(р(х)) определена не на всем отрезке [0, 1], а лишь на конечной сетке (3.57) в этом отрезке, и, кроме того, при осуществлении испытания в точке peP(/n, N) значение функции определяется одновременно для всех точек hjt.....hjv, обладаю- щих свойством р =XiXv<2N, ибо при этом <р(рт(^!)) = ... = Ф (р,„ (/i/v)). Поэтому не- обходимо внести некоторые несложные изменения в обобщенный алгоритм из п. 1 § 4 гл. II в случае, когда он применяется в сочетании с неинъективной разверткой. Отметим коротко, в чем состоят эти из- менения. При минимизации функции ф(х) ОАГП порождает последовательность точек {х*}, в которых вычисляют- ся значения г* = ф(х'') минимизируемой функции, причем множество пар (х!, г!), 0 tX k, соответст- вующих осуществленным испытаниям, мы услови- лись называть поисковой информацией и обозначили через {(х\ г’) : (XX*}.
198 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ ' [ГЛ. III При этом точка х*+1 очередного испытания определя- ется на основе со* по правилам 1)—6), входящим в описание АГП (см. п. 1 § 2 гл. II), в которых пред- варительно изменены ссылки на некоторые формуль- ные выражения (см. п. 1 § 4 гл. II). Поскольку концы отрезка [0, 1] являются узлами сетки (3.57) и (как следует из построения р(х)) точ- ки р(й0) и p(hq) имеют лишь по одному прообразу в интервале [0, 1], то первые два испытания при ис- пользовании неинъективной развертки р(х) осущест- вляются в соответствии со схемой ОАГП для общего случая. Пусть осуществлено k испытаний и получена информация со*. Дальнейшее функционирование алго- ритма с неинъективной разверткой протекает по сле- дующей схеме: 1) следуя правилам ОАГП для метрики (3.43), вычислить точку Xм’1 из (2.4.7) и определить интер- вал hj xk+1 < A,+i из (3.57), содержащий эту точку; 2) определить узел р = pm (h,) е Р (пг, N) и вы- числить значение z = <р(р); 3) определить все прообразы точки р = p(hj) при соответствии р(х)-, 4) положить xh+1 = , xk+v = hjv, zk+l = ... ...=zk+v=z и, увеличив значение k на число v, перейти к первому пункту. Остановка вычислений осуществляется ли- бо по условию (2.4.6), если в этом условии использу- ется значение е, превышающее шаг сетки (3.57), ли- бо при совпадении узла h} (см. первое правило) с любой из точек х1, ..., х\ входящих в ац. Заметим, что после выполнения условия остановки решение задачи может быть продолжено для достижения более высокой точности, чем первоначально заданная. В этом случае следует увеличить значение пг (т. е. использовать развертку для сетки с меньшим шагом) и перейти к выполнению первого правила при той информации (О),, которая была накоплена к моменту остановки (узлы сетки (3.57) составляют подмно- жество узлов соответствующей сетки для новой раз- вертки).
§ 4] ЧИСЛЕННОЕ ПОСТРОЕНИЕ РАЗВЕРТОК 199 Для иллюстрации отметим, что минимизация двухмерной функции из примера, завершающего п. 3, в области —1/2 у\, г/2 1 с использованием неинъективной развертки для сетки Р (9,2) в сочетании с обобщенным алгоритмом (при г = 2) по- требовала 63 испытания, причем к моменту остановки (по условию (2.4,6) при 8 == 0,01) информация содержала 199 пар. Решение той же задачи с использованием кусочно линейной развертки для сетки Н (10, 2) потребовало 176 испытаний (при г=2 и 8 = 0,01). § 4. Численное построение разверток 1. Вычисление развертки типа кривой Пеано. Кри- вая Пеано у (я), введенная в п. 1 § 3, определена через соответствие между интервалами d(zi, zm) и гиперкубами Z)(zi, zm) разбиения с номером т (т = 1, 2, ...) такое, что из хе d(zit . <», zm) следу- ет t/(x)e£)(zi, Zm). Поэтому для любой задан- ной точности е > 0 можно выбрать значение т^1, удовлетворяющее условию (1/2)т+1^е, и принять в качестве оценки точки у(х) центр y(z\t .zm) из (3.25) гиперкуба D(z.i, zm), содержащего указан- ную точку у(х). Точность такого приближения по любой коорди- нате будет не хуже 8, ибо I yi (х) - yt (zv .... z,n) I < < 8» 1 < i < N. Таким образом, приближенное вычисление точки у(х) сводится к определению центра y(z\...zm) из (3.25), соответствующего последовательности номе- ров zt, ..., zm из (3.3). При этом для каждого номера 1 т, необходимо построить вспомогатель- ный центр u(Zj) и соответствующие ему вектор v(zj) и число /(zj), ибо, согласно (3.22), указанные вектор и число используются при построении «(z/+i). На рис. 4.1 приведена блок-схема алгоритма вы- числения центра y(zi, .... zm), являющегося прибли- жением к точке у(х). Операторы, вписанные в блоки схемы, читаются слева направо и сверху вниз. Сим- волы yt, uit Vi, wt обозначают i-e координаты соответст-
200 МНбГОМЁРНАЯ МИНИМИЗАЦИЯ ГГл. Ill венновекторов y(zi, >.zm)', и(гД, v(zj, — v(z}-i)*), причем zt обозначено на схеме через s, а символы I и t на схеме соответствуют величинам из (3.22), Рис. 4.1. Схема алгоритма включает также выполнение операций, описываемых выражениями (3.14) (пере- становка координат с номерами 1 и /), (3.15), (3.17) и (3.18). Читатель легко разберется в этих преобра- ’) Значение с (zq) определяется как и(0) из (3.23).
§ 4] ЧИСЛЕННОЕ ПОСТРОЕНИЕ РАЗВЕРТОК 2^1 зованиях, если предварительно вспомнит построения, описанные в п. 1 § 3. Теперь рассмотрим алгоршл вычисления вспомо- гательного центра u(s) и соответствующих ему век- тора v(s) и числа /($), указанный на рис. 4.1 блоком Рис. 4.2. с двойными боковыми линиями. Схема этого алго- ритма представлена на рис. 4.2 (координаты векто- ров u(s), v(s) и число l(s) на схеме соответственно обозначены через uiy и /). Для обоснования этой схемы вернемся к двоичному дереву, введенному для установления нумерации центров u(s) в п. 1 § 3.
202 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [ГЛ. III Номер s, 1 s 2N—1, любой точки указанного дерева можно представить в виде s = 2 (4.1) где коэффициенты a,, 1 j У, принимают одно из двух значений, 0 или 1. Пусть корень некоторого под- дерева находится в ярусе с номером /. Установим но- вую нумерацию точек этого поддерева (будем назы- вать ее внутренней нумерацией в поддереве), при которой точке поддерева, имеющей номер s из (4.1), соответствует внутренний номер Л(0= (4.2) где коэффициенты щ, i N, те же, что и в (4.1). Для случая, когда точка s лежит в ярусе с номером j < i, формально положим k(i) = 0, что также опи- сывается формулой (4.2), ибо в этом случае а< = ... ... =(Xn = 0. Теперь покажем, что координаты вспомогательно- го центра определяются условиями Ui(s)= s) f(i, s), (4.3) где (-1, k(i)<2N~i, f(O»s) = —1, (4-4) Согласно этим выражениям, координаты начального вектора м(0) являются отрицательными, т. е. . Hj(0)= — 1, (4.5) что соответствует определению этого вектора, приня- тому в п. 1 § 3. Из (4.5) вытекает, что для любого s, 2N—1, Ui(s) —— 1, если последовательность вер-
§ 4] КИСЛЁННОЕ ПОСТРОЕНИЕ РАЗВЁРТОК 203 шин и узлов дерева с номерами 1, s содержит четное число точек из яруса с номером i (в против- ном случае Ui(s) = 1). Отсюда, в частности, следует, что (-1, s<2JV—*, и, (з) = { „ . " (I, s>2N-‘, причем этот результат также описывается выраже- ниями (4.3), (4.4), поскольку й(1) = s. Пусть теперь i> 1. Заметим, что точка с номе- ром s 1) при k(i) = 2‘v~‘ лежит в ярусе с номером I; 2) при k(i) < 2rr~l лежит в левом поддереве по отношению к корню из яруса с номером i; 3) при k(i) 2W_’ лежит в правом поддереве по отношению к корню из яруса с номером i. Поэтому Ui(s) =—1, если либо k(i) 2N~f и k(i—1) >2"-<+1, либо ft(i)<2w~< и k(i — 1)<2W"<+1, по- скольку в обоих случаях последовательность узлов и вершин с номерами 1, ..., s содержит четное число точек из яруса с номером I. Таким образом, выраже- ния (4.3), (4.4) справедливы для этого случая. Ана- логично проверяются два оставшихся случая, когда либо k(i) > 2N~‘ и k(i— 1) < 2"-i+I, либо k(i) < 2Л’~( и k(i—l)^2N_i+1 (при этом число точек из яруса I, содержащихся в последовательности уз- лов и вершин с номерами 1, ..., s, является не- четным). Выражения (4.3) и (4.4) положены в основу ал- горитма, представленного на рис. 4.2, причем симво- лы f0 и ft на блок-схеме соответствуют величинам f(i— 1, s) и f(i, s), а внутренний номер k(i) и число 2N_< соответственно обозначены через k и f. На схеме отражены также операции, связанные с вычислением вектора v(s) и числа l(s), определяемые формулами (3.7) — (3.10). 2. Вычисление кусочно линейной развертки. Об- раз 1(х) любой точки хе[0, 1] при кусочно линей- ной развертке (п. 4 § 3) можно определить из выра- жений (3.45) й (3.46), согласно которым необходимо
204 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ inn tit оценить разность *1+1 *1 и (в соответствии с алгоритмом из п. 1) вычислить центры у( = y(zt, ..zm) и yi+i двух смежных гипер- кубов т-го разбиения, соответствующих интервалам [xh xJ+1) = d(zh .... zm) и [x<+i, xi+2), причем w(x) = х(1—2-mV) edfa......zm) и ОгС i<2mW— 1. ' Если учесть, что центры yt и yi+i различаются лишь одной координатой, то для определения /(х) достаточно вычислить центр y(zt, .... zm) и номер k — k (zi, ..., zm) указанной координаты, ибо для лю- бого. i, 1 i N, справедливо / 1 \»п (^) УI (^1> • • », ^т) 4” (2m) j X о, A, -A, i*£k, i = k, i = k. *m = 2N-1, (4.6) где «(zm) из (3.25). Остается указать способ вычис- ления номера k. Представим набор z\, ..., zm в виде Z\, zv, zv+i, Zm, где и zv^2N — 1, zv+i = ... ... =zm = 2W — 1 (заметим, что случай Zi = .. .=zm= — 2K — 1 невозможен, поскольку центр y(zi, ..., zm) не совпадает с узлом уИз п. 1 § 3 следует, что смежные центры y(zi...zv, 2N- 1....2W—1) и y(zb z,+ 1, 0, ..., 0) различаются той же координатой, что и вспомога- тельные центры (воспользуемся обозначениями из
§4! ЧИСЛЕННОЕ ПОСТРОЕНИЕ РАЗВЕРТОК 203 доказательства теоремы 3.1) ll(Zi, . , Zv-f, Zv) И u(Zi.Z,_f, Zv + 1) из (3.25). Поэтому, если число zv нечетное, то, со- гласно (3.7), “Г k(zb .... zm) =1(21, .... Zv)’, • г(4.7) а если число zv четное, то, согласно (3.6), (3.8), (3.14) и (3.22), ...... 1 N, t^N, , ....г-> = (1, t = N, (4>8) где t—l(z\, .... zv-2‘, zv-i), и случаю v = 1, в силу (3.23), соответствует t = 1. Теперь алгоритм вычисления центра y(z\, ..., zm), блок-схема которого изображена на рис. 4.1, может быть очевидным образом модифицирован для вычис- ления образов 1„,(х) кусочно линейной развертки. Действительно, если заменить оператор присвоения f — x (см. рис. 4.1) оператором f=w(x), то алго- ритм обеспечит вычисление центра yt. Номер k мож- но определить непосредственно из (4.7) или (4.8), по- скольку символы / и t на рис. 4.1 соответствуют вели- чинам из правых частей указанных выражений. Нако- нец, при выходе из блок-схемы (т. е. при / > т) f = = А, и остается изменить k-ю координату вычислен- ного центра согласно (4.6). 3. Вычисление неинъективной развертки и ее про- образов. Образы рт(х) неинъективной развертки определяются выражением (3.55). Если добавить это выражение как последний оператор в алгоритм вы- числения центров y(zi, ..., zm+i) (см. рис. 4.1), то получим алгоритм вычисления неинъективной раз- вертки. Вычисление прообразов узлов сетки Р(т, N) при развертке рт(х) уже обсуждалось в п. 6 § 3. Откры- тым остался лишь вопрос о построении узлов х( сетки (3.56), соответствующих центрам У< = У(г!....zm+1). '(4-9) Остановимся теперь на рассмотрении этого вопроса.
206 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ If л. nt Рис. 4.3,
§ 4] ЧИСЛЕННОЕ ПОСТРОЕНИЕ РАЗВЕРТОК 207 Из (3.2) и (3.3) следует, что точка xt, соответст- вующая вектору yt из (4.9), определяется выражением т-М , . , 2/ 1 где числа Zi, ..., zm+i можно найти из разложения (3.25) вектора y(zlt ..., 2m+i) на вспомогательные центры u(Zj), 1 j т + 1. Блок-схема алгоритма вычисления значения xt (обозначено через х) на ос- нове разложения заданного вектора yfa, ..., zm) (обозначен через у) приведена на рис. 4.3. На рис. 4.4 изображена блок-схема алгоритма вычисления номера
208 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1ГЛ. Ill Zj (обозначен через s) заданного вспомогательного центра «(Zy). Этот алгоритм соответствует блоку с двойными боковыми линиями из рис. 4.3 и, кроме zjt вычисляет также число l(z}) и вектор v(Zj), обозна- ченные через 1(и) (или /) и ц(и) (или v). Прочие обозначения на рис. 4.3 и 4.4 те же, что и на рис. 4.1 и 4.2. Для обоснования алгоритма, представленного на рис. 4.4, вернемся к выражениям (4.1) и (4.2), из ко- торых следует, что коэффициенты а< разложения (4.1)' номера s по степеням двойки удовлетворяют усло- виям _J 0, “'ll, &(i)>2w-{, или, учитывая (4.4), (0, f(i,s) = —1, “‘-{1. /(i,s) = l, <4J01 причем, согласно (4.3) и (4.4), f(i, s) = — f(i — 1, s)Ui(s), 1 i /V; f(0, s)=-l. (4.11) Алгоритм, описанный на рис. 4.4, последовательно вычисляет величины f(i, s) из (4.11) для заданного вспомогательного центра и, анализируя их знак, оп- ределяет значения а< из (4.10), по которым согласно (4.1) восстанавливает номер s этого центра. Опера- ции вычисления вектора v(s) и числа /(s), включен- ные в алгоритм, соответствуют условиям (3.7) — (3.10). § 5. Оценка эффективности алгоритмов с помощью численных экспериментов В первой главе (см. § 3 и § 4) мы уже обсуждали вопросы теоретического сравнения различных алго- ритмов оптимизации в связи с задачей выбора опти- мального алгоритма. Трудности такого сравнения при-
S 5] ОЦЕНКА ЭФФЕКТИВНОСТИ АЛГОРИТМОВ 209 водят к многочисленным попыткам сопоставления раз- личных методов путем численного решения некото- рых тестовых задач (см., например, обсуждение в книге Д. И. Батищева [1]). Поскольку для многоэкстремальных липшицевых функций метод перебора является оптимальным (при ориентации на худший случай, которым является функция-константа,— см. п. 4 § 3 гл. I), то для таких задач представляет интерес сопоставление методов по среднему результату, достижимому в заданном клас- се функций (разумеется, что усреднение предполагает задание некоторой вероятностной меры, т. е. любая конкретная минимизируемая функция рассматривает- ся как реализация исхода некоторого случайного ме- ханизма, описываемого указанной мерой). Одно из достоинств средних показателей состоит в том, что их можно оценить экспериментально (по достаточно большой выборке) с помощью методов математиче- ской статистики. Ниже мы воспользуемся таким под- ходом для сравнения некоторых алгоритмов. 1. Операционные характеристики. В качестве по- казателей эффективности для алгоритмов многоэк- стремальной оптимизации естественно принять (В. А. Гришагин и Р. Г. Стронгин [1]) среднее число К поисковых испытаний, предшествующих вы- полнению условия остановки при минимизации функ- ций из данного класса, и вероятность Р того, что к моменту остановки глобальный экстремум будет об- наружен с заданной точностью. Указанную пару по- казателей удобно изобразить на плоскости точкой с координатами (К, Р). Каждому алгоритму поиска можно сопоставить множество таких точек, соответ- ствующих различным значениям параметров, входя- щих в описание алгоритма. Это множество условимся называть операционной характеристикой метода. Если при выбранном значении К операционная ха- рактеристика одного метода лежит выше операцион- ной характеристики другого метода, то первый метод обеспечивает большую вероятность правильного ре- шения задачи при тех же затратах на поиск (измеряе- мых средним числом испытаний), а если при выбран- 14 р, Г. Стронгив
210 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ 1ГЛ. Ill ном значении Р операционная характеристика одного метода лежит левее операционной характеристики другого метода, то первый метод требует меньших затрат для достижения той же надежности. Таким образом, операционные характеристики позволяют сравнивать эффективность различных методов. 2. Сравнение нескольких методов в одном классе многоэкстре- мальных задач. Воспользуемся операционными характеристиками для сравнения эффективности семи методов глобального поиска при максимизации двухмерных функций вида (/ 7 7 V ф(*,й= 2 2 (х>у) + BiAj(х>+ 1\г=1; = 1 / /77 \2]1/2 + 221сиаи & у') - Dijbu *0] < \г=1 ; —1 / J где ац(х, У) = sin (л Гх) sin (л/г/)', Ьц(х, r/)=cos(n/x)cos(n/i/), определенных в области 0 < х, у 1. Максимизация подобных функций возникает, например, в задаче оценки максимального напряжения (определяющего прочность) в упругой гонкой пласти- не при поперечной нагрузке. Оценка показателей К и Р осуществлялась путем численной оптимизации (каждым методом) 100 функций, выбор которых определялся случайным (равномерно и независимо) выбором ко- эффициентов Afj, Вц, Сц и Dij на отрезке [—1, 1]. В эксперименте использовались: 1) метод полного перебора (сокращенно ПП) на равномерной IX /-сетке (/ — целое положительное число, являющееся пара- метром метода); 2) метод Монте-Карло (сокращенно МК), согласно которому выбирается (случайно) Q точек в области поиска (Q — целое по- ложительное число, являющееся параметром метода); 3) метод .многократного локального подъема (сокращенно МЛП) из q (целое число — параметр метода) случайно выбран- ных точек в области поиска, причем локальный поиск осуществлял- ся по деформируемому многограннику (см., например, руковод- ство Д. Химмельблау [1]) при коэффициентах отражения, сжатия и растяжения, соответственно равных 1, 1/2 и 2 (локаль- ный поиск из конкретной начальной точки прекращался, когда разность между значениями функции в вершинах текущего сим- плекса становилась меньше, чем 10“4); 4) монотонный многошаговый алгоритм (МАГП-М) из заме- чания, завершающего п. 1 § 2, при точности а (параметр метода),
§ 51 бЦЕНКА ЭФФЕКТИВНОСТИ АЛГОРИТМОВ 211 одинаковой по обеим координатам, и значении коэффициента г, убывающем при увеличении номера шага kt причем 20 г=1 + у (5.1) (•соотношение (5.1) использовалось в МАГП-М при минимизации по каждой координате); 5) метод ломаных (сокращенно МЛ), обобщенный на двух- мерный случай по многошаговой схеме (1.1), при точности 8 (па- раметр метода), одинаковой по обеим координатам. В методе ло- маных (см. С. А. Пиявский [1] или Ф. П. Васильев [1]) необходимо априорное задание константы Липшица минимизи- руемой функции. В качестве такой оценки в рассматриваемом эк- сперименте была использована (изменяющаяся в процессе опти- мизации) величина т из (2.2.6) при г = 1,3. Таким образом, ис- пользованный алгоритм несколько отличается от метода ломаных, описанного в литературе (кроме того, использовалось условие остановки вида (2.2.12)); 6) многомерный обобщенный алгоритм (МОАГП) из п. 2 § 3 при значении коэффициента г = 3 и точности 8 = 0,001 в условии остановки (2.4.6); 7) обобщенный алгоритм с редукцией двухмерной задачи в од- номерную при помощи телевизионной развертки (сокращенно ТР) из п. 5 § 3, покрывающей сетку Я (7, 2) из (3.51). В обобщенном алгоритме использовалось значение коэффициента г = 3 и точ- ность 8 (параметр метода) в условии остановки (2.4.6). Решение, полученное методами 1), 2) и 4)—7), уточнялось с помощью того же локального алгоритма (поиск по деформи- руемому многограннику) и при тех же параметрах, что и в третьем методе (МЛП), т. е. окончание поиска во всех рассмотренных ме- тодах было одинаковым. Результаты экспериментов (вычисления выполнены В. А. Гр и шагиным) представлены на рис. 5.1. При этом опе- рационные характеристики для методов 1) —7) построены (слева направо) по точкам: 1) светлые кружки (ПП), соответствующие различным сеткам (/ = 5, 10, 20, 25, 30, 51); 2) темные треугольники (МК), соответствующие различным объемам выборки (Q = 1, 5, 15, 30, 60, 120, 400, 900, 2601); 3) светлые треугольники (МЛП), соответствующие различному числу начальных точек (q == 1,5, 15, 30, 60, 120); 4) темные кружки (МАГП-М), соответствующие различной заданной точности (8 = 0,14; 0,1;...; 0,01); 5) темные прямоугольники (МЛ), соответствующие точностям е = 0,03 и 8 = 0,01; 6) звездочка (МОАГП); 7) светлые прямоугольники (ТР), соответствующие различным значениям точности (е2 = 10“2, 5 • 10“3, 3 • 10“3, 2 • 10“3, 10-3, 10-4, 10~5, 5 • IO"8). Заметим, что при подсчете оценки Р экстремум считался най- денным, если значение функции в точке полученного приближения 14*
212 МНОГОМЕРНАЯ МИНИМИЗАЦИЯ [ГЛ. П! отличалось от максимального значения (в качестве последнего принято приближение полного перебора на сетке 51X51» уточ- ненное локальным методом) не более чем на 1%. 3. Оценка влияния рандомизации. В третьей главе неоднократ- но обсуждался вопрос о выборе коэффициента г, входящего в опи- сание всех рассмотренных алгоритмов, при решении конкретных задач (см., например, п. 1 § 5 гл. II) и предлагались различные схемы выбора значений этого коэффициента в процессе оптимиза- ции. Воспользуемся теперь операционными характеристиками для экспериментального сопоставления эффективности некоторых та- ких схем. В описываемых ниже экспериментах использовалась выборка, содержащая 20 двухмерных функций вида : ' Ф(*,0) ~ \P2s(x + iy)\2+ 10f(x-ai)2+ (//-₽i)2], (5.2) определенных в области 0 < х, у 2, где Рга(х + iy) есть поли- ном степени 2s с корнями а; ± 1 s, т. е. ; i 8 1 Рга (X + iy) = п {[(X - ау)2 - + ₽,] + i [2у (х - а>)]}, причем глобальный минимум функции (5.2) достигается в точке (ои, 01), соответствующей первому корню полинома. Случайный
§ 5] ОЦЕНКА ЭФФЕКТИВНОСТИ АЛГОРИТМОВ £13 выбор функций из указанного класса основан на предположении, что целые числа 5аj, 5(3 j (0 5а>, 5pj 10) и целое число s (3 s 4) являются реализациями равномерно распределенных случайных величин. Заметим, что глобальный экстремум тестовых функций (5.2) будет иметь малую область притяжения, если корни полинома с номерами / > 1 близкие или кратные (в этом случае большую область притяжения имеют соответствующие локальные экстремумы). Первый эксперимент состоял в минимизации всех функций выборки с помощью МАГП-М (см. замечание в п. 1 § 2) при точности 8 = 0,05 (одинаковой по обеим координатам), при- чем эксперимент повторялся несколько раз для различных значе- ний г (г = 1,41; 2; 2,5; 3; 4; 5; 6). Соответствующая этим резуль- татам оценка операционной характеристики нанесена на рис. 5.2 (темные кружки, соединенные штриховой линией). Во втором эксперименте использовался алгоритм, отличающийся от МАГП-М лишь тем, что значение г на каждом шаге выбиралось случайным образом, причем г = 1,41 с вероят- ностью р и г — 6 с вероятностью q = 1 — р. Поскольку при таком алгоритме последовательность испытаний, сопоставляемая миними- зируемой функции, является реализацией случайного процесса, то в описываемом эксперименте минимизация каждой функции из выборки производилась трижды (при одном и том же значении q). Экспериментальные данные для этого случая изображены на рис. 5.2 светлыми прямоугольниками, соответствующими значе- ниям q, равным 0,2; 0,4; 0,6; 0,8 (эти точки соединены сплошной линией). В третьем эксперименте использовался монотонный рандомизированный алгоритм, минимизирующий функции (5.2)
214 ’ МНОГОМЕРНАЯ МИНИМИЗАЦИЯ (ГЛ. Hi по двухшаговой схеме (1.1) (см. заключительное замечание в п. 1 § 5 гл. II) при той же точности-е=0,05 по каждой координате. При этом использовались значения ri = 1,41; = 6 и Г\ = 2,5; г2 = 6. Соответствующие оценки операционной характеристики изображены-звездочками на рис. 5.2 (каждая функция выборки минимизировалась трижды). Из рис. 5.2 следует, что выбор коэффициента г по схеме опти- мальной рандомизации, основанной на информации, имеющейся на данном шаге (см. п. 7 § 1 гл. II), обеспечивает тот же резуль- тат, что и оптимальный подбор постоянного коэффициента г (но такой подбор постоянного коэффициента не всегда можно осу- ществить априори).
ДОПОЛНЕНИЕ В заключение воспользуемся рассмотренным под- ходом для построения численных методов еще в двух задачах. Для краткости изложения доказательства формулируемых ниже утверждений опущены (чита- тель может ознакомиться с ними, руководствуясь со- ответствующими ссылками). 1. Многоэкстремальная минимизация при испыта- ниях с помехами. Рассмотрим введенную в § 5 гл. I задачу минимизации (на конечной сетке) функции ф(хг), 1^1, для случая, когда вычисления значений функции (испытания) в узлах сетки сопровождаются аддитивными независимыми случайными погрешно- стями (помехами). Такие погрешности возникают, например, при использовании методов вероятностного моделирования для оценки значений функции. Воспользуемся вероятностной моделью из первой главы, полагая, что априорные свойства минимизируем мой функции задаются плотностью /(ф) распределе- ния вероятностей для вектора ф = (фо, ..фп) Rn+i значений этой’ функции в узлах сетки, причем кон- кретный вид этой плотности тот же, что и в п. 3 § 6 гл. I (т. е. плотность задается разложением (1.6.1) по условным плотностям, из (1.6.14) — (1.6.17), где параметр с из (1.6.16) является малым). Что касает- ся результатов испытаний, то будем рассматривать их как исходы из пространств (1.5.9) с условными функ- циями распределения вероятностей вида (1.5.7), т. е. погрешности вычислений значений функции считаются нормальными случайными величинами с нулевыми средними значениями и стандартами, равными о (оди- наковыми во всех испытаниях). Для принятой модели, согласно теоремам 6.1 и 6.2 из гл. 1, апостериорные вероятности |(а/со) для
216 ДОПОЛНЕНИЕ состояний природы, определяемые выражением (1.6.2), могут использоваться как оценки вероятно- стей расположения глобального минимума функции Ф<( i е /, в точках множества /, если величина с из (1.6.16) достаточно мала. В связи с этим преобразу- ем выражение (1.6.2) к виду, пригодному для прак- тических вычислений. Запишем информацию из (1.5.14) как со = = {Zi....ZK), где — {zn = Ул'1 1^^^^/}» 1^/^^» есть множество результатов kt вычислений значений функции ф в точке сопровождавшихся помеха- ми, реализации которых обозначены через yit. При этом предполагается, что kl == k И I] Тогда (Р. Г. Стронг ин [1, 4]) |(а/(о) = ?(©,а) £(а)( 5 <7(®>а) I (а))-1, а <=/, \aei 1 где q{&, а) = ехр причем bj = + • • • + ^ikj, (Д-1) ft S? -1- М л2 ^+1 М/ - ^+.,o = M/+.S /п/(а), (Д.2) а2Е2 Sl= 2 1° 2, S/2+1,o = S;? + (cm)4o+1-0), (Д-З) kriD + °2 Мо — то, So = оо, 1'о — О- (Д-4) Кроме того, если обозначить через gf(<ps/®, а) апосте- риорную (по отношению к (о) условную (по отноше- I-JL У <M/o-(W)2' I 2ЙЧ+(°2^).
Дополнение 217 нию к а) плотность распределения вероятностей для значения <ps минимизируемой функции в точке s^I, где И • • • <С^*—1 ij • • • <.1гг, то g(<psM,a) 1 ( (Ф8 — И (s, a))21 d(s)/2HeXP[ 26» («) j’ M (s, a) = IM2 — Af>l о» + yM- °16S причем ' 8 Ho = + 2 mi (a), i-ij—l+l 6o — + (сш)2 (S — Zj_ 1), где Afj-i и Sj-i определяются из (Д.2) —(Д.4), и где Af,o, Sv и Svo определяются по формулам (Д.2) и (Д.З) в предположении, что Afj0 = /Hs+i(a)H---+/ntj(a), SJ0 = (cm)2(Zy —s). ' Опираясь на установленные свойства принятой вероятностной модели, можно построить одношагово- оптимальное правило выбора узла s*, в котором сле- дует провести очередное (k + 1)-е испытание при на- личии информации <Dft. Введем функцию полезности Q(a, s), соответствующей проведению испытания в точке s, когда искомый минимум находится в точке ае/. Пусть (О, s=/=a» Q(a.s) = | gv(s)> s = a>
Дополнений т. е. полезность равна нулю, если испытание прово- дится не в точке абсолютного минимума, и равна v (v > 0) степени дисперсии значения функции в точке экстремума, если испытание проводится в этой точке. Выбор функции полезности такого вида отра- жает то обстоятельство, что при испытаниях, сопро- вождаемых помехами, даже при известной точке аб- солютного минимума остается еще задача оценки зна- чения минимизируемой функции в этой точке. Возможным оптимальным решающим правилом для введенной функции Q(a, s) является байесовское решение, максимизирующее математическое ожида- ние полезности Q(s) = 2 Q(a>s) £(a/w). Этому правилу соответствует точка s*, удовлетворяю- щая условию Sv (s*) | ($♦/©) = max 6V (s) g (s/о), (Д.5) sei которое может быть использовано для вычисления этой точки. Правило (Д.5) можно, однако, рассматривать и независимо от принятой вероятностной модели как некоторое отображение множества ю* в I, определяю- щее последовательность точек испытаний при мини- мизации функции ф<, i е I. При этом справедливо сле- дующее утверждение (Р. Г. Стронгин [17]). Теорема Д.1. Пусть минимизируемая функция Ф<, I е I, ограничена и дисперсия аддитивных незави- симых помех, имеющих нулевое среднее, также огра- ничена (равномерно по всем испытаниям). Тогда при £(<%) = («-}- I)-1, as/, и любых фиксированных зна- чениях величин с, т, то, о, Оо « v, используемых при вычислении s* из (Д.5), справедливо: 1) минимальный средний результат (по всем точ- кам, в которых проводились испытания) сходится по вероятности к минимальному значению функции, т. е. min (by/6y)->min фг, если fe->oo; kxw i-i
ДОПОЛНЕНИЕ 219 2) если есть точка абсолютного минимума функции a ki и ka есть соответственно числа испытаний, проведенных, в точках i и а (при данном k), то при &->оо с вероятностью, равной 1, (^/&а)->ехр{ — 4(<рг — cpa)/vmc2}. То есть распределение испытаний по точкам обла- сти определения, описываемое отношением kt/k, при- ближается к кривой, имеющей максимум в точке искомого абсолютного минимума и экспоненциально спадающей по мере возрастания значений функции. В заключение отметим, что вычислительные аспек- ты применения решающего правила (Д.5) для созда- ния помехоустойчивых алгоритмов (и соответствую- щие вычислительные схемы и численные примеры) обсуждаются в работе Р. Г. Стронгина [4]. 2. Решение уравнений. Известно, что задача оты- скания корня уравнения <р(х) = 0, хе [а, 6], (Д.6) •э может быть сведена к задаче минимизации невязки |ф(х) | каким-либо оптимизационным методом. Одна- ко такие методы, поскольку они предназначены для решения более общих задач, не используют то ап- риори известное обстоятельство, что значение невязки в искомой точке корня уравнения равно нулю. В свя- зи с этим для решения уравнений разработаны спе- циальные методы, причем для случая, когда левая часть уравнения является многоэкстремальной и удов- летворяет условиям, подобным условию Липшица, предложен ряд оптимальных (минимаксных) алгорит- мов (см., например, В. В. Иванов [2], А. Г. Су- харев [1], Ф. Л. Черноусько [3]). Кроме мини- максных алгоритмов, возможны также методы, оптимальные по вероятностному критерию при неко- торых вероятностных предположениях о левой час- ти уравнения (Д.6). Один из таких методов (Р. Г. Стронгин [6]) мы и рассмотрим. Пусть левая часть уравнения (Д.6) есть некоторая реали- зация однородного случайного процесса с независи-
220 ДОПОЛНЕНИЕ мыми приращениями, которые управляются нормаль- ным законом. Такой процесс может быть описан сто- хастическим уравнением ф(х-|-Дх)—ф(х)=0(Дх), а С х'< х -f- Дх (Д.7)' где р(Дх) есть нормально распределенная случайная величина, причем для любого конечного числа п не- перекрывающихся промежутков (xh xf -f- Дх<), 1 i п, из [а, Ь] величины р(Дх4) взаимно независимы. Математическое ожидание ц и дисперсия о2 величины Р(Дх) соответственно равны р, = ц(Дх) = 7тДх, (Д.8) о2 = <т2(Дх) = (сдг)2Дх, (Д-9) где m > 0 и с> 0 — некоторые параметры (причем параметр с предполагается малым, с<1), а у — случайная величина, принимающая значение у = 1 с вероятностью iq(l) и значение у =— 1 с вероят- ностью т](—1) = 1 — n(l)- Заметим, что математиче- ское ожидание случайного процесса (Д.7) — (Д-9) при любых начальных условиях есть линейная функция х (возрастающая, если у = 1, и убывающая, если 7 = — 1)- Оставшуюся свободу выбора начальных условий используем, чтобы отразить предположение о сущест- вовании хотя бы одного корня уравнения (Д.6) в интервале [а, &]. Для этого положим ф(а)=0, ’ (Д.10) где а е [а, &] есть непрерывная случайная величина (назовем ее состоянием природы) с плотностью g(a) априорного распределения вероятностей, причем ь J | (a) da = 1. а (Д.11) Замечание. Предположения (Д.7) — (Д-П) обеспечивают равномерную непрерывность левой ча-
ДОПОЛНЕНИЕ 221 сти уравнения (Д.6) в смысле теории вероятностей (см., например, Б. В. Гнеденко [1]). Кроме того, однократное пересечение оси х математическим ожи- данием функции <р(х) и малость параметра с можно интерпретировать как некоторую форму задания ус- ловия малой вероятности существования более чем одного корня уравнения (Д.6). Как следует из (Д.10), состояние природы а сов- падает с одним из корней уравнения (Д.6). Поэтому определение состояния природы эквивалентно отыска- нию некоторого корня. Введем апостериорную плот- ность |(а/и) распределения вероятностей для состоя- ния природы а, где и есть множество пар <в = = = {(х(, zt): соответствующих значениям z, = <р(х() левой части уравнения (Д.6), вычислен- ным в точках a = х0 < *1 < • • • <.xk = b. Тогда £(а/ю) = ft(®, a) g(a) (J ft(®, a) £(a)da I , (Д.12) где для любого a e [x;-i, xf], 1 i k, (Д.13) = Pi («-*i-i)'+?i_i(xt"«)p = {xt - (x4 - a) (a - xi—1) ' (Д-14) Наряду с оценкой расположения корня уравнения (Д.6), задаваемой плотностью |(а/ш), удобно иметь некоторую точечную оценку а°е [а, 6]. Одной из естественных оценок такого рода является точка а0, в которой достигается максимум плотности £(а/®) (оценка максимального правдоподобия). Определение а0 сводится к максимизации £(а/ю), для чего, как следует из (Д.12) и (Д.13), необходимо знать значе- ния параметров ш, с и априорную плотность g(a). Вычисление а° существенно упрощается в случае, когда величина с является малым параметром (т. е. априорно предполагается, что неизвестная функция
222 ДОПОЛНЕНИЕ <р(х) в вероятностном смысле близка к линейной). В этом случае можно предложить простой алгоритм, позволяющий находить хорошее приближение к а° и не требующий задания т и &(а). Определение. Назовем оценкой наивероятней- шего расположения корня в интервале [а, &] величи- ну а*, удовлетворяющую условию В (н>, а*) == min В(а>, а?) = min min В (со, а). (Д.15) Следующая теорема устанавливает связь оценки а* с оценкой максимального правдоподобия. Теорема Д.2. Пусть плотность | (а) положитель- на и дважды дифференцируема и значения zt левой части уравнения (Д.6), вычисленные в точках х„ 0 ^ i k, отличны от нуля. Тогда lim а0 — а*, с->0 если В(ь), а*) = В (со, aj)< В (со, a*), i == 1, .’./ — 1, / + 1, ..., k. Замечание. В некоторых задачах функция <р(х) не изменяет знак в окрестности корня уравнения (Д.6), Такая ситуация имеет место, например, при решении уравнения |<р(х)| =0, когда возможно вы- числение лишь абсолютного значения функции <р(х). Вероятностное описание для такого случая можно получить путем замены условия (Д.8) условием ( — туАх, х 4- Ах < а, а = и (х, Ах) = ( . r г ( туАх, а < х, при котором среднее значение процесса по-прежнему достигает нуля в точке а, но не изменяет знака в об- ласти [ц, &] (является неположительным при y = —1 и неотрицательным при у= 1). Однако такой модели (см. Р, Г, Стронгин [6]) соответствуют те же вы- ражения (Д.12) — (Д.14), описывающие плотность |(а/®).
Дополнений 223 Алгоритм поиска корня уравнения. Как и в задачах минимизации из предшествующих глав, условимся именовать вычисление левой части уравнения (Д.6) в точке хе [а, Ь] испытанием в точ- ке х, причем испытание, проводимое при наличии информации coh, будем называть испытанием на (& + 1)-м шаге. Предлагаемый алгоритм поиска кор- ня (сокращенно АПК) состоит в том, что на каждом шаге поиска очередное испытание осуществляется в точке х = а*, являющейся оценкой корня (первые два испытания следует провести на концах интервала [а, Ь], чтобы обеспечить выполнение условий, исполь- зованных в (Д.12) —(Д.14)). Анализ выражений (Д.12) — (Д.15) позволяет предложить простую схему вычисления точки а*. В результате получаем сле- дующие решающие правйла, определяющие ал- горитм. Первые два испытания осуществляются в точках х° = а и х1 = Ь. Выбор любой следующей точки хм, k 1, определяется условиями: 1) перенумеровать (нижним индексом) точки х{, О i k, в которых вычислены значения г* = <р (х1) левой части <р(х) уравнения (Д.6), в порядке возра- стания значений координаты, т. е. а = х0 < Х[ < ... < xft = Ь; -2) для каждого интервала (хг_ь х(), 1 i k, вычислить величину r | zizi—i/(xi Xj—i), ZfZi—i О, (ДД6) I 0, ZjZj-iCO, называемую характеристикой этого интервала (заме- тцм, что величины zt — ср (х{) соответствуют перену- мерованным значениям величин z1); 3) определить интервал (х(_ь х(), которому соот-. ветствует минимальная характеристика R(t) = min R(i). (Д.17) Если минимальная характеристика соответствует не-
224 ДОПОЛНЕНИЕ t скольким интервалам, то в качестве t выбирается ми- нимальное число, удовлетворяющее условию (Д.17); 4) положить Л_1+ [?<--! Н|-Нг<-1| В качестве оценки корня уравнения (Д.6), соот- ветствующей шагу k, примем точку х* = ха, а = arg min | zt j, 0<г<Л которой • соответствует минимальная невязка <pft = min | z* |. • 0<»<А В алгоритм можно ввести условие остановки, пре- кращающее вычисления, когда невязка ср* становится меньше заданного значения е. Замечание 1. Алгоритм поиска корня оказался проще, чем алгоритм минимизации из § 2 гл. II (в ча- стности, АПК не содержит ни один из параметров, входящих в описание модели (Д.7) — (Д.11), в то время как АГП содержит параметр т, который не- обходимо оценивать либо в процессе решения задачи, либо априорно), что является следствием (по сущест- ву единственного) важного различия вероятностных моделей, использованных при выводе соответственно АГП и АПК,— в последнем случае значение функции в искомой точке корня считается заданным (см. ус- ловие (Д.10)). Замечание 2. Если числа z‘, не все одного знака (но все отличны от нуля), то, согласно (Д.16) — (Д.18), каждое очередное испыта- ние будет осуществляться так же, как и в известном ме- тоде хорд (и, таким образом, выясняется статистиче- ский критерий, относительно которого метод хорд явля- ется одношагово-оптимальным). Метод хорд подробно рассмотрен во многих учебниках и поэтому интересен лишь случай, когда все величины zf, 0 i k, имеют
ДОПОЛНЕНИЕ 225 одинаковый знак (для определенности будем в даль- нейшем считать, что z1 > 0, 0 i k). Заметим, что в этом случае все члены последовательности {х*}, порождаемой алгоритмом при решении уравнения (Д.6), будут попарно различными. Если допустить, что все числа г°, ..., z* отличны от нуля, но zk+l = 0, то x‘+v = x*+1 при любом V > 1, т. е. все, кроме конечного числа, члены последователь- ности {х*} являются одинаковыми. Поскольку этот случай соответствует получению точного решения уравнения (Д.6) и условие остановки ^8 вызовет усечение последовательности {х*} на шаге &4-1, даже если 8 = 0, то при изучении условий сходимости можно счи- тать результаты испытаний отличными от нуля. Теорема Д.З. Пусть X* с [а, 6] есть множество корней х* уравнения (Д.6), непрерывная левая часть ф(х) которого удовлетворяет условию 0^<р(х)</<р(х*, х), хе[а, Ь], где р есть непрерывная функция расстояния вида р (х, х+Дх) = f (Дх), (д 20 а^х<х+Дх^Ь, причем существует функция обратная f и такая, что Дх>0, где М и К — константы. Тогда любая предельная точ- ка последовательности {х*}, порождаемой алгоритмом поиска корня при решении уравнения (х) = 0, где i|)(x) =/-'(ф(х)), х <=[а, Ь], 15 Р. Г. Стронгин
дополнение 226 совпадает с одним из корней уравнения (Д.6) (г. е. принадлежит множеству X*). В качестве иллюстрации утверждения доказанной теоремы укажем следующее простое следствие. Если функция ф(х) мажорируется некоторым конусом с основанием в точке х* единственного корня уравнения (Д.6), т. е. 0<ф(х) СК|* — х*[, х Ф х*, ТО ; ф(х)= ф(х) и, согласно теореме, х* -> х* при k ->• оо (последовательность испытаний, порождаемая АПК, сходится к единственной точке корня). Замечание. Если уравнение (Д.6) не имеет ре- шения, например, если ф(х)>0, хе[а, Ь] , (априорная вероятность такого случая, согласно (Д. 10) и (Д.11), равна нулю), то каждая точка интервала [а, Ь] является предельной точкой последовательно- сти {х*}, порождаемой АПК. В частности, для функ- ций вида ф(х)= const точки поисковых испытаний бу- дут образовывать равномерное разбиение интервала [а, 6], шаг которого последовательно уменьшается при продолжении поиска. Решение систем. Сопоставим системе нели- нейных уравнений ф<(*/ь ...,№)= 0, %. l<i<^ определенной в области D из (3.0.2), невязку N . А(У)= S|1’t(y1,...,«/N)|. (Д.22) 1=1 Тогда, используя развертку у(х) типа кривой Пеано
ДОПОЛНЕНИЕ 227 из п. 1 § 3 гл. III, можно свести отыскание решения системы к отысканию корня уравнения Д(у(х))=0, х (= [0, 1], поскольку образ у* = у(х*), указанного корня является решением системы. Можно показать (Р. Г. Стронгин [16]), что если невязка системы удовлетворяет условиям o<A(y)<W-ril, у* <= У*, У <= D, где У* есть множество всех решений системы, лежа- щих в D, то N ----- 0<Д(у(х))< W|x-x*|, хе[0, 1], (Д.23) где М — константа и х* есть любой прообраз точки у* при соответствии у(х). Поэтому, согласно теоре- ме, сформулированной выше (см. условия (Д.19) — (Д.21) и (Д.23)), решение системы можно получить путем решения уравнения с помощью АПК. Пример. Решить систему трех нелинейных уравнений 2 sin yt cos у2 = sin 3yi sin уз, sin yt sin y2 + y% In y3 = cos ys, 3/2 + In tjty2 + cos уз sin y3 + sin (10(/3/3) 3yiy3/10 в области: 0,l<t/i<6; 2sSj/2'<3; 2,7^i/3^7,5. 15*
228 ДОПОЛНЕНИЕ Для решения была составлена невязка (Д 22) и отыскивался корень уравнения (Д.24) при А=3 с помощью АПК, причем обра- зы у(х) точек х, в которых осуществлялись испытания, заменялись их приближениями, строившимися по алгоритму из п. 1 § 4 гл. III. Получена оценка решения (уточнялась локальным методом): у[ = 3,14159; I/* = —0,58073; ^ = 4,41717. Для иллюстрации многоэкстремальности укажем еще два локаль- ных минимума невязки: yi === 3,141; у2 = 0,816; у3 = 6,116; Д = 0,425; У! = 2,301; у2 = 1,222; у3 = 1,062; Д = 1,893.
ЛИТЕРАТУРА А в р и л М., У а й л д Д. Д ж. (Avriel М„ Wilde D. J.J 1. Optimal search for a maximum with sequences of simulta- neous function evaluations, Manag. sei., 12, 9 (1966), 722— 731. Адлер Ю. И, Маркова E. В., Грановский Ю. В. 1. Планирование эксперимента при поиске оптимальных усло- вий, «Наука», М., 1976. Батищев Д. И. 1. Поисковые методы оптимального проектирования, «Советское радио», М„ 1975. Бахвалов Н. С. 1. Численные методы, «Наука», М., 1973. Беллман Р. 1. Динамическое программирование, ИЛ, М., 1960. Бимер Дж. X., Уайлд Д. Дж. (Beamer J. Н., Wilde D. J.) 1. Time delay in minimax optimization of unimodal functions of one variable, Manag. sci., 15, 9 (1969), 528—538. БлекуэллД., ГиршикМ. A. 1. Теория игр и статистических решений, ИЛ, М., 1958. Бочаров И. Н., ФельдбаумА. А. 1. Автоматический оптимизатор для поиска минимального из . нескольких минимумов (глобальный оптимизатор), Автома- тика и телемеханика, 23, 3 (1962), 289-301. Брусов В. С., ПиявскийС. А. 1. Вычислительный метод отыскания абсолютного минимума v функции, Сб. «Экстремальные задачи и их приложения к во- просам планирования, проектирования и управления слож- ными системами», Изд, ГГУ, Горький, 1971. В а з а н М. 1. Стохастическая аппроксимация, «Мир», М., 1972. В а й с б о р д Э. М., Ю д и н Д. Б. 1. Многоэкстремальная стохастическая аппроксимация, Изв. АН СССР, Техническая кибернетика, 5 (1968), 3—13.
230 ЛИТЕРАТУРА Васильев Ф. П. 1. Лекции по методам решения экстремальных задач, Изд. МГУ, М., 1974. Воробьев Н. Н. 1. Теория ипр, Лекции для экономистов-кибернетиков, Изд. ЛГУ, Л., 1974. ГабасовР., Кириллова Ф. М. 1. Методы оптимизации, Изд. БГУ, Минск, 1975. Гельфанд И. М., By л Е. Б., Гинзбург С. П., Фёдо- ре в Ю. Г. 1. Метод оврагов и его использование в задачах рентгено- структурного анализа. «Наука», М., 1966. ГермейерЮ. Б. 1. Введение в теорию исследования операций, «Наука», М., 1971. Гнеденко В. В. 1. Курс теории вероятностей, Физматгиз, М., 1961. Г р и ш а г и н В. А., С т р о н г и н Р. Г. 1. Алгоритмы и программы глобального поиска, Сб. «Автомати- зированное оптимальное проектирование инженерных объ- ектов и технологических процессов», Изд. Г ГУ, Горький, 1974. Гурин Л. С., Лобач В. П. 1. Комбинация метода Монте-Карло с методом скорейшего спуска при решении некоторых экстремальных задач, Вы- числ. матем. и матем. физ., 2, 3 (1962), 499—502. Д а н и л и н Ю. М., П и я в с к и й С. А. 1. Об одном алгоритме отыскания абсолютного минимума, Сб. » «Теория оптимальных решений», Изд. ИК АН УССР, Киев, 1967. Де Гроот М. 1. Оптимальные статистические решения, «А4ир», М., 1974. Демьянов В. Ф., МалоземовВ. Н. 1. Введение в минимакс, «Наука», М., 1972. ДеннисДж. Б. 1. Математическое программирование и электрические цепи, ИЛ, М., 1961. Евтушенко Ю. Г. 1. Численный метод поиска глобального экстремума (перебор на неравномерной сетке). Вычисл. матем. и матем. физ., 11, 6 (1971), 1390—1403. .....................
ЛйТЕйаТурА 231 Емельянова Н. М. 1. Оптимизация процессов поиска экстремума функций с ис- пользованием априорных данных, Автоматика и телемехани- ка, 18, 5 (1967), 160—165. Ермакове. М. 1. Метод Монте-Карло и смежные вопросы, «Наука», М., 1971. Ермольев Ю. М. 1. Методы стохастического программирования, «Наука», М., 1976. Ж и л и н с к а с А. Г. 1. Одношаговый байесовский метод поиска экстремума функции одной переменной, Кибернетика, 1 (1975), 139—144. 2. Одношаговый байесовский алгоритм минимизации одномер- ных функций в присутствии помех, Сб. «Теория оптималь- ных решений», № 1, Изд. АН Лит.ССР, Вильнюс, 1975. 3. Метод одномерной многоэкстремальной минимизации, Изв. АН СССР, Техническая кибернетика, 4 (1976), 71—74. . Ж и л и н с к а с А. Г., М о ц к у с И. Б. 1. Об одном байесовском методе поиска минимума, Автоматика и вычислительная техника, 4 (1972), 42—44. И в а н о в В. В. 1. Об оптимальных алгоритмах минимизации функций некото- 1 рых классов, Кибернетика, 4 (1972), 81—94. 2. Об оптимальных по точности алгоритмах приближенного ре- шения операторных уравнений I рода, Вычисл. матем. и ма- тем. физ., 15, 1 (1975), 3—11. И о с а к и К., Имамура X., Тасака М., Сигияма X. (Uosa- s ki К., Imamura Н., <Tasaka М., Sugiyama Н.) 1. A heuristic method for maxima searching in case of multimo- । dal surfaces, Technol. Repts. Osaka Univ., 20, Oct. (1970), 337—344. Иоффе А. Д., Тихомиров В. M. 1. Теория экстремальных задач, «Наука», М., 1974. Карманов В. Г. 1. Математическое программирование, «Наука», М., 1975. К а р р Ч., X о у в Ч. 1. Количественные методы принятия решений в управлении и экономике, «Мир», М., 1966. К а т к о в н и к В. Я. I. Линейные оценки и стохастические задачи оптимизации, «Наука», М., 1976.
232 ЛИТЕРАТУРА 2. Методы сглаживания и алгоритмы случайного поиска, Сб. «Вопросы кибернетики. Проблемы случайного поиска», «На- ука», М., 1973, Кифер Дж. (Kiefer J.J 1. Sequential minimax search for a maximum, Proc. Amei. Math. ' Soc., 4, 3 (1953), 502—506. Кон веp з A. 0. (Converse A. 0.) 1. The use of uncertainty in a simultaneous search, Oper Res., 15, 6 (1967), 1088—1095. Кристоф В. (Christoph W.) 1. Fibonacci search with arbitrary first evaluation, Fibonacci Quart. 10, 2 (1972), 113—134. Кушнер X. (Kushner H.) 1. A new method of locating the maximum point of an arbitrary multipeak curve in the presence of noise, Trans. A SME, Ser. D, J. Basic Eng., 86, 1 (1964), 97—106. Л e о н о в В. B. 1. Метод покрытий для отыскания глобального максимума функции от многих переменных, Сб. «Исследования по кибер- нетике», «Советское радио», М., 1970. Л е р н е р В. С. 1. Применение физического подхода к некоторым задачам управления, «Картя молдовеняске», Кишинев, 1969. Л у з и н Н. Н. 1. Теория функций действительного переменного, Учпедгиз, М., 1948. Мак-Му ртри Г. Д ж., Фу К. С. (McMuitry G. J.. Fu К. S.) 1. A variable structure automation used as a multimodal sear- ching technique, IEEE Trans., AC-11, 3 (1966), 379-387. M а л к о в В. П., Б е х Л. П. 1. Оптимальное распределение материала в составных осесиммет- ричных тонкостенных конструкциях, Сб. «Методы решения за- дач упругости и пластичности», № 6, Изд. ГГУ, Горький, 1972. 2. Автоматизированная система оптимального проектирования сосудов высокого давления, Сб. «Оптимизация технических систем», Изд. НТО РЭС им. А. С. Попова, Новосибирск, 1976, ДО а л к о в В. П., С т р о н г и н Р. Г. 1. Оптимизация конструкций по весу из условий прочности, Сб. «Метбды решения задач упругости и пластичности», № 4, Изд. ГГУ, Горький, 1971,
ЛИТЕРАТУРА 233 Медведев Г. А. 1. Применение цепей Маркова для анализа поиска, сб. «Вопросы кибернетики. Проблемы случайного поиска», «Наука», М., 1973. Михалевич В. С. 1. Последовательные алгоритмы оптимизации и их применение, Кибернетика, 1 (1965), 45—55; 2 (1965), 85-89. Моисеев Н. Н. 1. Элементы теории оптимальных систем, «Наука», М., 1975/ М о ц к у с И. Б. 1. Многоэкстремальные задачи в проектировании, «Наука», М., 1967. 2. О байесовых методах поиска экстремума, Автоматика и вы- числительная техника, 3 (1972), 53—62. 3. Об оптимальных методах поиска, Сб. «Вопросы кибернетики. Проблемы случайного поиска», «Наука», М., 1973. Н е й м а р к Ю. И. 1. Автоматная оптимизация, Изв. вузов, Радиофизика, 15, 7 ' (1972), 967—971. 2. Стохастические движения динамических систем, Сб. «Дина- мика систем», № 4, Изд. ГГУ, Горький, 1974. - — - Н е й м а р к Ю. И., С т р о н г и н Р. Г. 1. Информационный подход к задаче поиска экстремума функ- ций, Изв. АН СССР, Техническая кибернетика, 1 (1966), 17-26. О р е О. v 1. Теория графов, «Наука», М., 1968. Островский Г. М., Волин Ю. М. 1. Методы оптимизации сложных химико-технологических схем, «Химия», М., 1970. ПиявскийС. А. 1. Один алгоритм отыскания абсолютного экстремума функ- ции, Вычисл. матем. и матем. физ., 12, 4 (1972), 888—896. Половинкин А. И. 1. Оптимальное проектирование с автоматическим поиском схем инженерных конструкций, Изд. АН СССР, Техническая ки- бернетика, 5 (1971), 29—38. Поспелов Д. А. 1. Вероятностные автоматы, «Энергия», М., 1970. Пшеничный Б. Н., Данилин Ю. М. I. 1. Численные методы в экстремальных задачах, «Наука», М., 1975,,
234 ЛИТЕРАТУРА Пшеничный Б. Н., Марченко Д. И. 1; Об одном подходе к нахождению глобального минимума, Сб. «Теория оптимальных решений», Изд. ИК АН УССР, Киев, 1967. Растригин Л. А. 1. Статистические методы поиска, «Наука», М., 1968. Р а с т р и г и н Л. А., Р и п а К. К. 1. Автоматная теория случайного поиска, «Зинатне». Рига, 1973. Риордан Дж. 1. Введение в комбинаторный анализ, ИЛ, М., 1963. Самарский А. А., ГулинА. В. 1. Устойчивость разностных схем, «Наука», М., 1973. Соболь И. М. 1. Численные методы Монте-Карло, «Наука», М., 1973. Стронгин Р. Г. .1. Информационный метод многоэкстремальной минимизации при измерениях с помехами, Изв. АН СССР, Техническая ' кибернетика, 6 (1969), 118—126. 2. Многоэкстремальная минимизация, Автоматика и телемеха- ника, 31,7 (1970), 63—67. 3. Выбор испытаний и условие остановки в одномерном гло- бальном поиске, Изв. вузов, Радиофизика, 14, 3 (1971), 432—440. 4. Алгоритмы для поиска абсолютного минимума, Сб. «Зада- чи статистической оптимизации», «Зинатне», Рига, 1971. 5. Минимизация многоэкстремальных функций нескольких пе- ременных, Изв. АН СССР, Техническая кибернетика, 6 (1971), 39-46. 6. Вероятностный подход к задаче определения корня функ- ции, Вычисл. матем. и матем. физ., 12, 1 (1972), 3—13. 7. О вероятностной оценке экстремума в многоэкстремальных задачах, Сб. «Проблемы случайного поиска», № 5, «Зинат- не», Рига, 1976. 8. Информационно-статистическая теория поиска экстремума функций, Изв. вузов, Радиофизика, 15, 7 (1972), 997—1005. 9. Об одном алгоритме глобальной минимизации, Изв. вузов, Радиофизика, 13, 4 (1970), 539—545. 10. О сходимости одного алгоритма поиска глобального экстре- мума, Изв. АН СССР, Техническая кибернетика, 4 (1973), 10-16,
ЛИТЕРАТУРА 235 11. Рандомизация стратегий в поиске глобального экстремума, Сб. «Проблемы случайного поиска», № 2, «Зинатне», Рига, 1973. 12. Обобщенный алгоритм глобального поиска, Сб. «Теория колебаний, прикладная математика и кибернетика», № 3, Изд. ГГУ, Горький, 1974. 13 Непрерывное отображение отрезка на гиперкуб (СП-0170 для ИС-2 АЛГОЛ-60 процедура. ФОРТРАН-подпрограмма). Сб. «Алгоритмы и программы. Информационный бюллетень», № 2, айн. 21, Изд. ВНТИЦ, М., 1977. 14. Монотонные алгоритмы многоэкстремальной оптимизации, Сб. «Численные методы нелинейного программирования», Изд. ХГУ, Харьков, 1976. 15. Простой алгоритм поиска глобального экстремума функций нескольких переменных и его использование в задаче ап- проксимации функций, Изв. вузов, Радиофизика, 15, 7 (1972), 1077—1084. 16. Информационно-статистический метод решения систем не- линейных уравнений, Сб. «Проблемы случайного поиска», № 4, «Зинатне», Рига, 1975. 17. Оценка сходимости помехоустойчивого алгоритма глобаль- ного поиска, Сб. «Проблемы случайного поиска», № 6, «Зинатне», Рига, 1977. С т р о н г и н Р. Г., Т р и ш и н а И. В. 1. Оределение глобального экстремума одномерной действи- тельной функции, заданной на отрезке (СП-0160 для ИС-2), Сб. «Алгоритмы и программы. Информационный бюлле- тень», № 2, анн. 78, Изд. ВНТИЦ, М., 1973. 2. Стандартная программа модифицированного алгоритма гло- бального поиска. Сб. «Оптимальное проектирование авиа- ционных конструкций, № 1, Изд. КУАИ, Куйбышев, 1973. 3. Определение последовательных абсолютных экстремумов действительной функции от нескольких переменных (СП-0162 для ИС-2), Сб. «Алгоритмы и программы. Ин- формационный бюллетень», № 3, анн. 124, Изд. ВНТИЦ, М., 1974. Сухарев А. Г. 1. Оптимальный поиск экстремума, Изд. МГУ, М., 1975. ТихоновА. Н. ч 1. Об устойчивости задачи оптимизации функционалов, Вы- числ. матем. и матем. физ., 6, 4 (1966), 631—634.
236 ЛИТЕРАТУРА Т с у д о Т., КионоТ. (Tsudo Т., Kiyono Т.) 1. Application of the Monte-Karlo method to systems of nonli- near algebraic equations, Numer, Math., 6 (1964), 59—67. У а й л д Д. Д ж. 1. Методы поиска экстремума, «Наука», М., 1967. Ф и а к к o' А., М а к - К о р м и к Г. 1. Нелинейное программирование. Методы последовательной безусловной минимизации, «Мир», М., 1972. X а з е н Э. М. 1. Методы статистического последовательного поиска экстрему- , ма, Сб. «Методы статистической оптимизации», «Зинатне», Рига, 1968. Хасьминский Р. 3. 1. Применение случайного шума в задачах оптимизации и опо- знавания, Сб. «Проблемы передачи информации», Xs 3, 1965. Хилл Дж. Д. (Hill J. D.) 1. A search technique for multimodal surfaces, IEEE Trans. SSC-5, 1 (1969), 2—8. X и л л Д ж. С., Г и б с о н Д ж. И. 1. Способ автоматической оптимизации многоэкстремальных f функций, Сб. «Теория самонастраивающихся систем управле- ния», «Наука», М., 1969. Химмельблау Д. 1. Прикладное нелинейное программирование, «Мир», М., 1975. Ц е т л и н М. Л. 1. Исследования по теории автоматов и моделированию биоло- гических систем, «Наука», М., 1969. Ц ы п к и н Я. 3. 1. Сглаженные рандомизированные функционалы и алгоритмы < в теории адаптации и обучения, Автоматика и телемеханика, 32, 8 (1971), 29—50. 2. Адаптация и обучение в автоматических системах, «Наука», М., 1968. Черноусько Ф. Л. 1. Об оптимальном поиске экстремума унимодальных функций, Вычисл. матем. и матем. физ., 10, 4 (1970), 922—933. 2. Об оптимальном поиске минимума выпуклых функций, Вы- числ. матем. и матем. физ., 10, 6 (1970), 1355—1366. 3. Оптимальный алгоритм поиска корня функции, вычисляемой приближенно, Вычисл. матем. и матем. физ,, 8, 4 (1968), 705—724.
ЛИТЕРАТУРА 237 Чичинадзе В. К. 1. Об одном способе использования случайного поиска для определения экстремума функции нескольких переменных, Изв. АН СССР, Техническая кибернетика, 1 (1967), 111—120. ШалтянисВ. Р. 1. Об одном методе многоэкстремальной оптимизации, Автома- тика и вычислительная техника, 3 (1971), 33—38. ШалтянисВ. Р., ВарнайтеА. 1. Об одном методе уменьшения размерности при решении мно- гоэкстремальных задач, Сб. «Теория оптимальных решений», № 1, Изд. АН Лит.ССР, Вильнюс, 1975. 2. Вопросы структуры многоэкстремальных задач оптимизации, Сб. «Теория оптимальных решений», № 2, Изд. АН Лит.ССР, Вильнюс, 1976. Ш у б е р т Б. О. (Shubert В. О.) 1. A sequential method seeking the global maximum of a func- tion. SIAM J. Numer. Anal. 9, 3 (1972), 379—388. . ( Ю д и н Д. Б. 1. Методы количественного анализа сложных систем, 1, Изв. АН СССР, Техническая кибернетика, 1 (1965), 3—13. 2. Решающие правила в экстремальных задачах, Изв. вузов, Радиофизика, 15, 7 (1972), 957—966. Ю д и н Д. Б., Хазен Э. М. 1. Некоторые математические аспекты статистических методов поиска, Сб. «Автоматика и вычислительная техника», № 13, «Зинатне», Рига, 1966. Яблонский А. И. 1. Об экстремальных свойствах случайного поиска, Изв. вузов, Радиофизика, 14, 7 (1971)» 1104—1111.
Предметный указатель Алгоритм вычисления колебания функции 148 — глобального поиска (АГП) 81 ------дискретный 72 ------комбинированный 149 ------многошаговый (АГП-М) 160 ---------смешанный 162, 166 ------монотонный (МАГП) 129 ------многошаговый (МАГП-М) 162 ------обобщенный (ОАГП) 138 ------многомерный (МОАГП) 183, 197 -----------с неинъективной разверткой 197 ------рандомизированный (РАГП) 74, 142 ---------многошаговый (РАГП-М) 162 — минимизации на системе от- резков 146’ — наилучший 29 — оптимизации 21, 31 — поиска корня (АПК) 223 — решения систем 226 - — е-оптимальный 22 Игра с природой 22, 72 Инвариантность последователь- ности испытаний 80 Интервал остановки 90 Информация поисковая 45, 78, 216, 223 Испытание 9, 43, 215, 223 Испытаний исход 44 — модель 43 — пространство 44 Кривая Пеано 157, 168, 199 Критерий эффективности 21 Метод автоматной оптимизации 14 — аппроксимации 13 --- стохастической 15 — байесовский 38 ---наилучший 38 —градиентного спуска 11, 13 — деформируемого многогран- ника 210 — динамического программиро- вания 25, 155 — локальный 11 — ломаных 211 — минимаксный 22 — Монте-Карло 13, 210 — перебора 40, 210 — сглаживания 15 — случайного поиска 14 — стохастических квазиградиен- тов 16 — тяжелого шарика 17 — Фибоначчи 25 Метрики согласование 141 Область минимизации выпуклая 163 ---неодносвязная 146, 166, 184 ---с вычислимой границей 163 Описание вероятностное 35, 41, 56, 59 ---апостериорное 37 ---априорное 36, 42, 220 Оценка корня максимального правдоподобия 211 ---точечная 221, 224 — экстремума 20, 81 ---апостериорная 45 — — априорная 42
ПРЕДМЕТНЫЙ Оценка экстремума вероятно- стная 35, 37, 42, 45, 61 -------при испытаниях без по- грешностей 47 -------приближенная 50 --- достоверная 33 < — точечная 63 Плотность испытаний 88, 101, 139 Последовательность испытаний 78 ---усеченная 81, 90 Последовательности испытаний строение 94 Притяжения область 12 Проекция области 159, 163 Развертка кусочно линейная 187, 203 — неинъективная 196/205 — Пеано 157, 168, 199 — спиральная 189 — телевизионная 189 Редукция размерности 155, 157, 168 Сечение области 163 Смежные гиперкубы 172 Состояние природы 51, 220 Стратегия байесовская 38, 218 — минимаксная 22 — одношагово оптимальная 32 — оптимизации 22 Схема многошаговая 155,. 159 Сходимость геометрическая 113 — монотонная 112 — почти монотонная 112 Топология последовательности 95 Точностей вектор 160 УКАЗАТЕЛЬ 1Х 239 Усечение последовательности 90 Условие аппроксимации вероят- ностных оценок экстремума 52 — выпуклости 30 — Липшица 26, 33 ---обобщенное 137, 166, 182 — минимакса 22 — сходимости 17, 83, 130, 138, 160, 184, 218, 225 ---почти монотонной 117 — остановки 20, 71, 80, 90, 224 — унимодальности 23 Устойчивость /г-топологий ПО — оценки экстремума 107, 140 Функция многоэкстремальная — полезности 217 — потерь 38, 69, 73 — решающая 20 — риска 38, 70 — унимодальная 11, 23 Характеристика интервала 79, 223 — операционная 209 Центр гиперкуба 172, 178 Численные иллюстрации 81, 148, 151, 167, 185, 199, 211, 212, 227 Экстремум абсолютный 12 — глобальный 12 — локальный 12 ---изолированный 12
Роман Григорьевич Стронгин ЧИСЛЕННЫЕ МЕТОДЫ В МНОГОЭКСТРЕМАЛЬНЫХ ЗАДАЧАХ (ИНФОРМАЦИОННО-СТАТИСТИЧЕСКИЕ АЛГОРИТМЫ) (Серия; «Оптимизация и исследование операций») М., 1978 г., 240 стр. с илл. Редактор М. М. Горячая Техн, редактор Н. В. Кошелева Корректоры Г. В. Подвольская, Ht Б. Румянцева Сдано в набор 1/VII 1977 г. Подписано в печать 9/XII 1977 г. Бумага 84Х108’/з2. Физ. печ. л. 7,5. Условн. печ. л. 12,6. Уч.-изд. л. 11.Тир. 12 000 экз. Т-20 777. Цена 75 коп. Зак. Xs 609. Издательство «Наука» Главная редакция физико-математической литературы , 117071, Москва, В-71, Ленинский проспект, 15 Типография № 4 изд-ва «Наука» Новосибирск, 77, Станиславского, 25