Задача наилучшего выбора. Березовский Б.А., Гнедин А.В. М.: Наука, 1984 г. 198 с.
Введение
Глава 1. Задача оптимальной остановки
1.2. Задача оптимальной остановки
1.3. Оптимальная остановка марковских случайных последовательностей
1.4. Задача с двумя возможностями остановки
Глава 2. Выбор наилучшего варианта
2.2. Задача наилучшего выбора при случайном числе вариантов
2.3. Задача наилучшего выбора, связанная с пуассоновским процессом. Случай ранговой информации
2.4. Задача с полной информацией
2.5. Задача наилучшего выбора, связанная с пуассоновским процессом. Случай полной информации
2.6. Выбор с несколькими попытками
2.7. Задача с частичной информацией
Глава 3. Ранговые задачи наилучшего выбора
3.2. Задача с бесконечным числом вариантов
3.3. Предельные соотношения в задаче с конечным числом вариантов
3.4. Пороговые правила остановки и исследование уравнения для цены продолжения в задаче с бесконечным числом вариантов
3.5. Задача Гусейн-Заде
3.6. Задача с памятью единичного объема
Глава 4. Задачи с неклассической структурой предпочтений
4.2. Предельные соотношения
4.3. Случай равноценных критериев и некоторые примеры
4.4. Остановка на парето-оптимальном варианте
4.5. Пороговые правила остановки
4.6. Остановка на недоминируемом варианте. Случай полной информации
Литература
Библиографический комментарий
Содержание
Text
                    АКАДЕМИЯ НАУК СССР
Б.А.Березовский
А.В.Гнедин
ЗАДАЧА
НАИЛУЧШЕГО
ВЫБОРА
Издательство * Наука


АКАДЕМИЯ НАУК СССР МИНИСТЕРСТВО ПРИБОРОСТРОЕНИЯ, СРЕДСТВ АВТОМАТИЗАЦИИ И СИСТЕМ УПРАВЛЕНИЯ СССР ОРДЕНА ЛЕНИНА ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ Б. А. Березовский, А. В. Гнедин ЗАДАЧА НАИЛУЧШЕГО ВЫБОРА Ответственный редактор доктор технических наук Э. А. ТРАХТЕНГЕРЦ ИЗДАТЕЛЬСТВО «НАУКА» МОСКВА 1984
ВВЕДЕНИЕ За последние двадцать лет в рамках статистической теории решений сформировался круг задач, получивших название задач наилучшего выбора. Интерес к этим задачам возник по двум причинам. Во-первых, они отражают некоторые существенные особенности реальных процессов выбора и, во-вторых, всегда имеют содержательную постановку и легко интерпретируемые решения. Старая истина гласит, что самый лучший способ описания какого-нибудь нового класса заключается в указании его наиболее типичного представителя. Таким представителем в нашем случае является классическая задача наилучшего выбора. Приведем ее формулировку. Предположим, что имеется N вариантов, сравниваемых между собой по какому-то критерию, из которых требуется выбрать всего один вариант. Ознакомление с вариантами происходит в случайном порядке, а на процесс выбора наложены следующие ограничения: в каждый момент может быть выбран только непосредственно наблюдаемый вариант, и ничего не известно о качестве последующих вариантов. Требуется так остановить процесс выбора, чтобы выбранный вариант с максимальной вероятностью оказался наилучшим1. Решение задачи хорошо известно: требуется пропустить примерно N/e вариантов, а затем остановиться на первом же варианте, который окажется лучше abex гввои:£ -предшественников, а если такого варианта нет, то фыбрать последний вариант. При этом вероятность выбора наилучшего варианта при больших N равна примерно 0,37. Эта задача является самой простой, тем не менее она имеет все характерные черты задач наилучшего выбора: выбор осуществляется в несколько этапов, т. е. происходит во времени; на процесс выбора наложены стратегические и информационные ограничения, связанные с полной или частичной недоступностью для выбора пропущенных вариантов и статистической неопределенностью качества будущих вариантов; эффект выбора зависит только от сравнения выбранных вариантов со всеми остальными вариантами, из которых выбор в принципе можно было бы сделать и, быть может, от некоторых факторов, внешних по отношению к сравнениям вариантов (например, от затрат на проведение наблюдений); эффект выбора тем выше, чем лучше выбранные варианты. Таким образом, в задачах наилучшего выбора за основу берется сравнение вариантов, и даже если сравнение производится пу- 3
тем измерения или числовой оценки, то оценка отдельно взятого варианта, безотносительно к оценкам других вариантов, никакой роли не играет. Иначе говоря, про вариант нельзя сказать, хорош он или плох, но можно сравнить его с другими вариантами, т. е. качество выступает только как сравнительное качество. Именно этот «ординализм» и выделяет задачи наилучшего выбора из остальных задач последовательного анализа. С формальной точки зрения сказанное означает, что если под наблюдением понимается число (интерпретируемое как оценка качества очередного варианта), то критерий эффективности стратегий выбора должен быть инвариантен относительно изменения масштаба на числовой шкале. В настоящей книге рассматриваются задачи наилучшего выбора, в которых требуется выбрать всего один вариант, и выбор может быть сделан только с одной попытки (за исключением п. 2.6, в котором этих попыток несколько). Под способом выбора понимается правило остановки, т. е. определенное предписание, которое на каждом этапе по результатам проведенных наблюдений указывает, следует выбрать очередной вариант или же следует перейти к следующему варианту, если такая возможность имеется. Эффект выбора определяется исключительно результатами сравнения выбранного варианта со всеми остальными и выражается через способ описания предпочтений на множестве вариантов. «Чистая» зависимость эффекта выбора от сравнений делает легко сопоставимыми различные задачи. Основная схема, принятая в книге, следующая. Пусть Аг, . . ., An — последовательность вариантов, рассматриваемая как случайная выборка из некоторого глобального множества SK. Предполагается, что на 31 задана структура предпочтений, т. е. задан определенный способ упорядочения вариантов по качеству. Если Аг = а1? . . ., Αν = &ν, то эффект выбора варианта On из множества {а1? . . ., ajv} всех наблюденных вариантов полагается равным q (a^ {αϊ, . . ., αχ}), причем функция q (·, ·) зависит только от сравнения вариантов между собой. Далее, предполагается заданным некоторый класс 3R правил остановки τ, т. е. случайных величин, принимающих значения η = 1, . . ., N таких, что значение τ = η определяется результатами наблюдений, приведенных к моменту появления Ап. Под событием {τ = = η) понимается выбор варианта Ап, а математическое ожидание Mq(Ax, {Аи . . ., AN}) интерпретируется как средний выигрыш правила τ. Требуется максимизировать средний выигрыш по классу 3R, т. е. указать такое правило остановки τΝ, что Mq(A_Ni {Аи . . ., AN}) = sup Mq(AXi {Аъ . . ., AN}), и найти значение vN этого супремума. Чтобы полностью конкретизировать задачу наилучшего выбора, остается указать, что такое структура предпочтений, каков 4
явный вид функции выигрыша q (·, ·) и, наконец, о каком классе 991 идет речь. Если варианты Л1? . . ., An можно линейно упорядочить по качеству, то вся информация о сравнениях вариантов исчерпывается последовательностью Хг, . . ., XN абсолютных рангов, где Хп есть ранг Ап среди A х, . . ., An (лучшим вариантам отвечают меньшие ранги). Исходное предположение о зависимости эффекта выбора исключительно от сравнений вариантов приводит к тому, что q(Any {А1ч . . ., An}) = q (Хп), т. е. эффект выбора зависит только от абсолютного ранга выбранного варианта. Если считать число вариантов N случайным, или же параметром задачи, то в общем случае следует ввести также зависимость эффекта выбора от N. Однако введение такой зависимости, равно как и введение платы за наблюдения, делает совершенно несопоставимыми различные задачи и при этом теряется наглядность среднего выигрыша как некоторой величины, выраженной через сравнения. Коротко изложим содержание книги. Гл. 1 носит вспомогательный характер. В п. 1.1 приводятся стандартные сведения об измеримости и интеграле Лебега. В п. 1.2 содержится постановка задачи оптимальной остановки процессов с дискретным временем. Наиболее пристальное внимание здесь следует обратить на метод обратной индукции, позволяющий в случае конечного числа наблюдений конструктивно находить оптимальное правило, а также на так называемый монотонный случай. В п. 1.3 изложены элементы теории оптимальной остановки марковских цепей. Важную роль в дальнейшем играет случай независимых наблюдений и теорема 1.11 о возможности исключения из рассмотрения рандомизированных правил остановки (приводимая без доказательства). Второстепенное значение имеет теория, излагаемая в п. 1.4, ее выводы используются только в п. 2.6. В гл. 2 рассматривается самая простая функция выигрыша: q (Хп) равно 1, если Хп = 1 и равно 0 во всех остальных случаях. Таким образом, все множество вариантов Аг, . . ., An разбивается на два уровня качества —- первый уровень состоит из единственного варианта с единичным абсолютным рангом (называемого наилучшим), а второй уровень состоит из всех остальных вариантов. Средний выигрыш Mq (Xx) в этом случае равен вероятности остановки на наилучшем варианте. В п. 2.1 рассматривается классическая задача. Классом 3R здесь является совокупность правил остановки, основанных на наблюдении относительных рангов Yly . . ., Yn, где Yn есть ранг Ап среди Аъ . . ., Ап, η = 1, . . ., N. Оптимальным оказывается правило τΝ, которое предписывает пропустить А1ч . . ., -4d*-ir а затем остановиться на первом же относительно лучшем варианте 5
Ап, т. е. таком, что Yn = 1. Правила такого типа называются пороговыми, их эффективность в задачах наилучшего выбора обусловлена самой природой этих задач и связана с простым принципом монотонности: ожидаемое качество относительно лучших вариантов неуклонно возрастает во времени (назовем его первым принципом монотонности). Второй принцип монотонности выражается в том, что νΝ монотонно убывает, доказательство его обычно связано с различными способами «вложения» задачи с меньшим числом вариантов в задачу с большим числом вариантов и использованием теоремы 1.11 (о рандомизации). Содержательно второй принцип монотонности означает, что из большего числа вариантов наилучший вариант выбрать труднее, нежели из меньшего их числа, даже при использовании оптимального правила. Сразу же оговоримся, что термин «задача» будет пониматься достаточно вольно — это не только предмет изучения, но и некоторый набор формальных объектов, с которыми можно производить какие-то операции (например, «вкладывать» одну задачу в другую). В п. 2.2 рассматривается задача, в которой число вариантов N случайно, а наблюдению опять-таки подлежат только относительные ранги. Эта задача дает пример, в котором нарушаются все принципы, присущие задачам наилучшего выбора, в частности, оба принципа монотонности. Оптимальное правило может уже не быть пороговым, т. е. множество номеров п, на которых следует останавливаться при появлении относительно лучших вариантов может не иметь вид {d*, . . ., Ν), как в классической задаче, а состоять из нескольких «островов». Эффект появления островов объясняется чрезвычайно просто. Предположим, что нам известно, что N с большой вероятностью принимает значение 100, и с очень малой дополнительной вероятностью — значение 1000. Тогда начав процесс выбора, мы «почти» находимся в условиях классической задачи и пропускаем примерно 100/^^^ 37 вариантов с целью остановиться до Αί00 на относительно лучшем варианте. Если же среди Лз7, . . ., А100 не оказалось относительно лучшего варианта, а N = 1000, то в момент η = 100 мы опять находимся в условиях классической задачи и, следовательно, должны пропустить А юн . · ., -4 370· Тем не менее, если дисперсия N не очень велика, то класс пороговых правил является асимптотически оптимальным, когда N велико. В п. 2.3 изучается задача, в которой наблюдения относительных рангов производятся в моменты скачков пуассоновского процесса. Оптимальное правило выглядит намного сложнее, нежели в классической задаче, но когда среднее число наблюдений бесконечно увеличивается, то все равно асимптотически оптимальным является некоторое пороговое правило, а вероятность остановки на наилучшем варианте стремится к е-1, как и в классической задаче. В п. 2.4 рассматривается задача с полной информацией, в которой за исходный класс 5К берутся правила, основанные на 6
наблюдении независимых одинаково распределенных случайных величин ί/χ, . . ., t/jv, интерпретируемых как оценки качества вариантов А и . . ., An. Функция распределения оценок F предполагается известной. Непрерывность F гарантирует возможность линейного упорядочения вариантов по величине их оценок. Задача наилучшего выбора, таким образом, ставится как задача максимизации вероятности события {U = шах (£/г . . ., Un)}· Оптимальное правило оказывается таким: нужно остановиться на первом же относительном максимуме Un = max (£/х, . . ., ί/Λ), для которого F (Un) > i/n-п, где ук = 1 — с/к + о (1/Л). Оба принципа монотонности остаются в силе, и vN -*0,58 ... при N -*оо. В п. 2.5 рассматривается пуассоновский вариант задачи с полной информацией. Асимптотически эта задача эквивалентна предыдущей, но здесь удается получить аналитическое выражение оптимальной вероятности остановки на наилучшем варианте как функции от среднего числа скачков. Первый принцип монотонности остается в силе, а второй нарушается. Предмет п. 2.6 составляет задача, в которой наблюдаются относительные ранги, а в качестве способов выбора рассматриваются наборы правил остановки, т. е. выбор можно производить несколько раз. Асимптотическое решение определяется системой дифференциальных уравнений. И в этом случае оптимальным оказывается набор пороговых правил. Оба принципа монотонности сохраняются. В п. 2.7 изучаются сразу две задачи. Предполагается, что наблюдаются оценки иг, . . ., Un вариантов, но их распределение неизвестно. Под правилом остановки понимается функция τ (ux, . . . . . ., un) такая, что значение τ = η зависит только от иг, . . ., ип. Первая постановка — байесовская, распределение Fq предполагается равномерным на (О, Θ), а неизвестный параметр — имеющим одностороннее распределение Парето. За максимизируемый критерий берется вероятность события {Ux = max (h0, £/х, . . ., J7jv)} (h0 -— нижняя грань носителя распределения Парето). Оказывается, что байесовским правилом является пороговое правило, но порог смещен по отношению к порогу из классической задачи. Вторая постановка — минимаксная в том же классе распределений Fq. С помощью принципа инвариантности задача сводится к изложенной выше байесовской постановке путем перехода к проективным координатам. Здесь доказывается, что пороговое правило из классической задачи является минимаксным, и дается объяснение смещению порога в байесовской задаче. Таким образом, недостаток сведений о распределении оценок делает бесполезным наблюдение собственно оценок по сравнению с наблюдением относительных рангов. Оптимальное правило из задачи с полной информацией оказывается чувствительным к незнанию одного- единственного параметра. В гл.З имеется полное единообразие постановок, но сложность задач значительно увеличивается. За исходное берется предполо- 7
жение о том, что функция q (Хп) имеет общий вид, т. е. это произвольная монотонная последовательность q (1), q (2), .... Здесь q (·) интерпретируется как потери, чтобы иметь возможность рассматривать неограниченные q('), считая при этом что все значения одного знака. Таким образом, q (·) не убывает, и задача ставится как задача минимизации средних потерь Mq (Xx) по классу правил ЗЙ, основанных на наблюдении относительных рангов У1? . . ., Υν· В п. 3.1 показано, что оптимальное правило τΝ задано набором порогов (cff, . . ., (In), эти пороги не убывают по нижнему индексу, а оптимальное правило выглядит т-ак: пропустить Аи . . ., AdN.f затем выбрать первый вариант Ап из Aan, . . ·,Ααν , еслиУп = = 1; а если такого нет, то следует выбрать первый Ап из Α ν, · · · . . ., А г* у если Уп ^ 2, и т. д. Второй принцип монотонности д3-1 выражается в возрастании минимальных средних потерь ι;Ν, а первый принцип остается верен на каждом уровне качества, определяемом фиксированным значением относительных рангов. В п. 3.2 изучается предельная форма задач наилучшего выбора, число вариантов здесь бесконечно, а моменты наблюдения вариантов с фиксированным значением относительного ранга образуют неоднородный пуассоновский процесс интенсивности l/t на единичном интервале. Оптимальное правило существует всегда, если минимальные средние потери ν конечны, и задано набором порогов (6Ь δ2, . . .). В п. 3.3 исследуется связь между задачей с конечным числом вариантов и ее предельной формой. Путем введения ряда промежуточных моделей доказывается, что νΝ '\ ν и c$/N —> δΛ. В п. 3.4 находятся условия, при которых ν < оо, и при которых и = оо. Оказывается, что для всех функций потерь полиномиального роста ν < оо. В п. 3.5 исследуется задача, в которой максимизируется вероятность остановки на варианте, имеющем абсолютный ранг не выше г. Пороговые правила остановки вида «пропустить фиксированную часть вариантов, а затем остановиться на первом же варианте, имеющем относительный ранг не выше г», оценивают (асимптотически по Ν) вероятность успеха величиной (1/г)1^г~1> ~ ~ 1 — (In r)/r, однако истинный порядок сходимости этой вероятности к 1 при оптимальном правиле является экспоненциальным. В п. 3.6 рассматривается задача, в которой имеются очень сильные ограничения на возможности сравнения вариантов. Предполагается, что в каждый момент разрешается помнить только один вариант, и очередной вариант можно сравнивать только с находящимся в памяти. Задача сильно усложняется невозможностью использования обратной индукции из-за необходимости управления памятью. Несмотря на это, при любой полиномиаль- В
ной функции потерь можно указать последовательность правил, для которых средние потери остаются конечными, когда N —» оо. В гл. 4 рассматриваются задачи, в которых структура предпочтений на глобальном множестве вариантов 3( не описывается линейным упорядочением. Предположим, что варианты Αλ, . . ., An могут быть упорядочены по нескольким, скажем т, независимым критериям, т. е. каждому Ап отвечает w-компонентный вектор Хп абсолютных рангов среди Аг, . . ., An и вектор Yn относительно рангов среди Аг, . . ., Ап. Таким образом, на множестве {Аг, . . ., An} возникает естественное частичное упорядочение: один вариант лучше другого, если он лучше по всем т критериям. Пусть q (Xn) — монотонная функция потерь, a 3R — класс правил остановки, основанных на наблюдении Y1? . . ., Υ^. В п. 4.1—4.3 изучается задача минимизации Mq (Χτ). В п. 4.1 показано, что оптимальное правило задается частично упорядоченным набором порогов. Первый принцип монотонности проявляется на каждом уровне качества, отвечающем фиксированному значению вектора относительных рангов. Второй принцип сохраняется без изменений. В п. 4.2 изучается предельная форма задачи из предыдущего параграфа и устанавливается ее связь с этой задачей. Аналогия между предельной и допредельной задачами оказывается значительно менее полной, нежели в задачах предыдущей главы. Основная трудность состоит в невозможности вложения одной задачи в другую, что связано с различными формами несравнимости вариантов. Дело в том, что при переходе к пределу наблюдается качественный скачок: мы наблюдаем не одну большую совокупность, сравниваемую по т критериям, а т больших групп вариантов. Внутри каждой группы сравнение производится по своему критерию, а эффект выбора определяется функцией потерь вида ql(i) = q(oo, . . ., ί, оо . . .). Варианты из различных групп между собой несравнимы. На содержательном уровне подобное «расслоение вариантов» означает, что вероятность существования варианта, хотя бы пара абсолютных рангов которого остается ограниченной при 7V —> оо, бесконечно мала, поэтому в каждой группе варианты имеют только один небольшой ранг, а все остальные ранги бесконечно велики. В пп. 4.4—4.6 рассматривается задача максимизации вероятности остановки на лучшем варианте, сформулированная в терминах функций выбора. Пусть С — функция выбора на SI, т. е. отображение, которое ставит в соответствие любому набору (аь . . ., ап) е 9tn множество С {аъ . . ., ап) С {аь . . ., ап} лучших среди а1? . . ., а^ вариантов, η = 1,2, ... . Для каждого правила τ, основанного на наблюдении Αχ, Л2, · · ·» Ανι число Ρ {4τΕ С {Аъ . . ., An}} есть вероятность остановки на лучшем варианте. Пороговое правило %а есть предписание «пропустить 9
Аг, . . ., Ad-ъ а затем остановиться на первом же относительно лучшем Ап, т. е. таком, что ΑηΕΞ С {Аг, . . ., Ап}». В п. 4.4. показано, что в задаче остановки на лучшем по Па- рето варианте класс пороговых правил дает сколь угодно близкую к 1 вероятность остановки на лучшем варианте, когда 7V —> оо. Второй принцип монотонности, очевидно, нарушается. В п. 4.5 выделен класс функций выбора, для которых пороговые правила дают нижнюю оценку вероятности успеха, равную (l/r)1^1*"1), где г — число лучших вариантов. В п. 4.6 рассматривается задача остановки на максимальном йо некоторому частичному порядку варианте, т. е. когда С — графодоминантная функция выбора. Используя аналоги правил из п. 2.4, опять получается оценка (l/r)1/^-1), но г уже может принимать нецелые значения. Авторам приятно выразить благодарность за помощь и поддержку Э. А. Трахтенгерцу, Ю. М. Барышникову, А. Е. Гнединой и Е. Ю. Добровой. 10
Глава 1 ЗАДАЧА ОПТИМАЛЬНОЙ ОСТАНОВКИ 1.1. Предварительные сведения из теории вероятностей 1.1.1 Система подмножеств множества Ω называется σ-алгеброй, если она содержит пустое множество φ и замкнута относительно взятия дополнения и объединения ее членов в не более чем счетном числе. Ясно, что система всех подмножеств Ω образует σ-алгебру; это же верно и для системы, состоящей из φ и Ω. Для любой системы А подмножеств Ω пересечение всех содержащих Λ σ-алгебр является наименьшей σ-алгеброй, содержа^ щей А, Это пересечение называется о-алгеброй, порожденной А- и обозначается 33 (<А). Если Λ есть система всех интервалов расширенной действительной прямой R = [—оо, оо], то 3d (А) называется σ-алгеброй борелевских множеств и обозначается 3d. Множество Ω с выделенной на нем σ-алгеброй подмножеств $ называется измеримым пространством (Ω, §). Пусть (Ω, F) и (Е, Ш) — два измеримых пространства. Функция X = Χ (со), определенная на Ω и принимающая значения в Е$ называется $7#-измеримой, если прообраз X""1 (А) принадлежит f для любого Α ΕΞ Ш. В теории вероятностей такие функции называются случайными элементами. Если Ε = R и $ = 3d, то #7<9-измеримые функции называются случайными величинами (часто говорят о f -измеримых случайных величинах). Случайные величины, определенные на пространстве (R, 3d), называются борелевскими функциями. Если {Xt, tE=T) — семейство случайных величин, то наименьшая σ-алгебра, по отношению к которой все случайные величины Xt, t ΕΞ Τ измеримы, обозначается 3d (Xf, t ΕΞ Τ) и называется σ-алгеброй, порожденной семейством {Хи »ε Τ). Неотрицательная действительная функция Ρ (А), определенная на σ-алгебре f измеримого пространства (Ω, W)y называется вероятностной мерой (вероятностью), если Ρ (Ω) = 1 и Ρ(0λ,)=Σρ(4) n=l nc=i для любых Ап е #", п = 1, 2,. . ., таких, что Ап f) Ат = фя η Φ т. Совокупность трех объектов (Ω, §, Ρ) называется вероятностным пространством. Точки ше!2 часто называют элементарными событиями, а множества 4 изГ- событиями. а
Конечное семейство {$ГЪ . . ., ψк) под-σ-алгебр F называется Независимым, если Ρ (Аг (~) · · · Π Ак) = Ρ (Аг) . . . Ρ (Лк) для любого набора Аг^ fu ... Л^ е FV Произвольное се- мейство под-а-алгебр {&t, t £Ξ Γ} является независимым, если любое его конечное подсемейство независимо. Семейство случайных величин {Xty t ΕΞ Τ} называется независимым, если семейство под-а-алгебр {33 (X*), iGf} является независимым. Аналогично, случайная величина X называется независимой от под-а-алгебры $, если S (X) и S независимы. 1.1.2. Пусть (Ω, f, Ρ) — вероятностное пространство и X = χ (со) — неотрицательная случайная величина. Математическое ожидание (обозначаемое MX) есть интеграл Лебега j XdP, Ω по определению равный п2П lim (2 k2-*V {£2-n < Χ < (k -f 1) 2~η} + Ρ {Χ > η}) (где {...} обозначает «множество всех точек ω из Ω таких, что...»). Для произвольной, не обязательно неотрицательной, случайной величины X математическое ожидание определяется только в том случае, когда одно из математических ожиданий МХ+ или МХ~ конечно (здесь Х+ = max (X, 0), X" == — min (X, 0)), и полагается равным MX = МХ+ — MX". Случайная величина X называется интегрируемой, если Μ | X | = МХ+ + MX" <C оо. Для Μ (1аХ)у где Ια = Ια (ω) (другое обозначение — J (A)) есть функция-индикатор события А, равная 1 при оЕ4 и0 при ω ΕΞ Л" = Ω \ А, часто используется обозначение ^ XdP. А В случае, когда случайная величина X дискретна, т. е. принимает конечное или счетное число значений хъ х2, . . . с вероятностями рг, р2, . . ., из определения интеграла Лебега легко получается формула оо мх= S*fr/v В общем же случае математическое ожидание выражается как интеграл Лебега — Стилтьеса оо МХ= J xdFx(x), —оо где Fx (χ) = Ρ {Χ < χ} — функция распределения случайной величины X. Можно также показать, что для любой борелевской функции / (х) оо Mf(X)= \f(x)dFx(x). (1.1) 12
Перечислим основные свойства математических ожиданий: 1) MX > 0, если X > 0; 2) если существует MX, то для любого числа с существует Μ (сХ) и Μ (сХ) = сМХ; 3) если X и У интегрируемы, то Μ (X -f Y) = MX + MY; 4) Ml = 1; 5) если MX существует, то | MX| <! Μ | X |; 6) если X >0 и MX = 0, то X = 0 (п.н.) *; 7) если Х и У интегрируемые независимые случайные величины, то М| ΧΥ |< оо и Μ (ΧΥ) = МХМУ. 1.1.3. Напомним виды сходимости случайных величин и основные теоремы о предельном переходе под знаком математического ожидания. Последовательность случайных величин Хь Х2, . . . сходится почти наверное к случайной величине X (обозначается Хп —*> X), если Р{ХП->Х} = 1. Последовательность случайных величин Хь Х2, . . . сходится ρ по вероятности к случайной величине X (обозначается Хп —> X), если для любого е>0Р{ [Хп — X |> ε} -> 0, и —> оо. Последовательность случайных величин Хх, Х2, . . . сходится по распределению к случайной величине X (обозначается Хп —> X), если для любой ограниченной непрерывной функции / (х) М/ (Хп) -* М/ (X), п-^оо. Из формулой (1.1) следует, что это эквивалентно сходимости оо оо 5 f(x)dFZn(x)-+ $ f(x)dFx(x), —оо —00 называемой в анализе слабой сходимостью функций распределения (слабая сходимость, в свою очередь, эквивалентна сходимости Fx (χ) к Fx (x) в каждой точке непрерывности Fx (x)). Поскольку сходимость по распределению случайных величин определяется только в терминах их функций распределения, то этот вид сходимости имеет смысл и тогда, когда случайные величины определены на разных вероятностных пространствах. Следует отметить, что из сходимости почти наверное вытекает сходимость по вероятности, а из сходимости по вероятности вытекает сходимость по распределению. Будем писать Хп f X, если Хп -* X и Хп <^ Хп+1 (п.н.). Аналогично определяется сходимость Хп | X. Теорема 1.1. (о монотонной сходимости). Если Хп\ X и MXf < оо, то МХП | MX. Аналогично, если Хп | X и МХХ < < оо, то МХп I MX. Назовем последовательность случайных величин Хг, Х2, . . · Почти наверное (п.н.) означает, что соответствующее соотношение выполняется с вероятностью 1. 13
равномерно интегрируемой, если limsup $ |Χη|α7Ρ = 0. о-со η {|ζη|>α} Теорема 1.2. (лемма Фату). Если последовательность Χη, η = 1, 2, . . . равномерно интегрируема и существует Μ (limnsup Хп), то Μ (Нп^ sup Xn) > lin^ sup МХП*. Теорема 1.3. Пусть 0 < Хп —► X u МХП < оо. Гог5а МХП —> MX <х β толе и только в том случае, если последовательность Хх, Х2, ... равномерно интегрируема. Теорема 1.4 (Лебега о мажорируемой сходимости). Пусть ρ Хп —> X и существует такая интегрируемая случайная величина У,что | Хп |< У, п = 1,2, .... ГогдаМ | Х|< оо и Μ (Хп -X)-* «-►О, и—» оо. 1.1.4. Пусть $ —под- σ-алгебра f, X — неотрицательная случайная величина. Условным математическим ожиданием X относительно & (обозначается Μ (Χ \ &)) называется ^-измеримая случайная величина такая, что для любого 4GS $XdP = $M(X|$)dP. А А Существование и единственность (с точностью до значений на множестве нулевой вероятности) условного математического ожидания вытекают из известной теоремы Радона—Никодима. ЕслиХ — произвольная случайная величина, для которой MX существует, то условное математическое ожидание определяется формулой Μ(Χ|ί§) = Μ(Χ+|$)-Μ(Χ-|$). В том случае, когда X = 1А — индикатор события А, условное математическое ожидание Μ (Ια \ $) обозначается Ρ (Α \ &) и называется условной вероятностью события А относительно $. Функция Ρ (ω, А), определенная для всех ©ЕЙи^Е?, называется регулярной условной вероятностью относительно $, если: 1) для каждого о)ЕЙР(о), ·) есть вероятностная мера на f\ 2) для каждого Α ΕΞ f функция Ρ (·, А) является ^-измеримой и Ρ (ω, А) = Ρ (А | Щ (п.н.). Существование такой функции означает, что условные математические ожидания могут быть найдены как интегралы по условным вероятностям, а именно: Μ (X | &) (ω) = J X (ω') Ρ (ω, dco') (π. η.). Ω * Через limnsup Xn обозначается верхний предел последовательности Хи Х2» · · ·» т· е· *п* SUP Хщ· Аналогично, нижний предел limninf Xn η rri^n есть sup inf Xm. η rri^n 14
Положим Μ (Χ Ι У) = Μ (Χ | 33 (У)). Можно показать, что всегда найдется такая борелевская функция / (у), для которой Μ (X | У) = / (У) (п.н.), т. е. Μ (X | Г) есть функция от Υ. Это обстоятельство позволяет определить математическое ожидание Μ (X | Υ = у) при условии, что Υ принимает фиксированное значение у, полагая Μ (Χ \ Υ = у) = / (у). Пусть пара (X, У) имеет плотность распределения /χγ (#> ϊ/)» τ· е· Для любого боре- левского множества на плоскости Р{(Х, Y)<=B} = yxY(x, y)dxdy в и ίχ\γ {х | у) — плотность условного распределения вероятностей: А , . ч ifx\Y% y)\fy(y)i если /у (ι/)> О, /w(*U)=|o, если /г(у)-О, где /у (ι/) — плотность распределения У. Тогда оо М(Х|У=у)=$ */х|у(*| */)<**· —оо Перечислим основные свойства условных математических ожиданий, предполагая при этом, что математические ожидания рассматриваемых случайных величин существуют и $ С «F*. 1) Μ (X | S) > 0, если X > 0; 2) Μ (1 | &) = 1; 3) |М(Х|Э) |<М(|Х ||9); 4) Μ (αΧ + bY \&) = аМ(Х \&) + Ш (У | 9), если сумма аМХ + ЬМУ не является неопределенностью вида +оо — с»; 5) если Х& -измерима, то Μ (X | $) = X; 6) если X не зависит от 9, то Μ (X | %}) = MX; 7) если &± с #„ то Μ (М (X | »,) I 2?ι) = Μ (Χ | &г); 8) если &г ID 38, то Μ (Μ (Χ | S.) Ι 9г) = Μ (Χ | Э,); 9) если Χ и ХУ интегрируемы и У5? -измерима, то Μ (ХУ |5?) = = УМ (X | &). Все приведенные соотношения справедливы почти наверное. Теоремы 1.1-1.4 остаются верными, если в их формулировках математические ожидания заменить на условные математические ожидания. Важную роль в статистике играет следующее свойство условных математических ожиданийг известное как обобщенная теорема Байеса. Пусть θ — случайная величина такая, что условные вероятности Ρ {Β | θ = а} являются регулярными и допускают представление Ρ{£|θ=α} = $ρ(ω, α) άλ в где ρ (ωλ α) — неотрицательная измеримая по обеим переменным 15
функция, а λ есть σ-конечная мера * на (Ω, $). Если Μ | g (θ) | < < оо, то оо ос Μ (g (θ) 18) = [ 5 g (α) ρ (ω, α) dFe (α)]/[ ξ ρ (ω, a) dFe (a)]. 1.2. Задача оптимальной остановки 1.2.1. Пусть (Ω, <F, P) — некоторое вероятностное пространство, f χ С f2 С . . . — неубывающая последовательность под-σ- алгебр <?\ и Хх, Х2, ... — последовательность случайных величин таких, что Хп измеримы относительно fn, η = 1, 2,. ... Пара последовательностей {Хп1 $ίη}? называется стохастической последовательностью. Будем интерпретировать fn как совокупность событий, которые могут быть наблюдены к моменту /г, а Хп — как выигрыш, который мы получаем при прекращении наблюдений в момент п. Правилом остановки называется случайная величина τ со значениями 1,2,. . ., оо такая, что τ < оо с вероятностью 1 и {τ = η} ΕΞ <Fn для любого п = 1, 2,. . .. Случайная величина ~ ГХП, если τ = /г, η = 1, 2, . . ., Χχ с== ^J Хп* {τ=η} = (л ι£ίι 10, если τ=οο представляет собой выигрыш, который мы получаем при прекращении наблюдений в случайный момент τ, а математическое ожидание ΜΧτ (если оно существует) трактуется как средний выигрыш, соответствующий правилу остановки τ. Цена ν стохастической последовательности { Хп, fn}T определяется как sup MXT, где супремум берется по множеству всех правил остановки, для которых это математическое ожидание существует. Задача оптимальной остановки состоит в нахождении оптимального правила остановки, для которого средний выигрыш равен v. Задачу оптимальной остановки часто рассматривают относительно некоторого подкласса 91 всех правил остановки, значение супремума supMXt называется ценой класса 3Ϊ и обозначается ι; (Я). В случае произвольной стохастической последовательности может вообще не существовать ни одного правила остановки, для которого определен средний выигрыш. Мы ограничимся рассмотрением лишь тех стохастических последовательностей, для которых Μ (sup Хп) < оо, тогда МХХ существует для любого правила остановки. Смысл указанного условия заключается в том, что даже если мы имеем возможность производить наблюдения сколь угодно долго и затем выбирать любое из значений Хъ Х2, . . .в качестве выигрыша, то все равно наш средний выигрыш не будет бесконечно большим. * Мера называется σ-конечной, если пространство допускает разбиение на не более чем счетное число подмножеств, мера каждого из которых конечна. 16
В большинстве конкретных постановок задач оптимальной остановки имеется некоторая основная последовательность случайных величин Υχ, Υ2, ... с известным совместным pacnpefleflemieMt значения которой интерпретируются как результаты наблюдений, и выигрыш от прекращения наблюдений на /г-м шаге является функцией уже проведенных наблюдений, т. е. Хп = Хп (ΥΊ, . . . . . ., Уп). В этом случае fn = 33 (Уχ, . . ., Уп) и условие измеримости {τ = η} Ε= § η в точности означает, что решение о прекращении наблюдений на п-м шаге должно зависеть только от уже известных значений Уь . . ., Уп и не зависеть от будущих значений Поясним сказанное. Нетрудно видеть, что случайная величина τ измерима относительно о-алгебры §<* = 33 (У1э У2, . . .), поэтому всякое правило остановки можно рассматривать как функцию τ (у1у у2У . . .), определенную на пространстве бесконечных последовательностей (уъ у2, . . .). Из условия измеримости {τ = η} е 53 (Ух, . . ., Уп) следует, что если τ (ylf j/2> ; · ·) = л для некоторой последовательности (ι/ι, ι/2, . . .)» а (ί/ι> ί/2ΐ · · ·) — Другая последовательность, для которой ук = ук при А = 1,. . . . . ., п, то τ (ι/ί, ι/2' . . .) = w. Разумеется, верно и обратное — любой функции τ (у1? г/2, . . .), принимающей конечные значения η = 1, 2,. . . и обладающей указанным свойством, можно поставить в соответствие правило остановки τ = τ (Ух, У2, . . .). Таким образом раскрывается двоякий смысл понятия «правило остановки»: во-первых, это есть некоторая процедура, т. е. соответствие между результатами наблюдений и предпринимаемыми действиями, и, во-вторых, это есть случайное число наблюдение проводимых согласно этой процедуре. Излагаемые далее общие результаты не зависят от конкретного строения σ-алгебр 3Fn, однако случай $п = 3d (Ух, . . ., Уп) полезно иметь ввиду. 1.2.2. Пусть ЗЙП обозначает совокупность всех правил остановки таких, что τ ]> η, η = 1,2,. . .. Очевидно,, что 9Κχ ZD $R2 Z) Ζ) · · .*» поэтому ν = ι;χ ^ ν2 > . . ., где ρη = ν (9Κη). Положим * yn = esssupM(Xx\fn). Наглядный смысл γη очевиден — это максимальный средний выигрыш, который может быть получен после момента η при условии уже проведенных наблюдений. С точки зрения общей идеологии динамического программиро- вания особого внимания заслуживает случайная величина * Пусть {X/, t е Т) — семейство случайных величин, заданных на одном вероятностном пространстве. Существенным супремумом ess sup Xt этого семейства называется такая случайная величина У, что У ^ Xt (п.н.) для каждого t е Т, и если Ζ > Xt (п.н.) для каждого t, то Ζ > У (п.н.). Существенный супремум всегда существует и У = sup Xt для некоторого счетного подмножества {tj, if, . . .} С Г. 17
τ* = min {η \ Χη = γη} (в определениях правил остановки бесконечной стохастической последовательности мы полагаем min φ = = оо). Вообще говоря, τ* может принимать значение оо с положительной вероятностью, (условия {τ* = η} е= fn> n = 1, 2,. . . всегда выполняются), но если все-таки τ* является правилом остановки, то оно является подозрительным на оптимальность, поскольку предписывает остановку лишь в тех ситуациях, когда это дает наибольший возможный выигрыш. Как мы увидим далее, если τ* <С ©о (п.н.), то .это правило оптимально; в противном случае оптимального правила остановки не существует *. Основная идея последующих рассуждений такова: если нам удастся найти последовательность правил остановки хк таких, что МХХ]е ->■ ν и хк -> τ*, то переход к пределу MXTfc -*· ΜΧτ» под знаком математического ожидания и докажет оптимальность τ*, если только τ* окажется правилом остановки. Оптимальность τ* при этом естественно связывается с одновременной оптимальностью в классах ЗЛЛ правил остановки хп = min {к^ η \ Хк = ук}. Назовем правило остановки τ £= 9Rn п-регулярным, если Μ (Χτ I f^ > Xjt на множестве {τ > к} для всех к ;> п. Иначе говоря, если и-регулярное правило в момент к ;> η предписывает продолжение наблюдений, то общий средний выигрыш обязательно уменьшается за счет остановки. Напротив, если правило из класса 3Rn не является и-регулярным, то с положительной вероятностью на одном из шагов к = и, η + 1, . · . оно предписывает продолжение наблюдений, хотя остановка могла бы увеличить средний выигрыш. Из следующей леммы будет следовать, что в классе 3Rn можно ограничиться рассмотрением только и-регу- лярных правил. Лемма 1.1. Для любого правила остановки τ £= 9Rn найдется η-регулярное правило остановки χ' <^ τ такое, что Μ (Χτ> \ fn) ;> > Μ (X, |f η). Доказательство. Пусть τ £= SKn, положим τ' = = min {k ;> η Ι Μ (Χτ \ fk) < %*}- На множестве {τ = к) имеем равенство Μ (Χτ | #\) = Χ&, поэтому τ' <^ к. Следовательно, τ' <ζ τ. Для любого к > η и А €= fk — J Xxd¥. Поскольку А произвольно, то при к = η получаем Μ (Х%> I fn) > ^ Μ (Xx | fn). Далее, на множестве {τ' > /с} Μ (Хг | ^л) > ^ Μ (Xt j ^]t) > Xfr, что доказывает и-регулярность τ'. Лемма доказана. • Пусть, например, Хп = 1 — 1/п, тогда уп = 1 и τ* = оо какими бы ни были <Fn, η = 1,2,. . .. Легко видеть, что ν = 1, но оптимального правила остановки не существует. 18
Пусть теперь τι, τ2, ... — такая последовательность правил остановки из класса 9Rn, что MXXjc -► vn, и τί, τ2, . . . — последовательность определенных леммой 1.1 /г-регулярных правил. Тогда МХЧ = Μ (М (Хч | fn)) < Μ (Μ (Х^ I fn)) = ΜΧτν Следовательно, sup MX > > vn, а поскольку строгое неравен- ство невозможно, то этот супремум равен νη. Таким образом, сужение 3Rn до класса /г-регулярных правил остановки не уменьшает цены. Из следующей леммы следует, что класс /г-регулярных правил замкнут относительно операции взятия максимума конечного числа правил и что эта операция не уменьшает средний выигрыш. Лемма 1.2. Пусть правила остановки τ± и τ2 п-регулярны, тогда правило τ = max (tx, τ2) также η-регулярно и M(Xx\fn)^M(X4\fn), i = i, 2. Доказательство. Очевидно, что τ е 9R„· Для любого к > η и ieii ΑΓΗτι>*} i=fc Αη{τι=ί<τ} ΑΠ{τι=ί=τ} οο > Σ ( S Xi№ + $ XidP) = J X*dP. *«k ΛΠ{τι=ί<τ} ΑΠ(τι=-ί=τ} АП{ъ>к) При /с = /г по произволу А получаем Μ (Χτ \ fn) > Μ (Χτι \fn). В силу симметрии между τχ и τ2 последнее неравенство верно и для τ2. Заметим, что {τ > /с} = {τ! > /с} (J {τ2 > 1с} и на множестве {τ* ^> к} в силу произвольности Л М (X, | ?„) > Μ (Xt. I f») > Xk, i = 1, 2, что доказывает /г-регулярность τ. Лемма доказана. Из следующей леммы тривиально следует, что в классе 9Rn можно ограничиться рассмотрением правил остановки, не превосходящих τ*. Лемма 1.3. Пусть τ €Ξ 9Rn wt'= min (τ, τ*). Тогда Μ (Χχ. Ι ^η) > Μ (Χ, I f η). Доказательство. По определению существенного супремума (см. сноску в п. 1.2.2.) Μ (Хх \ fn) ^ γη (п.н.) для любого τ ΕΞ ®ϊη· Следовательно, для любого iEfn оо оо S xT*dp=S S x^p=S S w*p> ΑΠ(τί<τ} λ·=ηΛη{τ*=Λ<τ} *=ηΛΠ{τ*=λ<τ> 19
k=n ΑΠ {t£-fr<%} ΑΠ {τ* < τ} Отсюда получаем $Xrd P= J Χ^Ρ + J Χτ*<Ζ P>5 Χτ<Ζ Ρ * АП<Х<«ф АП(т>*| П А и, следовательно, Μ (Xr | $Fn) ^ Μ (Χτ | ^η). Лемма доказана. Мы подходим к основному месту в нашем построении. Из свойств существенного супремума вытекает, что существует такая последовательность хк ΕΞ 3Rn» А; = 1, 2, ..., что уп = sup Μ (Χτ \ fn). к κ В силу леммы 1.3 мы можем считать, что τλ ^ τ*. Лемма 1.1 позволяет считать правила тк и-регулярными. Положим тпк = = max (Τχ, . . ., tfr). Последовательность τη1, τη2, . . . при каждом фиксированном η не убывает, и по лемме 1.2 имеет место монотонная сходимость Μ (Χτ I fn) I γη. Далее мы будем считать правила остановки τηΛ с указанными свойствами заданными. Первое важное следствие состоит в том, что νη = Μγ . Дей- ствительно^ пусть ΜΧτ f vn, тогда по лемме Фату (напомним, что Μ (sup Χ η) < οο) νη = limfc sup Μ (Μ (XTfc | f J) < Μ lim* sup Μ (ΧΧ]ς \ | ^η) ^ Μγ . С другой стороны, по теореме о монотонной сходимости νη > Μ Х%п1с = Μ (Μ (X,nfc I f n)) t MVn. Из· следующей леммы будет следовать, что хпк \ тп. Лемма 1.4. Пусть тк е ЗЙП, Λ = 1, 2, . . .— неубывающая последовательность правил остановки такая, что MXTjt | рп. Тогда lim τΛ > τ* (п. н.). k-кзо Доказательство. Положим τ = Hm τκ и предполо- жим, что для некоторого i > и событие Л = {τ = i < τη} имеет положительную вероятность. Тогда найдется ε > О такое, что J TidP-3e>5 XidP. Λ Α1 Пусть при всех к > η Вк = {τλ = i < τ*}^ тогда /вл -* /а и по теореме Лебега о мажорируемой сходимости для всех достаточно больших к JxtdP< JvidP — 2ε. (1.2) По определению последовательности хпи & =* 1* 2, . . . для всех в* 20
достаточно больших к $|xtn,rfP> ξγ^Ρ-ε. (1.3) V в\ Положилг рк = тпк1Вк + хк1- . Тогда ps e 3R„ и для всех достаточно больших к из (1.2) и (1.3) получаем Вь = MIXfct8. Следовательно, sup MXP > i;n'+ ε. Полученное противоречие завершает доказательство леммы. Теорема 1.5. Если τ*η < оо (п.н.), то правило остановки τ* оптимально в классе 9ЛП. В противном случае в классе 9Rn оптимального правила не существует. Доказательство. По лемме 1.4 τη1: | τη. По лемме Фату νη = ПпПИХ^ < Μ (linkup XTJ < $ XT*dP + + J limfrsupXfcdP. Действительно, при каждом элементарном исходе ω последовательность τη1ζ (ω) либо стабилизируется на значении τη (ω) < оо, либо τη1ί (со) | оо, & -> оо. Если τ* < оо (п.н.), то MX * ;> ν, τη * η» так как τ* = max (η, τ*) < оо (п.н.), и тогда правило τ* оптимально в классе SRn, η = 1, 2, . . .. Если событие {τ* = оо} имеет ненулевую вероятность, то это же верно и для всех τ*, η ^> 1. Предположим, что μ — оптимальное в одном из классов 9КП правило. Тогда по лемме 1.3 правило остановки μ' = min (μ, τ*) также 9Кп-оптимально. Полагая в условии леммы 1.4 тк = μ', к = 1, 2, . . ., мы видим, что μ' = τ*, т. е. τη — правило остановки. Полученное противоречие завершает доказательство теоремы. Теорема 1.6. Для любого η = 1, 2, . . . уп = шах(Хп, Μ (γη+11 fn)). (1.4) Доказательство. Пусть τ — произвольное правило остановки из класса 9Rn. Положим τ' = max (л_+ 1, t) и В = = {г = п}. На множестве Л τ = τ', поэтому на В Μ (Χτ I fn) = == Μ (Xr I ^n) = Μ (Μ (Χτ> I ^n+1) I f n)< Μ (Vn I fn), так как τ e 3Rn+i· Следовательно, 21
Μ (Χ, I f η) = ΙΒΧη + /5Μ (Χ, I fn) < max (Χη, Μ (γη+1 | fn))r откуда ν„ < max (Χη, Μ (γη+1 | f „)). В другую сторону, по теореме о монотонной сходимости для условных математических ожиданий γη> Μ (Xtn+i>k I F„) - Μ (Μ XXn+lk I $n+1) | f„) ί Μ(γη+11 Г„).· Неравенство γη ^ Χη очевидно. Теорема доказана. Формула (1.4) позволяет записать τ* = min {η Ι Xn > Μ (γη+1 J f n)}. (1.5) Таким образом, τ* на каждом шаге предписывает останавливаться, если выигрыш от остановки не меньше максимального среднего выигрыша, который может быть получен при продолжении на· блюдений. 1.2.3. До сих пор мы рассматривали задачу оптимальной остановки бесконечной стохастической последовательности, однако задача оптимальной остановки конечной стохастической последовательности {ХПУ $ίη}¥ является частным случаем, так как мы всегда можем формально положить fn = fn и Хп = XN при n^>N. Нетрудно видеть, что в этом случае γ^ = Χν, поэтому уравнение (1.4) позволяет рекуррентно вычислять γη от больших значений η к меньшим, отправляясь от η = Ν, а поскольку τ* ^ ^ Ν, то это правило оптимально. Метод нахождения оптимального правила остановки с помощью уравнения (1.4) по очевидным причинам получил название «принцип обратной ^индукции». В общей задаче оптимальной остановки бесконечной стохастической последовательности {Хп, <Г}~ отсутствует «граничное условие» γ^ = Xnj поэтому мы не можем воспользоваться уравнением (1.4) непосредственно. Тем не менее, при N -*· оо задача оптимальной остановки последовательности {Хп, fn}i^ Τ· е· с конечным числом шагов, в определенном смысле аппроксимирует общую- задачу. Чтобы описать такой способ аппроксимации, положим 5»£ = {τ е 9Rn Ι τ < Ν], γ? = ess supM(XT \f n), i£ = ν («?). η Задача оптимизации в классе 3RN = SRJ^ эквивалентна задаче оптимальной остановки последовательности {Xn, fn}i , поэтому обратная индукция дает У ν = ΧΝ, γ? = max (Xn, Μ (γ£+11 f J), η = N - 1, . . ., 1. Поскольку 3R£ с ®n+1 С · . ., то γ£ < γΓ1 < ν · и νηη < ^ νη+1 <ζ · · ·ι так что существуют пределы уп = Hm γ£ и ι4 = Hm v^. По теореме о монотонной сходимости Μγή = Vn и iV-*oo Y^ = max(Xn, M(Y;+1|fn)), (1.6) 22
т. е. {у'п} удовлетворяет тому же рекуррентному уравнению, что я {γη}, н0 в общем случае эти последовательности не совпадают. Теорема 1.7. Пусть для любого правила остановки χ lim sup J (Yn)~<2P = 0, (1,7) Ν {τ>Ν} тогда уп = γη, η = 1, 2, .... Доказательство. В силу уравнения (1.6) для всех п справедливо неравенство уп > Μ (γη+ι I Fn), которое равносильно тому, что для любого В £Ξ fn lyndP>\y'n+ldP. (1.8) в в Для любого w, A G f η и τ ^ 5Кп N $γ^Ρ=2 $ TmdP+ ) VidP = А т=*п АП(т>т-1} ΑΓ\{τ>Ν) N = 2 ( $ V-dp- S VmdP)+ J γ^Ρ. m=n АП(т>т-1} АП(^>т} ΑΠΙτ>Ν> Из того, что Α Π {х^>т —1} е fm-i и (1-8) вытекает, что при т^> η J Ym-idP^ J y'mdV. Afl(t>m-i} АП{т>т-1} Следовательно, fv^P<fv;dP- $ TVJP+ $ YtdP< Α Α ΑΠ(τ>^} ΑΠ{τ>^^ <Jv;dP+ J Ш~аР+ 5 vxdP. Α Afm>iV} Af\{t>N) Устремляя N —►■ oo по подпоследовательности, для которой интеграл в (1.7) стремится к нулю, мы видим, что второе слагаемое в последнем неравенстве стремится к нулю. То же верно и для третьего слагаемого, так как х <С оо (п.н.). По произволу А отсюда получаем уп > Μ (у'х \ fn) для любого х е 5КП» следовательно Уп > Упу так как γ^ > Χί, k = 1, 2, ... и Μ (γ^ | ^η) > Μ (Χτ| fn). Обратное неравенство γη <^ γη следует из включения 9R^ CZ С 5Rn, дающего при всех N^n неравенство γ^ ^ γη· Таким образом, уп = γη. Теорема доказана. Для выполнения условия (1.7) достаточно равномерной интегрируемости последовательности Хъ Х2, . . . или выполнения неравенства Μ sup Χή < оо. 23
В общем случае оптимальное правило остановки невозможна найти без операции предельного перехода, но в некоторых случаях это можно сделать даже в задаче с бесконечным числом шагов. Скажем, что имеет место монотонный случай, если стохастическая последовательность {Хп, frn)? удовлетворяет следующим условиям: положим Ап = {М (ХП41 I f п) < Хп} /г = 1, 2, ... и потребуем, чтобы Лс^с, ρ ( и ап) = ι. (1в9) п=1 Смысл этих условий заключается в том, что в процессе наблюдения мы обязательно придем к состоянию, в котором невыгодна делать ровно одно очередное наблюдение, причем на последующих шагах ситуация не изменяется. Ясно, что если Хп < Μ (Χη+ι \ | fn), то имеет смысл сделать, по крайней мере, еще один шаг, поэтому в монотонном случае подозрительным на оптимальность является правило остановки μ = min {n\IAn = 1}. Теорема 1.8. Пусть выполняется условие (1.7), тогда в монотонном случае μ = τ*. Доказательство. Покажем сначала, что в классе 9KW оптимально правило остановки μ^ = min (Ν, μ). Для этого достаточно доказать, что μΝ = min {п\ Хп = Уп}· На множестве ^ш η ^ Ν, имеем γ^ = Хп; действительно, у% = Χχ, и если Уп+г = Χη+ι на Лп+1, η < Ν, то в силу (1.9) и рекуррентного уравнения на Ап получаем у% = max (Χη, Μ (γη+ι I fn)) = = max (Xn, Μ (Xn+i \ fn)) = Xn· Из того, что на множестве Лп выполняется неравенство Хп < M(Xn+1 | fn) < Μ (γη+ι I f n) теперь следует, что μΝ = min {н \ Хп = γ^}. По теореме 1.7 ΜΧμΝ = νΝ j ν, поэтому по лемме 1.4 μ^ | | μ ;> τ*. Обратное неравенство μ <ζ τ* вытекает из очевидного неравенства μΝ ^ τ*. Таким образом, μ = τ*. Теорема доказана* 1.3. Оптимальная остановка марковских случайных последовательностей 1.3.1. Напомним теперь определение марковской цепи и изложим некоторые основные факты теории оптимальной остановки марковских цепей. Пусть (Ω, f, Ρ) — вероятностное пространство с выделенным на нем семейством σ-алгебр f0CfiC · .Cf, и(£, ?) — измеримое пространство, все одноточечные подмножества которого принадлежат <Е. Точки Ε будем называть состояниями, а сама пространство (£, 8) — фазовым пространством. Последовательность {Zn, Fn}o°» гДе %п являются fn/<g — измеримыми случай- 24
ными элементами со значениями в Е, называется марковской цепью, если для любых и^т^ОиЙЕ? P{Zn^B\fm) = ¥{Zn^B\Zm}. Это условие выражает марковский принцип независимости «будущего» от «прошлого» при фиксированно^^ «настоящем». В том частном случае, когда §п = 53 (Z1? . . ., Zn) и последовательность {Ζη, ^η}Γ образует марковскую цепь, говорят, что сама последовательность {Zn} является марковской цепью. Нетрудно видеть, что если {Zn, fn}™ — марковская цепь, то и {Zn} также есть, марковская цепь. В исследовании марковских цепей особо важную роль играют переходные вероятности Ρ {Ζη+1 £Ξ Β | Ζη} за один шаг. Если существуют регулярные условные вероятности Рп+1 (ζ, В), являющиеся при фиксированном ζ мерами на (Е, $) и при фиксированном В измеримыми функциями по ζ такие, что Ζη) — Pn+i (Zn, В) (п.н.), то Рп (ζ, В) называются переходными функциями. Марковская цепь называется однородной, если переходные вероятности за один шаг не зависят от п\ если при этом существуют переходные функции, то все они совпадают и обозначаются просто Ρ (ζ, Β). Другой важной вероятностной характеристикой марковской цепи является начальное распределение вероятностей, определяемое как Q (В) = Ρ {Ζ0 g5}. В случае однородной марковской цепи пара (Q, Р) полностью определяет все вероятностные свойства марковской цепи. Более точно: для любого η и ^-измеримых множеств BQ, . . ., Вп справедлива формула Ρ {Zo S Во, · · ·, Zn s Вп) =5 Q (dz0)J Ρ (zo, dzx) . .. $ Ρ (zn.lt dzn)9 Bo Bi вп определяющая все конечномерные распределения марковской цепи. Для достаточно широкого класса однородных марковских цепей регулярные переходные вероятности за η шагов РЮ (Ζ0, В) = Ρ {Ζη е В | Ζ0) (п. н.). можно выбрать так, чтобы выполнялось уравнение Чепмена — Колмогорова! р(Ы) (Zf β) = J i><*> (ζ, dz') PW (z\ В) (1.10) в Для всех ζ <= Ε. Важным следствием регулярности переходных вероятностей 25
является формула для условных математических ожиданий М (/ (ZJ | Zn) = J / (ζ) /Χ*-» (Ζη, dz) (п.н), (1.11) где m > η ;> 0. 1.3.2. Перейдем к задаче оптимальной остановки. Все утверждения п. 1.2 остаются верными, если вместо условий, которые накладывались на исходную стохастическую последовательность, потребовать выполнения одного-единственного условия равномерной интегрируемости. Поэтому нам удобно будет предположить, что стохастическая последовательность {Хп, iFn}o° равномерно интегрируема. Из этого предположения, в частности, следует, чтоу^ | γη, т. е. последовательность γη, η ^> 0 может быть по крайней мере в принципе вычислена с помощью обратной индукции и предельного перехода. Скажем, что стохастическая последовательность {Хп, £п}о имеет марковское представление, если существует марковская цепь {ΖΛ, fn}™ с фазовым пространством (2?, 8) такая, что Хп = gn (Zn), гДе Sn (z) — некоторая измеримая функция на фазовом пространстве. По-видимому, ясно, что в марковском случае решение об остановке должно зависеть только от состояния системы в текущий момент. Этот принцип часто считают само собой разумеющимся в задачах оптимальной остановки. Формально указанный принцип означает, что мы можем ограничиться рассмотрением класса ί0 правил остановки τ таких, что τ = min {n \ Zn ^ Bn}f где Вг, 2?2, ... — некоторая последовательность ^-измеримых подмножеств Е. Множество Вп естественно интерпретируется как область окончания наблюдений, а его дополнение Вп = Е\Вп — как область продолжения наблюдений. Положим ©п = © Π ^п· Теорема 1.9. В марковском случае для каждого η = 0,1, ... γη = ess sup Μ (Χχ Ι f n) = ess sup Μ (Χχ | Ζη), νη = sup MXX. фп К % Доказательство. Случайная величина γ$ является ЯП (глг)-измеримой, так как γ$ = XN = gn (ZN). Если γη+1 является 3ϋ (£п+1)-измеримой, η -f 1 < TV, то в силу обратной индукции у% = max (Хп, Μ (γη+1 (f n)) = max (gn (Zn), Μ (γη+ι I Zn)) является S3 (Z^-измеримой. Следовательно, при всех η <ζ N случайная величина γ^ является 53ч(£Л)-измеримой. Отсюда вытекает, что существуют функции vi4 (ζ) на (Ε, %) такие, что γ£ =ν£ (Ζη) (п. н.). Полагая Tk = {z e E\gk (z) = v*(z)}, мы можем оптимальное в классе <$R% правило остановки τ% = min {k > n\Xk = γ^} 26
представить в виде t£ = min{ft>i»|Zk erf}, ПОЭТОМУ Τη S Sn- Остается заметить, что Μ (Χ Ν | Fn) = Μ (Χ ν|Ζ„) = γη Τ Υπ при Ν ->οο. Теорема доказана. Поскольку γη является пределом 33 ^п)-измеримых функций у% = у^ (Ζη), то мы можем также записать уп = νη (Ζη), где Vn (z) t vn (z) ПРИ Ν -*~οο. В марковском случае последовательность функций vn (я), п = О, 1, . . . играет ту же роль, что и {уп} в общей задаче оптимальной остановки. В частности, τ* = min {η | νη (Ζη) = gn (Ζη)}, или, полагая Γη = {ζ е Ε \ νη (ζ) = gn (z)}y τ* = min {η | Ζη e Γη}. В том случае, когда τ* является правилом остановки, τ* 6Ξ S. Поэтому из теоремы 1.5 следует, что если оптимальное правило остановки существует, то его можно искать в классе S. С другой стороны, если существует ©-оптимальное правило, то по теореме 1.9 оно является оптимальным и среди всех правил остановки. Из этого, конечно, не следует, что все оптимальные правила, а не только τ*, принадлежат ©. Предположим теперь, что марковская цепь Ζ0, Ζ1? . . . является однородной с переходной функцией Ρ (ζ, В). Уравнение (1.4) мы можем записать, воспользовавшись формулой (1.11), в виде νη (ζ) = max (gn (z), Tvn+i (ζ)) (1.12) где оператор Τ действует на ^-измеримые функции по формуле Tf(z)=^f(z')P(z, dz'). Ε Ситуация существенно упрощается, если выигрыш при попадании в какое-либо состояние не зависит от момента попадания, т. е. когда gn (ζ) = g (ζ), η = 0, 1, .... В этом случае νη (ζ) = = ν (ζ) и Γη = Γ = {ζ е Ε | g (ζ) = ν (ζ)} при всех п. При этом ν (ζ) естественно называть ценой состояния, а Г —множеством остановки, так как τ* — это момент первого попадания цепи в Г. Уравнение (1.12) превращается в функциональное уравнение для ν (ζ): v(z) = m*x(g(z), Tv (z)). (1.13) В теории марковских цепей функции, удовлетворяющие неравенству Tf (z) ^ / (ζ), называют эксцессивными. Можно показать, Что ν (ζ) является наименьшей эксцессивной мажорантой функции выигрыша, ί. е. ν (ζ) меньше любой эксцессивной функции / (ζ) ^> 27
Особенно просто выглядит марковский вариант монотонного случая. Определим G как множество состояний ζ£Ξ Ε, для которых g (ζ) ^ Tg (z). Первое условие монотонности (1.9) превращается в условие Ρ (ζ, G) = 1 для всех ζ, принадлежащих С В монотонном случае Г = G. 1.3.3. Пусть {ХП1 fn}T равномерно интегрируемая стохастическая последовательность. Скажем, что имеет место случай независимых наблюдений, если Χη+ιΗβ зависит от fn, η = 1, 2, . . .♦ Нетрудно видеть, что в этом случае Х1э Aj, . . . — независимые случайные величины. Наиболее типичный пример: У1э У2, ... — независимые наблюдаемые случайные величины, fn = $3 (Yu . . ., Υη), и Хп является функцией от Υη. Из теоремы 1.9, примененной к марковской последовательности Zn = Xn-n η = 1, 2, . . ., вытекает следующий результат. Теорема 1.10. Пусть имеет место случай независимых наблюдений. Тогда 1) случайные величины γι, γ2> · · · являются независимыми; 2) γη = max (Χη, ι;η+1), ι>η = Μ max (Xn, ι>η+1), η = 1, 2, . . .; 3) ι>η является ценой класса ©n, η = 1, 2, . . .; 4) τ* = min {η \ Χη > ι>η+ι}; 5) оптимальным в классе $RN является правило остановки xN = min{n\Xnp>Vn+i}, где yjv+i = —оо и v% = Μ max (Χη, ι>*+1). Как утверждает теорема 1.9, в марковском случае можно исключить из рассмотрения те правила остановки, которые предписывают принимать то или иное решение не только в зависимости от текущего состояния, но и от некоторых прошлых состояний. Иначе говоря, информация о прошлых состояниях является излишней, поскольку ее наличие не увеличивает средний выигрыш. Вообще, введение дополнительной информации, которая может влиять на выбор решения, но не влияет на будущее течение процесса, называют рандомизацией. Интуитивный метод рандомизации заключается в проведении «не относящегося к делу» дополнительного случайного эксперимента (например, подбрасывания монеты) для выбора решения. Более формально, пусть {Хп, £п}Т —произвольная стохастическая последовательность и 2?1э $2> · · · — неубывающее семейство под-о-алгебр iF, удовлетворяющее двум условиям: для каждого η = 1, 2, ... 1) Г η С »»; 2) Ρ (Л | gn) = Ρ (А | Гп) для любого 4e»(U ^k)· Пра- вило остановки τ такое, что {τ = η} е &ηί η = 1, 2, ... называется рандомизированным правилом остановки относительно стохастической последовательности {Хп, §-п}?. 28
Теорема 1.11. Если выполнены условия 1) и 2), то значения уп для последовательности {ХПУ $П}Г совпадают со значениями уп для последовательности {Χη, #\ι}ί°· Для равномерно интегрируемой последовательности Х1э Х2,..., теорема может быть доказана путем перехода к усеченным последовательностям {Хп, £η}ι и {Хп, $П}Г с помощью обратной индукции и последующим предельным переходом по N. В общем случае доказательство требует более сложных предельных переходов (точнее, большего числа предельных переходов). По теореме 1.11 рандомизация не увеличивает цены, что подтверждает вполне понятный факт, что серьезные решения не следует принимать посредством подбрасывания монеты. Несмотря на это, рандомизация часто оказывается полезным вспомогательным приемом в задачах оптимальной остановки. Пусть £п = 33 (Уг, . . ., Υη), η = 1, 2, . . .. Решение задачи оптимальной остановки стохастической последовательности {Хп, £η}Τι не зависит от конкретной структуры вероятностного пространства (Ω, £, Ρ), лишь бы на нем существовали случайные величины Yly F2, ... с заданным совместным распределением. Часто в качестве пространства элементарных исходов Ω естественно рассматривать пространство последовательностей (ι/ι, ι/2» .. .)» однако это пространство оказывается слишком бедным, если мы хотим, чтобы наши решения могли зависеть от результатов подбрасывания монеты. Таким образом, желание использовать рандомизацию может привести к усложнению вероятностной модели эксперимента. В общем случае достаточно ввести новое пространство (S, f\_ P), где Ω = Ω χ Ω', £ = £ <g) £', Ρ = = Ρ (g) Ρ' и (Ω', £', Ρ') — некоторое измеримое пространство «рандомизирующих» исходов *. 1.4. Задача с двумя возможностями остановки 1.4.1. Использование методов оптимальной остановки оказывается полезным и в других задачах последовательного принятия решений. Предположим, что последовательно наблюдаются значения случайных величин Ух, У2, ... с известным совместным распределением. На каждом шаге мы можем либо продолжить процесс наблюдения этой последовательности, либо прекратить. Если наблюдение прекращается на m-м шаге, то далее наблюдается другая последовательность случайных величин Ym% т+1, Ут, т+2,.... Если наблюдение второй последовательности прекращается в Момент η ^> т, т. е. на значении Утп> то наш окончательный * Пусть (Ωχ, &и Ρχ) и jp2j &2, Р2) — два вероятностных пространства. Произведением &χ® & г называется σ-алгебра подмножеств Ωχ Χ Ω2, порожденная множествами вида Αλ χ Л2, где Аг е &и А2 <= &■ ъ. Произведением Рх ® Рг называется вероятностная мера на ^ΐ<8> ^j такая, что \\ ® Р2 (Аг X А2) = Pi (Αλ) Ρ2 (Л2). »
выигрыш составляет Хтп, где Хтп зависит от всех наблюденных значений У1? . . ., Ym, Ym%m+1, . . ., Утп. Требуется максимизировать средний выигрыш при условии, что совместное распределение семейства {Ymn, 1 ^ т <^ п) известно. Более общая ситуация такова. Пусть заданы следующие объекты: 1) вероятностное пространство (Ω, §, Р); 2) неубывающее семейство σ-алгебр f ι (Ζ $ъ (Ζ · · · df\ 3) для каждого фиксированного т = 1, 2, ... стохастическая последовательность {Хтп, fmn}n=m+i такая, что fmCfmnCI d fm, n+ь П^> ГЛ. В частном случае, о котором говорилось вначале, следует положить £т = SB (Fx, . . ., Ym) и f mn = 3d (Yl9 . . ., Ym, * m, m+i» · · · ^,jnn)· Составным правилом остановки называется пара случайных личин (σ, τ), принимающих значения 1, 2, . . ., оо таких, что 1) σ <τ< оо (п. н.); 2) {σ = m}&fm, m= 1, 2, . . .; 3) {σ = m, τ = η} e imn, /г > m > 1. Из этого определения следует, что σ является правилом остановки относительно последовательности fx, f2, .... Аналогично, τ можно рассматривать как правило остановки относительно fm,m+ij fm,m+2y · · · на множестве {σ = т}. Будем интерпретировать fm как информацию, накопленную наблюдателем к моменту т при условии, что до этого момента ни одна из возможностей остановки не была использована. Точно так же, fmn интерпретируется как информация, имеющаяся к моменту η при условии, что первая возможность остановки уже была использована ранее в момент т. Для каждого составного правила остановки (σ, τ) определим случайную величину Хах 2j ^l XmnI{o=m, t=n} = m=i n=m+l (Хтп, если σ = /τι и τ = η, т<^п; [О, если σ^>τ или τ=οο, -{г которую будем также обозначать Χ (σ, τ). Под средним выигрышем составного правила остановки будем понимать математическое ожидание ΜΧστ, а чтобы средний выигрыш был определен для всех (σ, τ), потребуем чтобы семейство {Хтп} удовлетворяло условию Μ sup C/m< oo, (1.14) где Um = Μ (U | f т) и U = sup ХшП. Пусть @т обозначает класс составных правил остановки (σ, τ) таких, что σ > т, a @mn обозначает подкласс @т, состоящий из 30
пар вида (т, τ), где τ > л. Положим ym = sup ΜΧστ, i;mn = sup MX^. ®m ®τηη Составное правило остановки, для которого один из этих супре^ мумов достигается, будем называть оптимальным в соответствующем классе. 1.4.2. Задача с двумя возможностями остановки сводится к поочередному решению двух обычных задач оптимальной остановки. Предположим, что первая возможность остановки всегда используется в момент т, тогда объектом оптимизации является класс @т> т+1. Мы приходим, таким образом, к задаче оптимальной остановки стохастической последовательности {Xmm fmn} i£=m+i* Пусть Кп = ess sup Μ (Χστ | fmn). (1.15) По теореме 1.6 pmn удовлетворяет рекуррентному уравнению fimn = max(Xmn, Мфж,п+1|^тп)). (1.16) Кроме того, из теоремы 1.5 следует, что если τ&η < <*> (п. н.)> где τ£η = min {fc > п\ Xmli = β^}, то составное правило остановки (т, xtin) оптимально в классе @mn, и, как следует из леммы 1.3 и (1.5), Kn = M(X(m,rtn)\fmn). (1.17) Полагая pm = Mtfm,m+1|fm), (1.18) мы из (1.17) и (1.18) получаем рт = Μ (X (т, τ*, т+1) | §т), если только правило остановки тт, m+i почти наверное конечно. Это означает, что β™ есть условный ожидаемый выигрыш, который мы получаем, если сначала останавливаемся в момент т, а далее действуем оптимальным образом. Теперь рассмотрим задачу оптимальной остановки стохастической последовательности {pm, FmK0· Из предположения (1.14) следует, что Μ (sup β™) < оо. Положим Ym = ess sup Мфа|^т), где 9Кт есть класс правил остановки σ ^ т. В силу использованных выше аргументов, имеем Vm = max(pm,M(Vm+i|fm)), (1.19) а если случайная величина oti = min {& > m | β* = γ^} 3£
является правилом остановки (т. е. σ™ < оо (п. н.)), то Ym = M0(a*)|^m). Теорема 1.12. Пусть a* = min {m|Pm = Vm) и на множестве {σ* = т) T* = min{w>m|Xwn = pmn}. Если σ* < τ* <С °° (π· н.), mo (σ*, τ*) является оптимальным составным правилом остановки, т. е. Μ (Χ (σ*, τ*) | fi) = γχ и MX (σ*, τ*) = νχ. Доказательство. Для любого составного правила остановки (σ, τ) определим последовательность правил остановки tm = τ/{σ=ηι> + (т + 1) 1{о^т). Поскольку тт е @т, т+ь то в силу (1.15), (1.17) и (1.18) на множестве {σ = т) имеем $т ;> Μ (Ζ (m, xm) | ^m), причем для (σ*, τ*) имеет место равенство, так как хт совпадает с τ^,ηι+ι на \σ = m}. Следовательно, для любого Л €= f± JP(a)dP=2 J pmdP> Α т=1 АГ[{о=*т) со >S S M(X(m,Tm)|^m)dP = m«i АП{а=т) оо — 2 S X0», tw) dP = J *<n <*P, τη=1 АП{<1==т| А я, в силу произвольности Α, Μ (β (σ) | fx) ^ ΜΧστ, причем для (σ*, τ*) имеет место равенство. Поскольку Υι > Μ (β (σ) | f г) и уг = Μ (β (σ*) Ι ^), то Μ (Χ (σ*, τ*) | Гг) = уг и MX (σ*, τ*) = ι?!· Теорема доказана. В отличие от обычной задачи оптимальной остановки пара (σ*, τ*) может с положительной вероятностью принимать значения оо, даже если оптимальное составное правило остановки существует (ср. с теоремой 1.5). 1.4.3. Теперь предположим, что мы имеем дело всего лишь с конечным числом наблюдений, т. е. индексы семейства {Хтп, fmn) пробегают конечное число значений 1 <^ га ^ Af, т <^п ^ ^ N (т). Соотношения (1.17) и (1.19) дают β*ι, N(m) = Хт, N(mh * < т < М^ ί1 ·20) Кп = max (ХтпУ Μ фт,n+i | fmn))f ™> < η < N (m), l<m<M; (1.21) ΤΜ = βΜ; (1.22) Ym -= max фт, М (Vw+1| f w)), 1 < m <Μ (1.23) 32
Эти формулы есть не что иное как вариант метода обратной индукции применительно к задачам с двумя возможностями остановки. В принципе они позволяют вычислять последовательность f>mn при фиксированном т от больших значений η к меньшим, а затем последовательность ут от больших значений т к меньшим. Пара (σ*, τ*), определенная через {Pmn} и {ут}, является конечнозначной, поэтому (σ*, τ*) есть оптимальное составное правило остановки. Нетрудно сформулировать аналогичную задачу с к возможностями остановки. Теорема 1.12 легко обобщается и на этот случай, но нахождение оптимального правила, состоящего из к правил остановки, потребует вычисления к семейств случайных величин (имеются ввиду аналоги ут и Pmn), число индексов которых изменяется от 1 до к.
Глава 2 ВЫБОР НАИЛУЧШЕГО ВАРИАНТА 2.1. Классическая задача наилучшего выбора 2.1.1. Эта задача будет исходной для рассматриваемого круга задач, она имеет много других названий, среди прочих такие, как задача о выборе наилучшего объекта, задача о секретаре, задача о выборе жениха или невесты. Предположим, что имеется N упорядоченных по качеству вариантов, из которых мы хотим выбрать наилучший. Ознакомление с вариантами происходит в случайном порядке так, что все N\ возможных перестановок равновероятны. На каждом шаге мы можем сравнить очередной вариант со всеми предыдущими, но ничего не знаем о том, каковы будут последующие варианты. В зависимости от результатов проведенных сравнений очередной вариант может быть либо выбран, и тогда процесс выбора закончен, либо пропущен, и тогда мы смотрим следующий вариант, если еще не все варианты просмотрены. Требуется с максимальной вероятностью выбрать наилучший вариант. Препятствием для выбора наилучшего варианта в этой задаче является невозможность возврата к отвергнутым вариантам. Если бы это ограничение отсутствовало, то мы всегда могли бы выбрать наилучший вариант, просмотрев все N вариантов. В известной интерпретации, связанной с выбором жениха, разборчивая невеста хочет остановить свой выбор непременно на наиболее достойном кандидате. При этом она каждый раз должна решать вопрос об избраннике до поступления следующего предложения. Однажды отвергнутый жених считает это решение окончательным и более не навязывается. Искусственность некоторых условий в этой интерпретации (например, о том, что невеста знает наперед число предложений) будет частично устранена в других постановках задачи наилучшего выбора. Уточняя и формализуя постановку задачи, мы рассмотрим в качестве пространства элементарных исходов Ω множество всех перестановок чисел 1, 2, . . ., Ν, считая при этом все перестановки ω = (ω1? . . ., ω^) равновероятными. Число Хп (ω) = = ωη, 1 <^ η <; Ν, мы будем называть абсолютным рангом и-го по порядку просмотра варианта и считать, что вариант тем лучше, чем меньше его абсолютный ранг. Так, абсолютный ранг 1 соответствует наилучшему по качеству варианту, 2 — второму по качеству и т. д. Определим относительный ранг n-το по порядку просмотра варианта, как число членов последовательности Х1У.. - 34
.. ., Хп, не превосходящих Хп, η = 1, . . ., N. Значение Υη определяется результатами сравнений п-то варианта со всеми предыдущими. Обратно, по значениям Ух, . . ., Уп однозначно определяются результаты сравнений первых η вариантов. Таким образом, последовательностью Ух, . . ., Υη исчерпывается вся информация, которая может быть получена путем ознакомления с первыми η вариантами. Это означает, что решение о выборе п-то по порядку просмотра варианта должно определяться относительными рангами Ух, . . ., Уп. Иначе говоря, в качестве способов выбора следует рассматривать правила остановки последовательности наблюдений Ух, . . ., У^. Задача наилучшего выбора заключается в нахождении такого правила остановки τΝ, для которого вероятность Ρ {Хх = 1} выбора наилучшего варианта принимает наибольшее значение. Чтобы привести нашу задачу к обычному виду задач оптимальной остановки, следует положить Qn = P{Xr\=i\fnh n = l,...,W, где fn — iB (У1? . . ., Уп) — σ-алгебра, порожденная относительными рангами первых η вариантов. Для любого правила остановки τ относительно последовательности f±, . . ., fn Μ<?χ= 2 S Cn<*P=2 5 P{Xn = i\fn}d¥ = = 2Ρ{Χη=1,τ = η>=Ρ{Χτ = 1>, П=1 поэтому задача наилучшего выбора эквивалентна задаче оптимальной остановки конечной стохастической последовательности {Qni ^η}ι у причем Qn — это условная вероятность того, что и-й вариант окажется наилучшим. 2.1.2. Оптимальное правило остановки и оптимальная вероятность удачного выбора легко находятся методом обратной индукции. Прежде всего следует определить совместное распределение относительных рангов и явный вид выигрышей Qn. Лемма 2.1. Относительные ранги Ух, . . ., Yn независимы и Ρ {Υη = к} = 1/п, к = 1, . . ., п. Доказательство. Положим Ymn, где т > п, равным числу членов последовательности Хх, . . ., Хт, не превосходящих Хп. Нетрудно видеть, что Уп = Упп, YNn = Хп и если Ут+1 < ^ ^тгп Т0 ^m+i, η = *тп "Г 11 а вСЛИ Ут+1 ^> *тпч Т0 Ут+ι, η = Утп· Всякую перестановку (sx, . . ., sN) чисел 1, 2, . . ., N можно рассматривать как взаимнооднозначное преобразование s пространства Ω, действующее по формуле s (Х±, . . ., XN) = (XSi, ·.. • · м Xsn)· Поскольку все точки Ω равновероятны, то s сохраняет вероятность. Пусть 5т+1 = т + 1, ..., sN = N для некоторого т < N. Под действием преобразования s событие {Ут1 = 1, . . ., Ymm = 2* 35
=5г т] переходит в событие равной вероятности {Ym\ = s±J ... • . м Υ mm = $т}· В СИЛу ПРОИЗВОЛЬНОСТИ (s±, . . ., 5m) ВСв mj Возможных значений вектора (Ут1, . . ., Утт) равновероятны. Обозначим / (У1э . . ., Уп) вектор (УпЬ . . ., Упп), взаимно· однозначно определяемый относительными рангами Ух, . . ., Yny тогда при любых ι/λ < к, к = 1, . . ., п, ^{Гп=2/п|У1=2/ь ..., ^η-ι=Μ = Ρ {У! = ylf . .., Уп-1 = у^} = Р{/(^..мУп)=/(У1,...Уп)} 1/д1 J_ β Ρ {/ (Уь . . ., Ум) = / (ylf . . ., y^)} = l/(n-l)! = η · Лемма доказана. Как следствие получаем, что ^п = Р{Хп = 1|Уь...,Уп} = Р{Хп = 1ЩЬ так как абсолютный ранг Хп однозначно определяется относительными рангами Уп, . . ., У#. Скажем, что и-й вариант является относительно лучшим, если он лучше всех своих предшественников, т.е. Уп=1. Если и-й вариант не является относительно лучшим, то он не может оказаться наилучшим среди всех вариантов. Если же я-й вариант является относительно лучшим, то он оказы · вается наилучшим тогда и только тогда, когда больше относительно лучших вариантов не появляется. Из сказанного следует, что =/ P{Yl, = l,yn.1>l,...,yjv>l} <гя=*> Г{Г„ = 1} -/0>*> Π (l-^-) = f/(yn=1, (2.1) Мы видим, что имеет место случай независимых наблюдений, по теореме 1.10 в этом случае оптимальным является правило остановки τ* = min{n| Qn> v^}, (2.2) Ν Ν где последовательность νι , . . ., νΝ удовлетворяет рекуррентному уравнению !# = Μ (max (Qn, ς£ι;)), ν*+ι = — °°· Учитывая (2.1), перепишем это уравнение в виде (2.3)
Заметим, что Vn не возрастает, а η/Ν строго возрастает по п9 поэтому найдется d* = d* (N) такое, что неравенство η/Ν > > νη+ι равносильно/г ^d*. Таким образом, неравенство Qn >'ι>ί+ι равносильно одновременному выполнению условий η ^ d* и Уп =* = 1. Это позволяет представить (2.2) в виде τ* = miii {л| η > d*, Уп = 1}, где мы полагаем min φ = Ν. По-другому этот результат можно сформулировать так: оптимальный способ выбора заключается в том, чтобы пропустить первые d* — 1 вариантов и затем выбрать первый вариант, который окажется лучше всех своих предшественников. Число d* интерпретируется как порог, который разбивает процесс выбора на два этапа — этап создания эталона и этап сравнения с эталоном и остановки. Найдем теперь пороговое значение d* и вероятность удачного выбора vN = Vi , равную вероятности события {Χ^ν = 1 }· Из (2.3) при N > 1 получаем νζ-υ&^^^-ι&ι), n = d*,...,JV-l, (2.4) ι# —!#, rc = l,...,d*. (2.5) Решением (2.4) является последовательность ν _ П- 1 V^ 1 Л — d* Л/ — 1 ^п — — 2j λ_ι » л —α,...,/ν ι. fc=n Вместе с (2.5) это дает fc=d* По определению, пороговое значение d* задается неравенствами которые в силу (2.5) и (2.6) эквивалентны двойному неравенству Σ т=т<к Σ ω-· <2·8) fc=d*+l fc=d* Численные значения vN и d*, полученные из (2.7) и (2.8), приведены в табл. 1. Обращает на себя внимание монотонность последовательности {vN}. Доказать этот факт можно с помощью следующего ρ ассуждения. Рассмотрим модифицированную задачу выбора из N вариантов, в которой перед началом просмотра известен порядковый 37 (2-6)
номер наихудшего варианта μ. Пусть Yu . . ., Yn-i —относительные ранги по порядку просмотра всех вариантов, за исключением наихудшего. Случайные величины Y'u . . ., Y'n-i не зависят от μ, а их совместное распределение совпадаете распределением относительных рангов в немодифицированной задаче с N — 1 Таблица 1 N d* vN Ν d* vN N d* vN 1 1 1,000 9 4 0,406 60 23 0,373 2 1 0,500 10 4 0,399 70 27 0,372 3 2 0,500 15 6 0,389 80 30 0,372 4 2 0,458 20 8 0,384 90 34 0,371 5 3 0,433 25 10 0,381 100 38 0,371 6 3 0,428 30 12 0,379 1000 369 0,368 7 3 0,414 40 16 0,376 8 4 0,410 50 19 0,374 вариантами. Ясно, что выбирать наихудший вариант не имеет смысла, поэтому модифицированную задачу можно рассматривать как рандомизацию исходной задачи, а, следовательно, вероятность удачного выбора здесь равна νΝ"λ (ср. с теоремой 1.11, где следует положить fn = S3 (У[, . · ., Y'n), $п = $? (μ, П ..., Y'n), n<N-l). С другой стороны, наличие дополнительной информации в задаче с N вариантами может только увеличить вероятность удачного выбора, поэтому выигрыш в модифицированной задаче не меньше νΝ. Следовательно, ν**'1 > νΝ. 2.1.3. Выведем формулы, дающие хорошее приближение для d* и vN при больших N. При любом к !> 2 имеем fc+l к \n(k+l)-lnk= $JE-<JL< jj ^=1ηΑ-1η(Λ-1). к fr-1 Суммирование этих неравенств от к = d до к = N дает N+i In- <Σ4-<-^. *=d Из этих оценок и (2.8) вытекает, что ι Ν . А ^ Ν—ί 1п ^г < 1 < ψ—2 > откуда Nle < d* < Nle + 2 - Me. (2.9) В интервале длины 2 — Не может содержаться не более двух целых чисел, поэтому (2.9) определяет d* с точностью до 1. 38
Стоящая в правой части (2.8) сумма не более чем на l/(d* — 1) отличается от 1, а поскольку d* -> оо при N ->оо, то в пределе она равна 1. Вместе с (2.7) и (2.9) это дает lim vN = lim J!L = e'1x 0,368. β 1<П Таким образом, когда число вариантов велико, то доля пропускаемых вариантов составляет приблизительно N/e, и вероятность удачного выбора монотонно убывает к е"1. Назовем правило остановки Td, равное первому η ^ d такому, что Yn = 1, пороговым с порогом d. Как мы видели, оптимальное правило остановки τ^ является пороговым с порогом d*. Выигрыш порогового правила задается уже известной формулой fc=d Пусть последовательность d (1), d (2), . . . такова что d (N)/N -> -+е~г при Ν-+οο, тогда соответствующее пороговое правило остановки является асимптотически оптимальным в том смысле, что limP{X4(WJ-l> = e-i. В частности, вычисление оптимального значения порога с помощью (2.9) дает асимптотически оптимальное правило остановки. 2.2. Задача наилучшего выбора при случайном числе вариантов 2.2.1. В качестве первого обобщения классической задачи мы изучим ситуацию, когда число вариантов, из которых требуется выбрать наилучший, не известно заранее, а является случайной величиной с заданным распределением. Мы найдем условия, которым должно удовлетворять распределение числа вариантов, чтобы решение задачи можно было получить без использования предельного перехода, а также исследуем асимптотические свойства пороговых правил остановки. Пусть N —случайное число вариантов с известным распределением оо pk=P{N = k}, 2 рк=1. Предположим, что если N = к, то к упорядоченных по качеству вариантов появляются в случайном порядке так, что все к{ перестановок равновероятны. Мы хотим, основываясь на попарном сравнении поступающих вариантов, с максимальной вероятностью остановиться на наилучшем варианте при условии, что возможность возврата к пропущенным вариантам исключена.
Рассмотрим в качестве пространства элементарных исходов Ω объединение всех Qfc, к = 1,2,..., где Qk есть множество перестановок ω = (ωχ, . . ., сок) длины к, причем вероятность любой точки ω из Qk равна Рь1к\. Положим по определению N (со) = к, если со ΕΞ Ωλ.. Определим абсолютный ранг и-го по порядку просмотра варианта как Хп (со) = соп, если η < Ν (со), и Хп (со) = = оо, если п^> N (со). Определим относительный ранг п-то варианта Υη как число членов последовательности Х1У . . ., Хп, не превосходящих Хп, если Хпф оо; и Уп = оо, если Хп = оо. Полагая .f» = «(rlf...,rn)f (?п = Р{^п = 1|ГпЬ мы приходим к задаче оптимальной остановки стохастической по· следовательности {Qn, fn}™. Следующее утверждение доказывается аналогично лемме 2.1. Лемма 2.2. Относительные ранги Ух, . . ., Yn условно независимы при условии {Ν !> η}, η = 1, 2, . . ., и Ρ {Υη = к} = πη/η, к = 1,. . ., η, еде оо Отсюда несложно получить, что последовательность относительных рангов является марковской и оо ^ = Р{Хп-1|У»-1}-ЛтЛ-1^Х-?- <2Л2) (эта сумма содержит конечное число слагаемых, если все рь начиная с некоторого к = к0 равны нулю). Полагая gn (Yn) = Qn, мы получаем марковское представление для стохастической последовательности {Qn fn}T (см· π· 1-3.2). Пусть νη (у) есть наибольший средний выигрыш, который может быть получен после попадания марковской цепи У1Э У2> · · · в состояние Υη = у. Поскольку νη (оо) = gn (оо) = 0, то оо принадлежит множеству] ГЛ = {У | vn (у) = gn (у)}. Случайная величина τ* = min {n I Yn S Γη} не превосходит iV + 1, так как Υ^+ι = оо е= Г#+1· Следовательно, τ* <^ оо и согласно п. 1.3.2 является оптимальным правилом остановки· Рассмотрим подробнее структуру остановочных множеств ГпИ Равенство νη (у) = 0 выполняется только в том случае, когда у = оо или Jtn+-i = 0,^ во всех остальных случаях vn (у) строго 40
больше нуля. С другой стороны, gn (у) в силу (2.12) отлично от нуля только если у = 1. Из сказанного следует, что Гп всегда содержит оо, при некоторых η содержит 1, и, наконец, если Яп+1 = 0, то Гп = {1, . . ., л, оо}. Впрочем, заменяя в последнем случае Гп на {1, оо}, мы не изменяем вероятности удачного выбора, поэтому можно считать, что Гп при любых η состоит не более чем из двух элементов, а именно: 1 и оо. Определим Г как множество тех и, для которых Гп содержит 1 (т. е. νη (1) = gn (1)), с присоединенной к нему (фиктивной) точкой 9, смысл введения которой будет ясен из дальнейшего. Мы можем, таким образом, представить оптимальное правило остановки в виде f min{/2|Yn=l, пеГ}, τ* = { (2.13) [ Ν + 1, если это множество пусто, ν * ' Следовательно, нетривиальные решения могут приниматься только при появлении относительно, лучших вариантов, причем эти решения зависят исключительно от порядковых номеров относительно, лучших вариантов. Оказывается, что сама последовательность номеров относительно лучших вариантов образует однородную марковскую цепь, и Г является ее остановочным множеством. Пусть Ζχ = 1 и Zk = min {η > Ζ&_χ | Υη = 1}, а если это множество пусто, то Zk = д. По определению, Zk — это номер к-то относительно лучшего варианта, а если их число меньше кщ то Ζ* = д. Из леммы 2.2 получаем P(ltk) = T{Zn = k\Zn^ = l} = k=l l Эти равенства означают, что Z1? Z2, ... образует марковскую цепь с переходной функцией Ρ (·, ·) и фазовым пространством Ε = {9} U {!> 2, . . . }. Состояние д является поглощающим — однажды попав в него, цепь навсегда в нем остается; число шагов до попадания в д не превосходит N + 1. Рассмотрим задачу оптимальной остановки цепи Ζ1? Ζ2, . . * с функцией выигрыша 00 Как мы знаем из п. 1.3.2, можно ограничиться правилами остановки, которые являются моментами первого попадания цепи в некоторое подмножество В d Е. Каждому такому правилу остановки тв естественно соответствует правило остановки Хв *(*Λν если 1<к<°°'· О, если к*^1; Л. Η
последовательности относительных рангов У1? Y2, · · .: в опреде» лении (2.13) нужно заменить Г на 5, при этом Mg(tB) = Mg-B(Y-TB). (2.14) Равенство (2.14) означает, что средние выигрыши обоих правил остановки равны. Из оптимальности τ* = тг теперь следует, что Mg (tr) > Mg (xB) для любого В CZ Е. Следовательно, Г является остановочным множеством цепи Z1? Z2, . . ., а Тг — оптимальным правилом остановки этой цепи. Пусть ν (ή) = νη (1), ν (д) = 0, тогда функция ν (ζ) на Ε удовлетворяет уравнению ν (z) = max (g (z), Tv (*)), (2.15) где оператор Т действует по формуле τί(η)=Σ f(i)P(n,i) ту (а)-о (мы считаем, что областью определения Τ является множество функций / на Ε таких, что 0 < / (ζ) ^ 1 для всех ζΕ Ε и / (д) = = 0). В этих терминах Г есть просто множество тех ζ ΕΞ Ε, для которых g (ζ) = ν (ζ). Итак, мы свели задачу наилучшего выбора к задаче оптимальной остановки цепи Zlf Z2, . . . Такая редукция вносит существенное упрощение тем, что эта цепь является однородной и почти не содержит состояний, в которых выигрыш нулевой. 2.2.2. Перейдем к исследованию остановочного множества Г. Следующее утверждение доказывает, что Г однозначно определяется уравнением (2.15). Лемма 2.3. Уравнение (2.15) имеет единственное решение в рассматриваемом классе функций. Доказательство. Пусть ν (к) и w (к) два решения (2.15). Положим и (к) = | ν (к) — w (к) |, применение оператора Τ дает оо Ти (к) = Τ | ν (к) — w (к) | = 2 \v(k)—w(k)\P(k, I) > >\ Σ (ν(к)-w(к)) Р (к, Ζ) I =»Ι Γ» (Α)— Γα»(Α) Ι > 1=>к P*\v(k) — w(k)\ = u(k). Многократное применение Τ к этому неравенству дает и (к) < Тпи(к) (2.16) для всех η = 1, 2, . . .. Введем в рассмотрение функцию с (ft) = 1, если к = 1, 2, . . ., с (д) = 0. Прямое вычисление показывает, что 42
Тп с (к) равно вероятности того, что цепь из состояния А: за η шагов не перейдет в состояние д. Эта вероятность не превосходит πη, поэтому Тп с (к)->-О при тг-^оо. Остается заметить, что и (к) ^ с (к)у Тпи (к) <; Тп с (к) и, переходя в правой части (2.16) к пределу по /г, получить и (к) = 0. Лемма доказана. Решение уравнения (2.15), таким образом, эквивалентно нахождению Г. Лемма 2.4. Множество Г бесконечно. Доказательство. Пусть Г состоит из конечного числа элементов, тогда найдется η такое, что g (k) <^v (к) для всех к > п. Из (2.15) тогда следует, что ν (к) = Tv(k), а применение Τ к обеим частям этого равенства дает Τν (к) = 2 ν (Ι) Ρ (к, 1)=ΣΤν (Ι) Ρ (ft, I) = T2v (к). 1>к 1>к Совершенно аналогично, Tmv (к) = ν (к) для всех к^ п. Переходя по т к пределу, мы видим, что ν (к) = 0 при к^ п, что противоречит строгому неравенству g (к) < ν (к) и неотрицательности g (к). Лемма доказана. Назовем целочисленный отрезок 1т, п] островом, если [т, п] сГ, а/я — 1 и w -f 1 не принадлежат Г. Если Г состоит из конечного числа островов, то по лемме 2.2 последний остров имеет вид [d*, оо]. Случай конечного числа островов особенно важен, так как в этом случае задача оптимальной остановки имеет конструктивное решение: ν (к) = g (к) при к ^ d*, и мы можем из (2.15) последовательно вычислить ν (к) при к < d*, отправляясь от к = d*. Следующая теорема дает критерий конечности числа островов. Теорема 2.1. Множество Г состоит из конечного числа островов тогда и только тогда, когда последовательность a (k) ^ = S (&) — TfS W) неотрицательна начиная с некоторого к = d*. Доказательство. Пусть а (к) > 0 при к ^ d*, тогда в задаче остановки цепи {Zn} с начальным состоянием Z\ = d* имеет место монотонный случай (см. п. 1.3.2), так как цепь изменяется в сторону больших значений к. Поэтому [d*, оо] (Z Г, и число островов конечно. Обратно, пусть число островов конечно, и [d*, оо] — последний остров. Тогда g (к) = ν (к) > Τν (к) > Tg (к) при к > d* и а (к) ^ 0. При этом a (d* — 1) < 0, так как d* — 1 не принадлежит Г. Теорема доказана. Через исходное распределение числа вариантов величины а (к) выражаются в виде двойного ряда поэтому непосредственная проверка условий теоремы для конкретных распределений довольно сложна. Более простые достаточные условия конечности числа островов основываются на *ис- 48
ле перемен знака последовательности оо Ь(к) = р*- £ ώ-, 6(0) = —1. Теорема 2.2. Число островов не превосходит числа перемен знака с минуса на плюс последовательности Ь (0), Ь (1), .... Доказательство. Следующие соотношения выводятся непосредственно из (2.15) и определения g(k): Tv(k-l) = (v(k)+ (/0-1)10(10)^. (2.18) Докажем с их помощью импликацию (АеГ и δ(Λ —1)>0)-*(Λ —1)еГ. (2.19) Действительно, откуда с учетом ν (к) = g (к) > 2V (к) получаем ТЁТ + Т *<*> > TRfer ' <*> + -£· Я- <*>· Подставляя (2.17) и (2.18), мы видим, что? (А: — 1) > 2Ί; (к — 1), т. е. (А;-1)<=Г. Аналогично доказывается импликация ((*-1)еГ и δ(Λ — 1)<0)=^АеГ. (2.20) Мы хотим показать, что на каждом острове есть хотя бы одна перемена знака с минуса на плюс. Пусть [т, п] — некоторый остров. Из (2.20) вытекает, что Ь (ή) > 0, а из (2.19) вытекает, что Ь (т — 1) <[ 0, поэтому на таком острове есть перемена Знака. Покажем теперь, что и на бесконечном острове [d*, оо] имеется по крайней мере одна перемена знака с минуса на плюс. В силу (2.19) Ъ (d* — 1) < 0. По теореме 2.1 a (d* — 1)< 0, поэтому π(ί· 7> 0. Возможны два случая. а) При некотором к > d*, пк = 0. В этом случае все рп равны нулю при п^к. Взяв наименьшее такое кг мы получаем b (к — - 1) = />*-! > 0. б) Все Яд. ненулевые. В этом случае к Uft Если все а (к) = 0 при к ;> d*, то и все Ь (к) равны нулю. По- 44
следнее противоречит равенству Ь (к + 1) - Ь (к) = -^-Рь -ρ*-ι, так как существует сколь угодно большое к такое, что рк > рк-г. Следовательно, найдется а (к) }> 0 и в силу (2.21) найдется положительное Ь (т) при некотором т^> к ^ d*. Таким образом и на бесконечном острове всегда имеется перемена знака. Теорема доказана. 2.2.3. Классическую задачу наилучшего выбора мы можем рассхматривать как частный случай задачи при случайном числе вариантов, если считать распределение N сосредоточенным на одном-единственном значении. Предельные соотношения (2.10) трактуются тогда как частный случай следующей общей схемы: имеется однопараметрическое семейство одноостровных распределений {pii λ > 0} (т. е. распределений, для которых остановочное множество состоит из единственного острова) и изучается предельное поведение начала острова и вероятности удачного выбора. Если Г = [d*, oo], то оптимальное правило выбора предписывает пропустить первые d* — 1 вариантов, а затем остановиться на первом же относительно лучшем варианте. Как и в классической задаче, будем называть такие правила пороговыми. Поскольку для одноостровных распределений оптимальное значение порога совпадает с началом острова, постольку вопрос о предельных соотношениях естественно связывается с исследованием асимптотической оптимальности в классе пороговых правил остановки. Пусть Nx — случайное число вариантов с распределением {Рй}, зависящим от параметра λ ^> 0, и t£ = min({n|Fn=l, w>d>, Ν + ί) пороговое правило остановки. Если η ;> d, то по аналогии с (2.11) условная вероятность удачного выбора правила tj[ при условии {Λ^λ = η} составляет η d-i У1 1 η Zj А—1 # k=>d Следовательно, общий выигрыш этого правила составляет ^W-i^^trb·· (2-22) Положим /*(ζ) = Ρ{Λ'νλ<ζ}. Теорема 2.3. Пусть семейство распределений FK (ζ) слабо сходится κ распределению F (ζ) при λ->· оо, и d (λ) — функция 45
со значениями 1, 2, ... такая, что lim ; =α. Если О <^ α <^ λ-οο Л <^ оо, то оо lim φ* (d (λ)) = α ί i5^ df (ζ). (2.23) α Если к тому же F (ζ) непрерывно е 0 и оо, то правую часть (2.23) следует доопределить нулем в точках α = О и α = оо. Доказательство. При 0 <[ α < оо получаем из формулы (2.22) n=d(X) (1(λ)/λ При d (λ)/λ ^ α/2 подынтегральное выражение в этой формуле с точностью до величины порядка О (λ"1) равномерно по ζ ^ α/2 приближается выражением (α/ζ)1η(ζ/α). Кроме того, это выражение непрерывно как функция двух переменных при положительных α и ζ, и равно нулю при α = ζ. Поэтому для любого ε > О λζ 1η<*(λ)<6 при всех достаточно больших λ, и ζ1 достаточно близких к а. Следовательно, ос φ* (d (λ)) = α J iuffiSl ctf* (ζ) + Ο (λ-»). Воспользовавшись слабой сходимостью, мы можем теперь заменить Р> на ^ и, переходя к пределу при λ-* оо, получить (2.23). Пусть ώ(λ)/λ-^οο, тогда вероятность события {№ < d (λ)} стремится к 1, если только (1 — .Ρ(ζ))-^0 при ζ->οο. Следовательно, φλ (d (λ)) -> 0. Пусть d (λ)/λ ->· 0, тогда для любого ε > 0 найдется δ = = δ (ε) такое, что вероятность события {Νλ <[ λδ} меньше ε при всех достаточно больших λ. Вклад в (2.22) слагаемых, соответствующих η <^ λδ% оценивается сверху числом ε. Вклад всех остальных слагаемых асимптотически равен нулю, что следует из соотношений Στπ=τ<1η-ϊ=Γ· "5ζ1ηζ"0· Теорема доказана. 46
Обозначим определенную теоремой предельную функцию через φ (α). Если d (λ) определяет асимптотически оптимальное значение порога, то отношение d (λ)/λ должно стремиться к точке максимума φ (α), а вероятность удачного выбора стремиться к максимальному значению φ (α). Для одноостровных распределений это значение дает предел ιΑ (1) при λ—►■ оо. 2.2.4. Рассмотрим несколько конкретных распределений. Π ρ и хМ е ρ 1. Этот пример показывает, что не все распределения являются одноостровными. Пусть N <^ 8, Ρι = 0,1; р2 = 0,895; р3 = р4 = Рь = Ре = Ρί = 0,001; р6 = 0,1. Остановочным множеством здесь является Г = {2, 4, 5, . . .} = [2, 2] (J (J [4, оо], т. е. Г состоит из двух островов. Оптимальное значение порога равно 2, причем Ρ {ХХг = 1} = 0,48202 < 0,48228 = Ρ {Χτ* = 1}. Пример 2. Равномерное распределение: рк = 1/и, к = 1,... . . ., п. Последовательность »«~ϊ(»-Στ) монотонно возрастает при к = 1, . . ., /г, Ъ (ή) = ί/η и Ь (к) = 0 при к^> п. Поэтому имеется единственная перемена знака с минуса на плюс, и по теореме 1.2 Г состоит из единственного острова. Положим λ = /г, тогда при λ -► оо предельное распределение случайной величины Ν4λ будет равномерным на [0, 1] и ι φ(α) = α^^^|^^ζ=|-1η2α, 0<α<1. а Единственной точкой максимума φ (α) является α* = е~2, поэтому оптимальная вероятность выбора наилучшего варианта стремится к 2е~2. Пример 3. Геометрическое распределение: рк = ρ (1 — — ρ)*"1, к = 1, 2, . . .; 0 <р < 1. В этом случае оо b(k) = p(l~p)k- £!p(1_p)«-i = Выражение в скобках монотонно возрастает к 1 с ростом к, поэтому имеется всего одна перемена знака с минуса на плюс, и Г состоит из единственного острова. Положим λ = ρ"1, тогда при λ -> оо предельное распределение отношения Ν (λ)/λ будет пока- 47
зательным с плотностью F' (ζ) = e~ts откуда ео 1 α* ж 0,174 — единственная точка максимума, φ (α*) zz 0,27. Π ρ и м е ρ 4. Пуассоновское распределение: рк = %}:~1е~Ч /(к — 1)!, к = 1, 2, . . .; λ > 0. В этом случае 1'" (*-1)1 Ζώέ1(ί + 1)_ (Λ-1)1 Г Zj (Λ + i)! Г 4=fr 4=1 Выражение в скобках монотонно возрастает к 1 при к -^ оо, поэтому имеется всего одна перемена знака. Из неравенства Чебы- шева Р{|Х-МХ|>е><-Н-, римененного к случайной величине X = Νλ/λ, и того, что ΜΝλ = ΌΝΧ — λ, следует, что предельное распределение F (ζ) сосредоточено в точке ζ = 1. Следовательно, {α1η(1/α), если Ο^α^Ι; 0, еслиа>1. Единственной точкой максимума является а* = е~х и φ (а*) = е~1. Замечание 1. Предположим, что при каждом испытании значение Νλ известно до начала просмотра вариантов. При каждом фиксированном значении Ν* = η мы находимся тогда в условиях классической задачи, и оптимальная вероятность выбора наилучшего варианта при условии {Νλ = η} равна νη из классической задачи. Полная вероятность удачного выбора составляет π=1 независимо от того, знаем мы распределение Νλ или нет. Если для каждого η = 1, 2t ... вероятность события {Ν* <^ п) стремится к нулю при λ -*» оо (или, что эквивалентно, р\ ->· 0), то ух-*-е~г, поскольку νη -> е~г при тг->оо. Что касается задачи с известным распределением, но априори не известными значениями Ν9 то здесь £λ является верхней оценкой ιΑ (1). Если р£->-0, /г = 1, 2, . . ., то предельное значение νλ (1) не превосходит е"1. Вообще, это значение в определенном смысле характеризует информативность распределения. Наиболее информативные семейства распределений (удовлетворяющие условиям р\ -> 0, λ -*- оо) это те, для которых ιΑ (1) -*- в"1. Достаточным для выполнения соотношения ιΑ (1) -*- е"1 является условие 48
DiW(MTVk)2 -^ 0, доказательство этого факта такое же, как в случае семейства пуассоновских распределений в примере 4. Замечание 2. Как мы видели в п. 2.1 в задаче с фиксированным N, т. е. неслучайным числом вариантов, вероятность удачного выбора уменьшается с ростом N. Этот факт не обобщается для случайного числа вариантов — если случайные величины N± и N2 таковы, что ΜΝλ ^> МЛГ2> т0 в соответствующих задачах для оптимальных вероятностей удачного выбора могут выполняться любые неравенства или равенство. 2.3. Задача наилучшего выбора, связанная с пуассоновским процессом. Случай ранговой информации 2.3.1. В задаче, которую мы рассматривали в п. 2.2, оптимальное решение на каждом шаге определялось сравнением вероятности того, что наблюдаемый вариант окажется наилучшим, с максимальной вероятностью удачного выбора, соответствующей пропуску наблюдаемого варианта, причем обе вероятности однозначно восстанавливались по апостериорным распределениям числа оставшихся вариантов. Вид оптимального правила не зависит от того, являются моменты появления вариантов фиксированными или случайными, поскольку в момент очередного решения апостериорное распределения числа оставшихся вариантов зависит только от номера наблюдаемого варианта. Введение случайных моментов приводит лишь к дополнительной рандомизации задачи, не изменяя вероятности удачного выбора. Применительно к нашей интерпретации, связанной с разборчивой невестой, независимость апостериорного распределения от момента последнего наблюдения означает, что представления невесты о числе будущих предложений остаются неизменными, даже если она уже провела свои лучшие годы в ожидании. Напротив, как показывает практика, начиная с некоторого возраста, интенсивность предложений обычно идет на убыль независимо от числа прошлых предложений. Поэтому, если невеста не только разборчива, но и достаточно разумна, то она не станет затягивать выбор, даже если число уже полученных предложений невелико. Чтобы учесть временной фактор, мы рассмотрим постановку вадачи наилучшего выбора, в которой варианты появляются с переменной интенсивностью. Общее число вариантов здесь опять-таки оказывается случайным, но апостериорное распределение этого числа существенно зависит от момента наблюдения. Пусть {Ν (t), t p> 0} — неоднородный пуассоновский процесс с функцией интенсивности λ (t) ]> 0. Этот процесс имеет независимые приращения, и вероятность того, что N (t -\- δ) — N (t) = = 1, равна δλ (t) -f- ο (δ). Моменты последовательных скачков процесса tu t2, ... мы будем интерпретировать как моменты появления сравниваемых между собой вариантов. Наложим дополнительное условие конечности интеграла от λ (t) в пределах 49
от t = 0 до t = 00, тогда N (оо) конечно с вероятностью 1. Предположим, что если N (оо) = п, то η вариантов появляются в моменты f!,..., £п в случайном порядке так, что все п\ перестановок равновероятны. Наша задача заключается в том, чтобы, основываясь на наблюдении последовательности (Υ\, ίχ), (У2, ί2),. .. относительных рангов и моментов появления вариантов, с максимальной вероятностью остановиться на наилучшем варианте. 2.3.2. Простая замена времени по формуле <p(t) = ^X(s)ds/^ l(s)ds преобразует исходный процесс в однородный пуассоновский процесс Ν (φ (t)) на единичном интервале. Это позволяет без потери общности считать процесс N (t) однородным интенсивности λ при 0 <ζ t <ζ 1. При этом распределение числа скачков на временном промежутке s ^ t <^ s -f- δ является пуассоновским с параметром λδ. Рассуждая точно так же, как в предыдущем параграфе, мы сводим нашу задачу к задаче оптимальной остановки марковской цепи, связанной с относительно лучшими вариантами. Положим Zn = (m, tm)y если /г-й относительно лучший вариант является m-м по порядку просмотра; и Zn = д, если число относительно лучших вариантов меньше п. Обозначим Ζ0 = α начальное состояние и заметим, что из свойств совместного распределения относительных рангов и моментов скачков вытекает марковское свойство последовательности Ζ0, Ζχ, .... Эта цепь является однородной, а ее фазовым пространством Ε является множество пар (m, t) таких, что т = 1, 2, ... и 0^Ц1^ с присоединенными к нему начальной точкой α и конечной точкой д. Явные выражения для переходных вероятностей нам не потребуются, за исключением вероятности перехода в конечное состояние. Переход цепи из состояния α в состояние д означает, что за все время вообще не появился ни один вариант, поэтому Ρ (α, д) = e-λ. Переход из состояния (т, t) в д означает, что т-ж вариант оказывается последним относительно лучшим вариантом, поэтому Р((т, t), 9)=Р{Ут+г>1, ...,Ym)>l\N(t) = m} = ОО ОО = £р{ЛГ(1)-^(«)-А}^-ие^-*)£^^.. fc=o fc=o (2.24) Наконец, очевидно, что Ρ (<9, д) = 1. Выигрыш g (m, t)y получаемый при остановке в состоянии (m, t), равен вероятности того, что т-й вариант является наилучшим среди всех поступивших к моменту t = 1 вариантов, т. е. вероятности Ρ ((т, t), д) того, что т-ш вариант последний отно- 50
сительно лучший. Кроме того, g (д) = g (α) = 0, так как остановка в этих состояниях вообще не отвечает выбору какого-либо варианта. Мы хотим показать, что в задаче остановки цепи Z0, Zlt . . . с функцией выигрыша g имеет место монотонный случай. Для этого нужно сначала найти множество G таких состояний ζ из Е, что g (ζ) > Tg (ζ), (2.25) где Τ есть оператор усреднения за один шаг. Поскольку Ρ (д, д) = 1 и g (д) = О, то д принадлежит G. Кроме того, g (α) = 0 и Tg (α) ]> 0, поэтому α не принадлежит G. Для остальных состояний ζ = (m, t) Tg (*) = U (*') Ρ (ζ, dz') = ξ Ρ (ζ\ д) Ρ {ζ, dz') (2.26) Ε Е\{д) так как g (д) = 0, поэтому Tg (m, t) равно вероятности перехода цепи из состояния (m, t) в состояние д ровно за два шага. Такой переход в точности означает, что за оставшийся временной промежуток (t, 1] появляется единственный относительно лучший вариант. Следовательно, Tg (m, t) = Ρ {среди Ym+ι, . . ., Yn(i) ровно одна единица | N (t) = оо к = m>=2?P{W(l)-iV(i)=A>^P{rra+1>l,... ...,Ym*i-i>i, (2.27) *m+i = 1» Ym+i+1 ^> 1» · · ·» *m+Jr ^> 1} = — me Zi /c!(m + /c) Zi m+i — 1 Формулы (2.24) и (2.27) позволяют неравенство (2.25) записать в виде Σ «ta/W*1 < Σ <Ч«*4. (2.28) где полагается i * = λ (*-*). Д*ш— a(wA+0 » Ь|т=Д т+1^1> Из соображений непрерывности следует, что для нахождения всех пар (ттг, ί), удовлетворяющих (2.28), достаточно найти корни урав- 51
нения hn {χ) = o„m + Σ (1 - Ьпт) <W*n = О- (2-29) П=»1 Лемма 2.5. При каждом т = 1, 2, . . . существует единственный положительный корень хт уравнения (2.29). Кроме того, hm (χ) > 0 при 0 < χ < ят, и /г^ (я) < 0 при а: > ят. Доказательство. Пусть т фиксировано. Найдется такое г, что Ьпт > 1 при η > г, и 6nm < 1 при /г < г. В выражении ftm(x) = a0m + ^(l —ft„m)a„ma;n-- ^ (bnm — l)anmxn все коэффициенты положительны, кроме, быть может, r-го, равного нулю. Для fc-й производной имеем выражение оо *£' (*) = - ^ (Ь„т -1) on_fc, ro+i^n-ft, если к > г; *#(*) = Σ (1 - Ьпт) <*„-*, m+fcX"-* - Σ (*>пт - 1) <*,>-*, η^Χη~\ n«=fr n=r+l если 0 < к < г. Для всякого к ^ 0 производная /г ^ (а:) отрицательна при достаточно больших х, т. е. существует последовательность неотрицательных чисел г/09 Ун · · · такая, что А»? (я) < 0 при χ > ι/^. При к^> г можно положить ук = 0. При 0 <ζ к ^ г имеем ^т} (0) > 0 и h$ (yk) < 0, отсюда по непрерывности следует, что функция hm (x) имеет неотрицательный нуль. Мы покажем, что этот нуль единственный. Прежде всего, ктЛ1) (х) < 0 при χ !> 0, поэтому h$ строго убывает, и имеется единственный нуль, скажем ζΓ, функции /г£? (х). Кроме того, А2?(*)>0 при *]<zr и hm\x)<\0 при x>zr. (2.30) Теперь из /45? (zr) = 0 и /г£+1) (zr) < 0 следует, что /45Г1} достигает максимума на отрезке [0, yr-i\ в точке zr. Поскольку hm~X) (0) > 0, то и h^ (zr) > 0, поэтому из (2.30) вытекает наличие единственного нуля ζτ~χ ΕΞ lzr, i/r_il функции hm"^ (χ). Из единственности zr и определения ι/Γ-ι вытекает отсутствие нулей вне [zr, i/r-il· Аналогично, отрицательность /$? (zr_i) и единственность ζΓ_! позволяют установить, что /г£~2) (а:) имеет единственный положительный максимум в точке ζ^χ. Коль скоро /45ГХ) (#) < 0 при χ >· ζΓ_χ, то уравнение /4п~2) (а:) = 0 имеет единственный положительный корень zr-2, который лежит на отрезке [zr_i, г/г-гЬ 52
Индуктивно продолжая это рассуждение, получаем, что урав нение hm (χ) = 0 имеет единственный корень ζ0 и hm (χ) < 0 при χ < z0, hm (χ) > 0 при χ > ζ0. Остается положить хт = ζ0. Лемма доказана. Как следствие получаем, что (m, t) принадлежит G в том и только в том случае, если λ (1 — t) <ζ хт. Последовательность Таблица 2 т *т т Хт 1 2,120 9 15,587 2 3,692 10 17,301 3 5,332 16 27,600 4 7,041 20 34,470 5 8,742 25 43,058 6 10,450 30 51,647 7 12,601 35 60,237 8 13,872 40 68,827 корней х1у х2, . . . частично представлена в табл. 2. Довольно громоздкие аналитические выкладки, которые здесь приведены не будут, позволяют установить, что хт1т —► е — 1 при m —> оо. Следующая лемма понадобится для доказательства того, что множество G является поглощающим. Лемма 2.6. Последовательность х1у х2, . . . положительных корней (2.29) монотонно возрастает. Доказательство. Положим /o(s, m) = 2 rnanmxn, h(x, m) = S rnanmbnmxn, тогда (2.29) записывается как /0 (#, m) — fx (χ, m) = 0. Нам потребуется формула ± ((т + 1) х™" (h (χ, т) - h (*, гп + 1))) = ***« (/о (я> m + 1) - -Ы*,т + 1)). (2.31) Непосредственно проверяется, что mb Η + ^η,τη+ι то + п m +л-f-l если /г = 1, (то+ 1) (то+ 2)» п({ — &п-1,т-ц) _„ „^9 - ; Г-; ; ГТГ' ^СЛИ П^ Δ. {т + л) (т + η + 1) ^ Отсюда получаем ^т+1 (т + 1} (/l (a?f m) _ /х (*, т + 1)) = 71=1 Ν ™Ь„ Н + ЧЧйИ.! ТО -\- П ТО -\- >6n,m+i \ я + 1 /~ п=»1 59
^J n!(ro + n)(m + re + l) / ^п\ (т + п + 1) (m + n -f 2) oo л!(т + и + 1)(т + и + 2) " Следовательно, £ ((ш + 1) *">+1 (/ι (х, ш) - /ι (χ, ι» + 1))) - vn, m+i \ \£j n\(m+n + i) Zj и!(т + и+1) / n=o n=l v ' ' ' = x™ (/о (*, m+i)-h(x%m+ 1)), и формула (2.31) доказана. Правая часть (2.31) положительна на интервале (0, xm+i), поэтому на нем функция (т + 1) xm+1 (f± (χ, m) — fx (x, m + 1)) возрастает и, следовательно, положительна. Отсюда вытекает, что и функция /χ (я, т) — /х (#, т -f- 1) положительна на этом интервале. Из неравенства /0 (#, /тг) < /0 (я, т + 1), справедливого при всех положительных #, теперь вытекает, что /о(Zm+i,™) </о(Хт+ит + 1) = /ι(*m+i,т + 1)</i(ят+1,т). Вместе с тем /0 (0, т) ^> /х(0, т), что вследствие непрерывности дает хт < xm+i. Лемма доказана. Наша цепь изменяется от меньших значений т и t к большим, вплоть до попадания в конечное состояние д. Если λ (1 — t) ^ ^ хт для какого-нибудь состояния (т, ί), то по лемме 2.6 в любом последующем состоянии (т\ t') λ (Ι — t') < λ (1 — t) < < ят < #m', так как t' > £ и т > т. Следовательно, Ρ (ζ, G) = = 1 для любого ζΕδ,π имеет место монотонный случай. Число шагов, за которое цепь из произвольного состояния ζ попадает в д, не превосходит числа вариантов N (1). Следовательно, цепь из любого состояния обязательно попадет в G, так как д принадлежит G. Как мы знаем, в этом случае момент первого попадания цепи в множество G является оптимальным правилом остановки. Применительно к последовательности наблюдений (У1э ίχ), 0^2» h)i · · · наш результат звучит так: оптимальное правило остановки предписывает остановку на первом относительно лучшем варианте, момент появления tm которого удовлетворяет неравенству λ (1 — tm) ^ хт1 где хт есть положительный корень (2.29), Возвращаясь к переменной интенсивности λ (£), неравенство λ (1 — tm) ^ xm нужно заменить на § λ (s) ds < Хп 54
Поразительной особенностью этого результата является зависимость оптимального решения, помимо очевидного условия Ym = = 1, только от среднего числа оставшихся до конца просмотра вариантов. По-видимому, это особое свойство пуассоновского процесса. 2.3.3. Итак, мы показали, что для нахождения оптимальных способов выбора при всевозможных значениях λ требуется вычисление бесконечного числа корней хт, хотя при каждом фиксированном λ нужно знать лишь конечное число хт <^ λ. Во всяком случае, оптимальное правило сложнее, чем в классической задаче или в задаче со случайным числом вариантов, распределенным по пуассоновскому закону. Оказывается, однако, что учет временного фактора дает бесконечно малый выигрыш по сравнению с классом правил, основанных лишь на относительных рангах — оптимальная вероятность удачного выбора, обозначим ее ιΛ, в пределе равна е"1 при λ —> оо. Действительно, если значение N (1) всякий раз известно до начала просмотра вариантов, то мы находимся в условиях классической задачи, независимо от значений ί1? . . ., £jv(1). Поэтому рассуждение, которое использовалось в замечании 1 п. 2.2.4, доказывает, что предельное значение ιΛ не превосходит е"1. С другой стороны, если учитывать только относительные ранги, то мы оказываемся в условиях примера 4 из п. 2.2.4, так как распределение N (1) пуассоновское с параметром λ. Следовательно, пороговое правило, предписывающее остановку на первом же относительно лучшем варианте после того, как пропущено d (λ) вариантов, где d (λ)/λ ~> е"1, асимптотически оптимально и его выигрыш стремится к е"1. Существует еще более простое асимптотически оптимальное правило, которое даже не требует подсчета числа пропущенных вариантов. Если пропускать все варианты, которые появляются до момента t = e"1, а затем останавливаться на первом относительно лучшем, то вероятность удачного выбора при этом стремится к е~1. Этот факт следует из того, что доля пропускаемых таким образом вариантов сходится по вероятности к е"1. 2.4. Задача с полной информацией 2.4.1. До сих пор мы считали, что вся информация, которой мы располагаем при ознакомлении с очередным вариантом, исчерпывается его относительным рангом. Таким образом, предполагается, что об общем уровне качества обследуемых вариантов ничего не известно, и даже если качество первого варианта кажется довольно высоким, то все равно этот вариант следует с равной вероятностью считать наилучшим или наихудшим среди остальных. Такое предположение, по-существу, равносильно отождествлению варианта с его абсолютным рангом. Теперь мы перейдем к задаче, в которой имеется значительно более обширная информация. Предположим, что имеется некото- 65
рая числовая шкала, по которой мы можем оценить качество каждого варианта в момент его появления. Оценки различных вариантов являются независимыми случайными величинами, имеющими одну и ту же функцию распределения. Эта функция распределения предполагается известной — именно в этом смысле мы говорим о задаче с полной информацией, в противоположность ранговой задаче, в которой «совершенно ничего не известно» о функции распределения. Будем, кроме того, считать заданным общее число- вариантов, из которых предстоит сделать выбор. Требуется найти правило, максимизирующее вероятность остановки на наилучшем, т. е. имеющем наибольшую оценку, варианте. Важная особенность этой задачи состоит в том, что оценки существенны лишь постольку, поскольку они дают возможность сравнивать варианты между собой: численное значение оценки отдельно взятого варианта безотносительно к оценкам других вариантов никакой роли не играет. Вышесказанная особенность позволяет изменять масштаб на шкале оценок, не изменяя при этом существа задачи и, в частности, вероятности удачного выбора. С точки зрения разборчивой невесты это означает, что оценки есть всего лишь способ описания ее предпочтений и не имеют смысла дохода, так как в противном случае скорее следует руководствоваться средним значением оценки, а не вероятностью выбора наилучшего варианта. Пусть C/j, . . ., C/jv — независимые, одинаково распределенные случайные величины, имеющие непрерывную функцию распределения F (и). Мы интерпретируем значение Un как оценку п-га варианта и хотим, основываясь на наблюдениях £/ь U2, . . ., с максимальной вероятностью остановиться на варианте с наибольшей оценкой. Из непрерывности F (и) следует, что вероятность совпадения оценок различных вариантов равна нулю, поэтому мы всегда можем считать, что варианты однозначно ранжируются по порядку их оценок, и, в частности, наилучший вариант всегда единственный. Монотонные преобразования не изменяют упорядочение оценок, поэтому заменяя £/х, . .., ϋΝη& F (С/х),. . ., F \U^)Y мы сводим задачу к случаю равномерного распределения оценок на единичном интервале. Такая редукция возможна именно в силу того, что распределение предполагается известным. Будет показано, что в задаче остановки марковской цепи, связанной с относительно лучшими вариантами, имеет место монотонный случай, и найдено предельное выражение для вероятности удачного выбора, которое оказывается приблизительно равным 0,58, т. е. шансы на удачный выбор по сравнению с классической задачей существенно увеличиваются. 2.4.2. С относительно лучшими вариантами, т. е. с относительными максимумами Un = max (Uu . . ., ί/η), свяжем следующую марковскую цепь. Положим Zn = (m, Um), если тг-й относительно лучший вариант является m-м по порядку просмотра; Ζη = д, если число относительно лучших вариантов меньше п. Последовательность 56
Zu Z2, . . . образует однородную марковскую цепь, фазовым пространством Ε которой является объединение N экземпляров интервала (0, 1) и поглощающего состояния д. При фиксированных т,уип переходная функция Ρ ((m, ι/), (тг, ·)) является мерой на (0, 1), плотность которой задается выражением ί Уп'т"1^ если /г > т и ζ ]> у; Ρ ((л*, у), (η, ζ)) = \ Л r u *'' v ' " 10, в остальных случаях. Выигрыш при остановке в состоянии (га, у) равен вероятности того, что m-й вариант является последним относительно лучшим, т. е. оставшиеся варианты имеют оценки меньше у. Следовательно, g (га, у) = Ρ ((га, у), д) = yN~m. Кроме того, g (д) = 0. Покажем, что в задаче оптимальной остановки цепи Zx, Z2, . . . с функцией выигрыша g имеет место монотонный случай. Усреднение выигрыша за один шаг задается формулой N 1 Tg (т9 у) = S \в (п9 ζ) ρ ((га, у), (η, ζ)) dz = n=m+l 0 Ν = Σ lz^yn^4z= 2 n-m-i] __ yN-m jv _ Λ + ι П=ят+1 J/ П=зЩ+1 Рассмотрим множество G состояний, в которых выигрыш от остановки не меньше усреднения выигрыша за один шаг. Ясно, что д принадлежит G. Чтобы найти остальные точки G, нужно решить неравенство Ν n-m-l „N-m У ^ Zj Ν-η+ί T!asm+1 которое равносильно l>J4-L + J4rL + · · · + У N-m ; (2·3*) Правая часть здесь строго убывает по у и равна нулю при у = 1, поэтому при фиксированном т неравенство (2.32) выполняется при 1 ]> у ]> Уя-т, где уПУ η = 1, 2, . . . является единственным положительным корнем уравнения Когда η растет, то к правой части (2.33) добавляются новые слагаемые, и она тоже возрастает. Следовательно, последовательность уи ι/2, . . . строго возрастает. Наша цепь изменяется в сторону увеличения обоих параметров га и у, пока не попадет в состояние д, поэтому если (га, у) Е= G, что равносильно у ^ Уи-т, то для всех последующих состояний (и, ζ) выполняется неравенство ζ > у ^уя-т > Уя-п_> и (τι, ζ) ΕΞ С Отсюда вытекает, что име- 57
ет место монотонный случай, и, следовательно, оптимальным правилом остановки является момент первого попадания цепи в G. Таким образом, оптимальный способ выбора заключается в том, чтобы остановиться на первом же относительно лучшем варианте, оценка которого не меньше i/jv-m, где т есть номер этого варианта по порядку просмотра. В отличие от классической задачи в задаче с полной информацией не требуется создания эталона, и выбор может быть сделан сразу же, если только Ux > i/jv-i· Выясним, чему равны приближенные значения уп при больших п. Для этого удобнее вместо (2.33) рассматривать уравнение η νη=Σ(ΐ)νη-*ν-νΐ\· (2.34) Правая часть (2.34) есть не что иное как Tg (т, у) при N — т = = п. Действительно, аналогично (2.26), Tg (m, у) равно вероятности перехода цепи в состояние д за два шага, а такой переход происходит, если первый после m-го вариант с оценкой выше у оказывается наилучшим. Распределение числа оставшихся вариантов с оценкой выше у является биноминальным, причем если это число равно к, то каждый из таких вариантов с вероятностью ilk оказывается наилучшим, что и дает (2.34). Замена переменной у на χ = (1 — у)/у приводит (2.34) к уравнению '-(т)>+т(;и+-+7(:)л решение которого представим в виде хп = с (п)/п. Замечая, что с (п) < 1 и оценивая хвост остатком сходящегося ряда νι 1 / η \ I с (η) γ π 1 £ Т[к \~7Г' < * ΤΊΤ' мы видим, что с (п) —» с, где с — единственный положительный корень уравнения ι = 2 к\к с « 0,804. (2.35) Отсюда следует, что Уп = \ — cln + о (ί/η). (2.36) Численные значения уп и их приближения по формуле (2.36) приведены в табл. 3. 2.4.3. Опуская некоторые детали, мы наметим теперь вывод асимптотической формулы вероятности удачного выбора в задаче с полной информацией. Пусть σ^ — момент появления наилучшего варианта, η δΝ — момент появления лучшего к моменту σ^ варианта. Таким образом, UqN = max (Uu . . ., UN), UbN = max (Ulr . . ., UaN_J. On-
Таблица 3 η Уп 1—с/п η Уп 1—с/п 1 0,500 0,196 9 0,916 0,911 2 0,690 0,598 10 0,924 0,920 3 0,776 0,732 20 0,961 0,960 4 0,825 0,799 30 0,974 0,973 δ 0,856 0,839 40 0,980 0,980 6 0,878 0,866 δΟ 0,984 0,984 7 0,894 0,885 8 0,906 0,899 тимальное правило τ^ выбирает наилучший вариант в том и только в том случае, когда UcN > yN_0N и UbN < yN_6N- Действительно, до момента δ^ все оценки не превосходят своих критических значений, так как Un < U6N и yN^N < у^п при η = 1, . . ., δ^, и вдобавок ни] одна из оценок U6n, . . ., Uqn не является относительным максимумом. Следовательно, оптимальная вероятность удачного выбора равна ν" = Ρ {ϋτΝ = max (tf χ, . Введем новые переменные UN)} = Ρ {UaN > yN_oNy (2.37) 5|Г = ЛГ(1-ЕЫ, TN = (o"-i) (l-U9N/UaN), V -* Vn= — > WN=W/(aN — l), тогда (3.37) переписывается в виде yW - р ft1 - w*=i) (4 - 4r) < y»-*»i»v«-* 1 J^- > yN-NVN\ · (2.38) При ΛΓ —> oo четверка (5jv, Tjv, VN, Wn) сходится по распределению к (£, Г, У, И0, где S η Τ имеют экспоненциальное распределение с плотностью / (х) = е~х, χ !> 0; V и W распределены равномерно на (0, 1), причем S, Т, V и W независимы. Из (2.36) и (2.38) получаем ^vN = F{T + S>T^vwS<T^r}· Вычисление этой вероятности как интеграла от плотности / (s, £, у, w) = ег8-* по четырехмерной области, заданной неравенствами s>0, *>0, 0<i;<1, 0<и;<1, f + Οχ^Γ> ^ 1 —ι; Μ
приводит к выражению с» S-CJC -—dx. (2.39) Х Численное значение этого предела находится с помощью формулы J-^-ώ —Ιηλ-γ-^i^i, λ>0 (2.40) 1 fc=l (см., например, [31] на стр. 57, формулы 5.1.11 и 5.1.28), где γ;^ ^ 0,577 постоянная Эйлера. Это значение составляет приблизительно 0,580. Таблица 4 N νΝ N vy~ 1 1,000 30 0,590 2 0,750 40 0,587 3 0,624 50 0,586 4 0,655 5 0,634 10 0,609 15 0,599 20 0,594 Заодно мы доказали асимптотическую оптимальность правила остановки х"щ.т1й{п\ил = шя.)'р1,. . ., Un), C/n>l_17i_}, (2.41) в котором в качестве критических значений оценок берутся при· ближения уп по формуле (2.36). Последовательность {ϊ^} монотонно убывает с ростом числа вариантов. Действительно, пусть в задаче с N вариантами мы перед каждым просмотром знаем значение оценки наихудшего варианта, т. е. ϋμ = min ({71э . . ., UN). Ясно, что наш выигрыш при наличии такой дополнительной информации не меньше ι^. С другой стороны, при каждом значении μ = η и U = и мы находимся в условиях задачи с N — 1 вариантами и равномерным на (и, 1) распределением оценок, и, если мы действуем оптимальным образом (в частности, пропуская наихудший вариант), то наш выигрыш составляет ι^"1. Следовательно, νΝ~λ > νΝ. Формализация этого рассуждения не представляет трудности. Численные значения vN приведены в табл. 4. [2.5. Задача наилучшего выбора, связанная с пуассоновским процессом. Случаи полной информации 2.5.1. Рассмотрим следующую задачу. Пусть имеется пуассо- новский процесс на положительной полуоси с заданной функцией интенсивности. Моментам tu £2, . . . последовательных скачков процесса отвечают независимые между собой и с моментами ilf 60
j2, . . . реализации Ux, U2, . . случайной величины с известной функцией распределения, которая предполагается непрерывной. Требуется найти правило остановки последовательности наблюдений (Ux, £i), (U2, £2)> · · ·» максимизирующее вероятность остановки на наибольшем значении Ui, £7г> .... Мы по-прежнему интерпретируем £Лкак момент появления η-го варианта, a Un — как оценку его качества. Если интеграл от функции интенсивности расходится, то выигрыш любого правила остановки равен нулю, так как последовательность оценок почти наверное бесконечна и максимума не имеет. В противном случае, производя преобразования масштаба времени и масштаба на шкале оценок, мы сводим задачу к случаю однородного на единичном интервале пуассоновского процесса и равномерного на этом же интервале распределения оценок. Эта задача оказывается более простой, нежели задача с дискретным временем из п. 2.4, так как здесь удается не только явно определить оптимальное правило, но и найти аналитическую зависимость между интенсивностью процесса и вероятностью удачного выбора. Кроме того, обе задачи оказываются асимптотически эквивалентными. Свяжем с относительно лучшими вариантами марковскую цепь и покажем, что имеет место монотонный случай. Положим Ζ0 = α, %п = (*m» Um), если п-й относительно лучший вариант является m-м по порядку просмотра, и Ζη = д% если число относительно лучших вариантов не превосходит η, η = 1, 2, . . . Последовательность Ζ0, Ζ1? . . . является однородной марковской цепью с фазовым пространством Е, представляющим собой единичный квадрат с присоединенными начальным состоянием α и конечным состоянием д. Переходная функция Ρ ((ί, у), ·) при фиксированных t и у является мерой на единичном квадрате с плотностью ( λ<τλ(*-0(ι-ι/> f если s > t]p z^y; Р((*. V)t (*. *)) = ((), в противном случае. Кроме того, Ρ (д, д) = О, Ρ (α, д) = β~λ, где λ — интенсивность пуассоновского процесса. Определим функцию выигрыша формулами g (ί, у) = Ρ ((*, у), 0), g(a) = g (д) = 0. Как обычно, пусть G есть множество состояний ζ таких, что g (z) ^ Tg (ζ). Ясно, что д принадлежит G, а а не принадлежит. Далее, 11 Tg (*, у) = ^e-4i-2)ii-*)Xe-Ks-№-v)dzds = у t X<i-y)ci-l> χ = <Γλ(ΐ-*)α-ι/) V е ""1 dx, о 61
и неравенство Tg (t, у) ^ g (£, у) равносильно неравенству о Отсюда следует, что (£, у) принадлежит G тогда и только тогда, когда λ (1 — t) (1 — у) < с, где с находится из формулы с J£^!dx=l. (2.42) О Поскольку цепь, пока не оборвется в состоянии д, движется от меньших значений t и у к большим, то множество G является поглощающим. Следовательно, имеет место монотонный случай, и оптимальным правилом остановки цепи является момент первого попадания в (?* Таким образом, оптимальное правило остановки предписывает остановку на первом же варианте, момент появления которого tn и оценка Un удовлетворяют неравенству λ (1 — tn) (1 — Un) ^ <Г с. При λ ^ с появляется эффект малой интенсивности — оптимальное правило предписывает всегда выбирать первый вариант, какой бы ни была его оценка. Сравним теперь рассматриваемую задачу с задачей из предыдущего параграфа. Аналогами переменных N и N — η здесь являются, соответственно, λ и λ (1 — ίη), при этом асимптотически оптимальное правило (2.41) вполне аналогично оптимальному правилу в рассматриваемой задаче. Более того, константы с в обеих задачах совпадают: чтобы убедиться в этом, нужно разложить подынтегральное выражение в (2.42) в ряд по степеням χ и, почленно интегрируя, получить (2.35). Развивая эту аналогию дальше, можно методом п. 2.4.3 доказать, что правая часть (2.39) дает также предельное значение вероятности удачного выбора при λ —> оо. Однако далее мы воспользуемся иным методом, позволяющим выразить вероятность удачного выбора через λ. 2.5.2. Пусть 0 < δ < 1, введем в рассмотрение класс 3R (λ, δ) правил остановки последовательности наблюдений (Uly £x), (&2i **)> · · м не выбирающих вариантов с оценками не больше δ. Моменты появления вариантов, оценки которых больше δ, можно рассматривать как моменты скачков пуассоновского процесса интенсивности λ (1 — δ), причем эти оценки независимы и равномерно распределены на интервале (δ, 1). Отсюда следует, что задача оптимальной остановки в классе 3R (λ, δ) эквивалентна оптимизации в классе 9R (λ (1 — δ), 0). Для произвольного распределения оценок F оптимальное правило остановки в классе 3R (λ, 0) основано на проверке для относительно лучших вариантов неравенства λ (1 — tn) (1 — F (Un)) ^ с, поэтому оптимальным в классе 991 (λ, δ) правилом остановки является χ (δ) = min {η I Un = max (Uu . . ., Un) > δ, λ (1 - tn) (1 - - Un) < c) (2-43) 42
(если это множество пусто, то τ (δ) можно определить произвольным образом). Обозначим ν (λ) оптимальную вероятность удачного выбора в классе 9R (λ, 0), т. е. вероятность выбора наилучшего варианта правилом τ (0). Рассмотрим приращение Δι; = ν (λ (1 — δ)) — — ι; (λ), равное разности вероятностей удачного выбора правилами τ (δ) и τ (0). Ясно, что это приращение неположительно, так как 9R (λ, δ) (Ζ 9R (λ, 0). Если к моменту t = 1 вообще не появил- ся ни один вариант, то, разумеется, τ (δ) и τ (0) никакой вариант не выбирают и вклад этого события в Αν нулевой. Рассмотрим теперь менее тривиальный случай, когда появился хотя бы один вариант. Если оценка первого варианта больше δ, то τ (0) = τ (δ): действительно, если λ (1 — t±) (1 — иг) ^ с, то τ (0) = τ (δ) = lr как следует из (2.43); а если λ (1 — ίχ) (1 — Ux) > с, то для всех tn ^> h условие Un = max (С/ь . . ., Un) гарантирует Un ^> δ, и опять-таки τ (0) = τ (δ). Таким образом, τ (0) Φ τ (δ) только в случае U± ^ δ. Вообще, интенсивность потока вариантов, оценки которых не больше δ, равна λδ, поэтому с точностью до события вероятности порядка δ2 можно считать, что Ό\ единственная такая оценка. Чтобы иметь далее возможность однотипно рассматривать как случай малых интенсивностей, кЛда λ <^ с, так и всех остальных, введем вспомогательную функцию s (б) = (1 - с/(Х (1 - б)))+, считая λ фиксированным. Наглядный смысл s (δ) очевиден — это момент, начиная с которого оптимальным правилом может быть выбран вариант с оценкой δ. Продолжим рассмотрение случая Ux ^ δ. Мы имеем две альтернативные возможности — либо tx <C s (δ), либо ίχ ;> s (δ). В первом случае ни правило τ (0), ни τ (δ) первый вариант не выбирают, а поскольку все остальные оценки можно считать большими U±, то τ (0) = τ (δ), и вклад этого события в Δι; равен нулю. Во втором случае имеются дальнейшие возможности: 1) τ (0) выбирает наилучший вариант, а выбор τ (δ) неудачен; 2) τ (δ) выбирает наилучший вариант, а выбор τ (0) неудачен; 3) выбор обоих правил неудачен. Разберем поочередно эти возможности. Поскольку τ (0) выбирает первый вариант, то 1) с точностью до события вероятности порядка о (δ) означает, что этот вариант вообще единственный. Следовательно, 1) осуществляется с вероятностью e-λχ (1 _ s (θ)) δ + ο (δ), (2.44) где мы пишем s (0) вместо s (δ) в силу того, что разность s (0) — ■— s (δ) имеет порядок О (δ). Рассмотрим случай 2). Поскольку τ (δ) не выбирает первый Вариант, то общее число вариантов больше единицы. Коль скоро Мы считаем все оценки большими δ, за исключением С/1э и t2 ^> 63
> h > s (δ), το τ (δ) выбирает второй вариант. При общем числе вариантов к условная вероятность того, что выбор τ (δ) удачен (т. е. U2 = max (£7lf . . м Uk))y равна (ft — I)"1. Следовательно, возможность 2) осуществляется с вероятностью fc=2 (2.45) где мы опять с полным правом заменили s (δ) на s (0). Вклад 3) в Δι? равен нулю. Вычитая из вероятности (2.45) вероятность (2.44), получаем W=»2 / Теперь λ будем считать переменной; подставляя s (0) = 0 при λ < с и s (0) = 1 — c/λ при λ > с и полагая δ —» 0, получаем dp (λ) <Ζλ ~*~λ(Σ *i(fc-i)—*)' если λ<0' if «=2 » оо . Интегрирование дает ^(λ)=1 *-λ *=ι /с!/с Cl, если Х^с, оо д. fr«=l Постоянные интегрирования определяются из условия ν (0) = 0 и условия совпадения обеих частей равенства при λ = с. Окончательно получаем у(Х)= w 1С ' Zj k\k ' если λ^ο, fr=l если λ!><\ Асимптотическое значение da; ^ 0,580 .. - х (2.46)
получается в результате несложных манипуляций с формулами (2.40) и (2.46). Замечание. Возрастание ν (λ) может показаться странным, так как интуитивно кажется, что чем больше среднее число вариантов, из которых мы хотим выбрать наилучший, тем труднее это сделать. Такое поведение ν (λ), по-видимому, объясняется тем, что с увеличением λ уменьшается равная £~λ вероятность того, что общее число вариантов равно нулю, когда мы вообще никакой вариант не выбираем. 2.6. Выбор с несколькими попытками 2.6.1. Сохраняя неизменными остальные условия классической задачи, предположим теперь, что у нас имеется возможность выбора г > 1 вариантов. Будем считать выбор удачным, если наилучший вариант находится среди отобранных, и максимизировать вероятность удачного выбора. Сначала мы рассмотрим случай г = 2, в котором легко определяются все асимптотические характеристики оптимального способа выбора, а затем перейдем к общему случаю и получим рекуррентное уравнение для предельной вероятности удачного выбора. Итак, предположим, что в процессе наблюдения относительных рангов У1э . . ., ΥΝ мы пытаемся выбрать наилучший вариант дважды. Ясно, что те варианты, которые не являются относительно лучшими, следует пропускать. Что же касается относительно лучших вариантов, то по аналогии с классической задачей (т. е. случаем г = 1) естественно ожидать, что оптимальный способ выбора задается парой порогов d2 и dx: первую попытку следует использовать, если просмотрено не менее d% вариантов, а вторую попытку следует использовать, только если просмотрено не менее dt вариантов. Мы докажем этот факт, исходя из общей теории составных правил остановки, изложенной в п. 1.4. Для всех 1 ^ т <^ η ^ Ν определим σ-алгебры fn = = 3d (Уь . . ., Уп), fmn = fn. Положим Rmn = V{Xm=\\$n), Qn = ¥{Xn = l\fn}, Qmn = Rmn + Qn. Таким образом, Qmn есть условная вероятность удачного выбора после того, как просмотрено η вариантов и выбраны п-и и т-й. Поскольку $Fmn = §п, то составное правило остановки есть просто пара (σ, τ) правил остановки последовательности относительных рангов таких, что σ <; τ. Для любой такой пары Μ()στ = = Ρ {Хс = 1 V ^t = 1}ι поэтому задача выбора равносильна нахождению оптимального составного правила остановки семейства {Qmn, fmn}- В силу конечности данного семейства оптимальная пара (σ*, τ*) описывается теоремой 1.12 и достаточно доказать, что (σ*, τ*) задается двумя порогами. Независимость относительных рангов позволяет представить 3 Заказ № 3752 65
формулы (1.20) и (1.21) в виде βηιη = Λη,η + ω3χ((?η,0. (2·47) где ν$> = ±-; ζ#> = Μ max (Qn, v^), n = i,...,N-i. (2.48) С точностью до обозначений последнее уравнение совпадает с уравнением для цены продолжения в классической задаче (см. п. 2.1.2), поэтому на множестве {σ* = ή) T* = min{n>m\Qmn = f!>mn} = min{n>m\n^dt, Fn = l}, где min φ = Ν, a a[ = d* определяется неравенствами (2.8)# Далее, из (2.47) получаем Рт = Μ (Pm,m+11 f m) = Qm + I&i, (2.49) а поскольку Qm — -j^ /{у^^, то все pm независимы и, следовательно, уравнения (1#22) и (1.23) превращаются в Ym = max (Pm, ι^+Ο, где 17^ = 4-5 ^m=MmRx(^mtv{Zih m=l,...,N — 2. (2.50) Мы видим, что v<m не возрастает по т, а из (2.48) легко получить, что mlN + Vm+i строго возрастает по т, следовательно, неравенство mIN -f- Vm+i Ξ> Vm+i выполняется начиная с некоторого т = = d£. Сказанное позволяет из (2.48) и (2.50) получить = min{m\m^ d*, Ym = 1}, σ* ш min {/7г I ^=γ™}=min tm\$rn> A} = где min φ = Ν — ί. Таким образом, оптимальный способ выбора действительно определяется парой порогов d£ и df, причем а[ совпадает с порогом d* из классической задачи. Переменные v*n и ι;£χ) представляют собой динамические характеристики оптимального способа выбора: если просмотрено η вариантов, то ν^ есть вероятность удачного выбора с двух попыток, а ι4χ) — с одной (точнее — со второй попытки — вклад первой попытки здесь не учитывается). Стандартное рассуждение, которое использует вложение задачи с N вариантами в задачу с N + 1 вариантами, доказывает, что оптимальная вероятность удачного выбора υψ уменьшается с увеличением числа вариантов. Численные значения d£, d% и v}2\ которые находятся из (2.48), 66
Таблица 5 Ν < < „(» Ν К К if> 1 1 1 1,000 9 3 4 0,651 2 1 2 1,000 10 3 4 0,646 3 1 2 0,833 20 5 8 0,619 4 1 2 0,708 30 7 12 0,608 5 2 3 0,708 40 10 16 0,604 6 2 3 0,693 50 12 19 0,601 7 2 3 0,672 100 23 38 0,596 8 2 4 0,656 (2.50) и определений d?= min {" I -J- > ι&ι} . <** = min jn |-J- + »Йи > pShl} . (2.51) приведены в табл. 5. 2.6.2. Как было установлено в классической задаче, <ζ/Ν и Vi* стремятся к ё~х при N -> оо; теперь же мы хотим найти предельные значения Вычисляя в (2.48) и (2.50) математические ожидания, перепишем эти формулы в виде разностных уравнений „(2) „(2) _ 1 / П (ι) _ y(2) \+ (2.52) с концевыми условиями у^ = 1/iV; v^n-i = 2/ЛГ. Будем считать nlN точкой излома двух кусочно-линейных непрерывных функций со значениями, соответственно, ι4χ) и Vn B этой точке. Из общей теории разностных методов следует, что ι41} и v^ при N—> оо сходятся равномерно на [0, 1] к функциям, соответственно, v1^) и ι?2 (t), которые являются решением системы дифференциальных уравнений dvM 5* - (2·53> dt .= --L(*-i,(i>)+, = — -L(«+ !;(!) — y(2))+ с концевыми условиями у<1> (1) = ι/2) (1) = 0 (в нуле нет особенности, так как обе функции в окрестности нуля постоянны). Как следует из (2.51), dJN-*bi, где δ* есть единственный корень уравнения t — у(1) (t) = 0. Аналогично, d$/N стремится к корню 3* 67
δ* уравнения t + v^ (t) - ι#> (t) = 0. (2.54) Кроме того, ι£2) -> ι/2> (0), TV -► oo. Первое из уравнений (2.53) решается моментально: *<» (0 = {e-/ — t In /, если е"1 <^ Ζ ^ 1; если 0 <^ t <^ е"1, к* и мы получаем известный результат: 6Х = е"1. Второе из уравнений (2.53) при t J> б* превращается в и легко интегрируется с помощью подстановки и = v^2Vt: — tint -f- -£-In2*, если в"1 ^Ζ^ 1; ι;«(ί)= — Ηη £ + е"1 s" > если δ2 <^£<ζ ё~1\ vW(0)9 если 0<*<6*, где постоянная интегрирования во второй части этого равенства определена посредством склейки первой и второй частей в точке t = Г1. Вместе с (2.54) это дает б* = г1/·, yfe) (0) = е'1 + г*/»ж ж 0,591. Таким образом, наличие дополнительной попытки позволяет увеличить при больших N вероятность удачного выбора приблизительно на ег*1* « 0,223 по сравнению с классической задачей. 2.6.3. Перейдем к случаю, когда имеется г ^> 2 возможностей выбора. Обобщение теории п. 1.4 на задачи с г моментами остановки позволяет доказать, что оптимальный способ выбора задается г порогами d?, . . ., d{. Аналогично случаям г = 1, 2 получаем систему разностных уравнений Vn —*Vu — ΤΓΙ"^^-»4 —Vn+lJ » К— 1,...,Γ, (4.DO) где ι40) ξΟη Улг-Jt+i = kIN. Порог d£ является точкой перемены знака с минуса на плюс правой части (2.55). Отсюда, в частности, следует, что набор (d?_i, . . ., df) задает также оптимальный способ выбора в задаче с г — 1 возможностями. При N ~> оо (2.55) равномерно аппроксимируется системой дифференциальных уравнений •^ = L(t + !;(*-» -1#>)+, k = 1,..., г, (2.56) где ι/°> (0 = 0 и ^(*° (1) = 0. Функция ι#> (t) имеет к особых точек δχ, . . ., б*, которые являются нулями правой части (2.56):
в точках δ*, i = 1, Λ ., к имеется только к— i + 1 производных, в то время как во всех остальных точках t Φ δ% эта функция бесконечно дифференцируема. Для нахождения предельных значений dfc/Nn ι>ι° при TV —> оо достаточно найти все 6* и v<*> (6^), однако попытка прямого решения (2.56) приводит к весьма громоздким аналитическим выкладкам, так как i/k> (t) задается различными выражениями на к + 1 интервалах. Мы можем, конечно, интегрируя (2.56) при к = г, выразить на интервале (бг, 6?Li) функцию i/r) (t) через v^1* (£), но возникающая при этом константа интегрирования потребует вычисления аналогичных констант в точках склейки б*-!, . . ., δχ, что опять-таки равносильно интегрированию всей системы. Вместо решения указанной системы мы найдем производную функции i/r) (t) в окрестности δ* из других соображений, что позволит рекуррентно выразить бг через δ*-ι, ·. . . . . ., δ*. При этом i/r> (бг) определится из формулы i;<r> (δ*) = б* + ι;(^0 (δ*-0. (2.57) Наши рассуждения опираются на следующую лемму. Лемма 2.7. Пусть р\ (а, Ъ\ Ν) есть вероятность того, что среди значений Ya, Ya+n · · -,Уъ ровно к единиц. Если -дг->а и τ??-—>β при N -> оо, то pk(a,b;N)-^Plc(a^) = ^-(\n-L) /k\. Доказательство. Случай к = 0 тривиален: р0 (а, Ь; iV) = (а — 1)/Ь. Предположим, что для некоторого /с утверждение справедливо. Если среди вариантов с номерами от а до Ь имеется к + 1 относительно лучших и ι — номер последнего такого варианта (а + к <^ ι <ζ Ь), то до ί-го среди этих вариантов ровно fe относительно лучших, а после ϊ-γο их нет вовсе. Следовательно, ь ρ»+ι(λ.6;^)= ^ "Τ^(α'ί — 1;Λ0ρο(ϊ + ι,6;Λ0~ Ь Ε δ α(1η —) Г J Λ (α' *) Ρο (*' Ρ) dx = β (Α: -Η 1)1 α Лемма доказана. Будем считать, что варианты появляются в моменты 1/ΛΓ, 2/Ν, . . ., 1. Из леммы 2.7 вытекает, что при N —> оо моменты появления относительно лучших вариантов образуют неоднородный
пуассоновский поток интенсивности l/t. С этим потоком связывается задача выбора, которая является в строгом смысле пределом конечных задач. В нижеследующих рассуждениях термин «вероятность» имеет двоякий смысл: во-первых, как вероятность некоторого события, определяемого реализациями указанного пуас- соновского процесса, и, во-вторых, как предел вероятностей однотипных событий в задачах с конечным N. Аналогично, под «правилом с порогами бг, . . ., δχ» понимается как правило в предельной задаче, так и последовательность составных правил с порогами dr, . . ., du где djg/N —> 6&. Пусть точка t лежит на интервале (δΓ, δΓ_χ), тогда v<r> (t) есть вероятность удачного выбора правила π*, заданного порогами £»А--ъ · · ·» δχ. Пусть At достаточно мало, рассмотрим приращение Avr (t) = vr (t — At) — i/r> (t), равное разности вероятностей удачного выбора правил nt-ы и nt. Если интервал (t — At, t) не содержит ни одного относительно лучшего варианта, то правила nt-м и jit совпадают, и, следовательно, вклад этого события в Ai/r> равен нулю. В противном случае с точностью до события вероятности порядка (At)2 можно считать, что такой вариант единственный; правило л*_д* его выбирает, a nt — пропускает, при этом первое правило выигрывает за счет этого выбора, только если на (£, 1) нет относительно лучших вариантов, т. е. с вероятностью (At/t) (t/l) + о (At). После момента t правило nt имеет не меньше возможностей, чем nt-M, поэтому выбор π* на (t, 1) не может быть менее удачен. Следовательно, вышеуказанное событие порядка At исчерпывает весь положительный вклад в Av<r) события {π* ^ Предполагая, что (t — At, t) содержит единственный относительно лучший вариант, рассмотрим событие, состоящее в том, что nt выигрывает, a nt-M проигрывает. Это возможно только тогда, когда (£, 1) содержит не менее одного относительно лучшего варианта. Точки 6Г_Х, . . ., δχ разбивают (£, 1) на г интервалов 1г = (t, 6*_i), I2 = (6*_ι, 6*_2), . . ., Ir = (6*, 1). Ясно, что интересующее нас событие определяется случайным вектором а = = (αχ, . . ., αΓ), к-я .компонента которого равна числу относительно лучших вариантов на 1к. Нашей ближайшей целью является описание множества А таких векторов, при которых π* выигрывает, а π^-Δί проигрывает. Ситуацию проясняют следующие примеры. Пример 1. а = (1, 0, 0, . . ., 0). В этом случае nt выбирает относительно лучший вариант на 1г и выигрывает. Правило я*-а* уже использовало единственную возможную к моменту 6Γ_χ попытку на интервале (t — At, t), поэтому оно проигрывает. Π ρ и м е ρ 2. а = (0, 2, 0, . . ., 0). В этом случае π* выбирает оба относительно лучших варианта на /2 и выигрывает, а правилу ut-м на /2 не хватает одной попытки. Π ρ и м е ρ 3. а = (1, 1, 2, . . .). После момента 6*_χ у обоих правил остаются одинаковые возможности, поэтому они выигрывают или проигрывают одновременно. 70
Обозначим ак последнюю ненулевую компоненту а. К концу каждого промежутка Iiy i <С К у π* должно оставаться больше попыток, чем у л*_д*, так как в противном случае оба правила после момента 6r_i совпадают (пример 3). Отсюда вытекает, что к любому из моментов δΓ-χ, . . ., δΓ_κ+ι правило π* должно не исчерпывать всех возможных попыток, а это возможно только если все относительно лучшие варианты выбираются. Следовательно, число таких вариантов меньше числа возможных попыток, т. е. 2 α,·<ί, i = l А"— 1. (2.58) .7=1 Обратно, если выполнено это условие, то к любому из моментов бг_!, . . ., бг_я+1 у nt остается неиспользованной хотя бы одна возможная попытка. Интервал 1к находится на особом положении. Дело в том, что к моменту бг_к правило nt должно исчерпать все К попыток и выбрать на 1к все ак вариантов (примеры 1 и 2), так как в противном случае правилу nt-м хватило бы своих К — 1 попыток. Отсюда получаем к 2 aj = К. (2.59) 3=1 Следовательно, А есть множество тех векторов, для которых выполнено (2.58) и (2.59). Из леммы 2.7 следует, что вероятность вектора а равна -^ln-^-J /(α2,...,αΓ), (2.60) где π/ tf-i V* ι /(α2, ...,аг) = Ц (In-τ* Ι —τ-, i=2\ °r-i+i I ail и мы полагаем б0 = 1. Сумма слагаемых вида (2.60) по всем α ΕΞ ΕΞ А у умноженная на At/t (вероятность появления на (t — At, t) относительно лучшего варианта), дает отрицательный вклад в Δι/Γ>. Полагая At —> 0 и замечая, что единственным в А вектором с ненулевой первой компонентой является ех = (1, 0, 0, . . ., 0), выводим - -я- = 1 - In — ^j f (a*> ---'"J· a<=A\{ei} Приравнивание производной к нулю дает - In б* = - In 6jLi + 1 - Σ / (α*...» ar). (2.61) aeA\{ei} 71
Эта формула рекуррентно выражает бг через остальные пороги бг^, . . ., б1э так как стоящая в (2.61) сумма зависит только от бг_ь . . ., δ1# Вычислим, например,, δ*· Поскольку δ? = е'1, δ* — ег*1*ч то подстановка дает £ /к«з)= £ (-гГ-sra-· aeA\{ei} aeA\{ei} Множество А состоит из векторов (1, 0, 0), (0, 2, 0), (0, 1, 2) и (0, 0, 3), поэтому (2.61) сводится к —In δ* = 3/2 + 1 — Ve — V4 — — ΐ/β = 47/24. Следовательно, δ* = е~47/м ^ 0,141, и формула (2.57) дает z/r> (δ*) = е"1 + er'h + г-"/* ~ 0,732. Результаты подобных вычислений приведены в табл. 6. Таблица 6 г у(г)(0) 1 0,368 2 0,591 3 0,732 4 0,823 5 0,883 6 0,921 7 0,948 8 0,965 Замечание. Табличные значения подсказывают, что v{r) (0) —» 1, г -> оо. Доказательство тривиально. Рассмотрим правило с порогами (δ, . . ., δ). Среднее число относительно лучших вариантов на (δ, 1) равно —1η δ < оо, поэтому при г —» оо рассматриваемое правило все эти варианты выберет с вероятностью сколь угодно близкой к 1. Вместе с тем наилучший вариант с вероятностью 1 — δ появляется на (δ, 1). Остается положить δ —> 0. Заметим также, что в силу неравенства v^ J> ι?(Γ> (0) имеет место равномерная по N сходимость νφ —> 1, г—> оо. Доказательство указанного неравенства опирается на вложение задачи с N вариантами в задачу с N + 1 вариантами. 2.7. Задача с частичной информацией 2.7.1. Предположим, что мы последовательно наблюдаем N независимых реализаций некоторой случайной величины и хотим остановиться на наибольшем значении. Задача с полной информацией и классическая задача наилучшего выбора представляют две крайние информационные ситуации: в задаче с полной информацией функция распределения известна точно, а в классической задаче мы о ней совершенно ничего не знаем — такая степень неведения гарантируется требованием о том, что все решения должны зависеть исключительно от наблюденных относительных рангов. Широкий спектр промежуточных постановок заполняют задачи с частичной информацией, в которых мы располагаем определенной информацией о функции распределения, но она не пол- 72
на. Иначе говоря, задано некоторое семейство Π непрерывных функций распределения, содержащее функцию распределения F фактически наблюдаемых значений (в нашей прежней терминологии — оценок вариантов), однако сама F неизвестна. Как и во многих статистических задачах, результаты наблюдений могут дать более полное представление о конкретном виде функции распределения, что, в свою очередь, может увеличить вероятность удачного выбора по сравнению с классической задачей. Пусть Uг, . . ., Un — последовательность независимых одинаково распределенных случайных величин с функцией распределения, принадлежащей заданному семейству Π = {jFe» θ €= ΕΞ θ}, непрерывных функций распределения. Под правилом остановки τ = τ (и) мы будем понимать функцию вектора и = = (м1? . . ., un) со значениями 1,2, . . ., N такую, что каждое значение τ (υ) = η определяется первыми η компонентами и. Всякому значению параметра θ и правилу остановки τ отвечает выигрыш оо оо £(θ, τ)= ^ ·.· 5 / {uT = max (αχ,..., t%)} <ί/?θ Ю . ..dFe(un), —оо —оо (2.62) равный вероятности остановки на наибольшем значении оценки. Таким образом, выигрыш любого правила оказывается не числом, как в рассматривавшихся ранее задачах оптимальной остановки, а функцией неизвестного параметра. Это обстоятельство обусловливает необходимость введения принципа, по которому можно было бы сравнивать различные правила остановки. Предположим дополнительно, что параметрическое множество Θ является открытым подмножеством некоторого евклидова пространства. При байесовском подходе параметр θ рассматривается как случайная величина со значениями в Θ и известной функцией распределения Ф, которая называется априорным распределением. Согласно байесовскому принципу предпочтительными являются те правила остановки, для которых средний выигрыш Λφ(τ)==$£(θ,τ)<ίΦ(θ) Θ принимает возможно большее значение. Правило остановки τ*, доставляющее максимум Дф (τ), называется байесовским, такое правило существует при любом априорном распределении и может быть найдено обычными методами оптимальной остановки. Другим часто используемым принципом является принцип ми- нимакса, согласно которому всякое правило следует оценивать по выигрышу при наименее благоприятном значении параметра. При таком подходе наиболее предпочтительным является минимаксное правило, для которого значение inf L (θ, τ) максимально. Мини- θ максный подход оправдан в том случае, когда априорное знание 73
0 параметре является весьма неопределенным, хотя иногда его целесообразность признают лишь самые неисправимые пессимисты. В задачах, к которым мы теперь переходим, оба принципа тесно связаны. 2.7.2. Пусть ί/χ, . . ., Un и W — случайные величины, совместное распределение которых обладает следующими свойствами. Случайная величина W принимает значения в пространстве параметров θ и имеет функцию распределения Φ с плотностью <р0. Далее, при фиксированном значении W = θ случайные величины J7lf . . ., Un независимы и одинаково распределены с общей функцией распределения Fq, которая имеет плотность / (· | Θ). Таким образом, плотность условного совместного распределения случайных величин £/х, . . ., Un при заданном значении W = θ есть произведение / (иг\ Θ) . . . / (ип\ Θ), а безусловная плотность совместного распределения есть /Κ...^η) = $/Κ|θ).../Κ|θ)φ0(θ)ίίθ, (2.63) е для всякого η = 1, . . ., N. Из теоремы Байеса следует, что плотность условного распределения случайной величины W при заданных значениях Ux = иу, . . ., Un = ип выражается формулой ,т , /("ι|θ)..·/("η|θ)φο(θ) φ(ΘΚ....**) = /Κ...,„η) · если знаменатель не обращается в нуль. Для семейства распределений Fq роль индекса играют возможные значения случайной величины W, поэтому она называется параметром семейства. Говорят, что плотность φ (θ | ии . . ., ип) задает апостериорное распределение параметра после η наблюдений. С байесовской точки зрения апостериорное распределение содержит всю информацию, которой мы располагаем после η наблюдений. В частности, плотность условного распределения J7n+i равна / (Ип+11 Hi,.. . , ип) = $ / (ия+1 | θ) φ (θ I uu . .., ип) т. (2.64) θ Сравнивая (2.63) с (2.64) можно сказать, что апостериорное распределение после η наблюдений играет такую же роль, как и априорное распределение до начала наблюдений. Рассмотрим семейство Πχ равномерных распределений на интервале (О, Θ). В этом случае θ совпадает с множеством положительных чисел, и Fq имеет плотность / (и | θ) = θ*1/ {0 < и < < Θ}. Предположим, что параметр W этого семейства имеет априорное распределение Φ с плотностью φ0 (θ) = π (θ; Λ0, α), гдеЛ0 > 0, α > 0 и если θ > h0 π (θ; Λ0, α) = \ θα+1 .0, в противном случае. 74
Такое распределение называется распределением Парето, выбор его в качестве априорного распределения особенно удобен тем, что апостериорное распределение также является распределением Парето, а именно φ (θ I и1э . . ., un) = π (θ; Λη, α + η), где hn = max (hQ, иъ . . ., un). В этих предположениях пересчет апостериорного распределения сводится к нахождению максимума наблюденных значений. Для каждого правила остановки τ (и) определим средний выигрыш Λφ(τ)=$ Ζ/(θ,τ)<ρ0(θ)<ίθ, /ΙΟ где θ L' (θ, τ) = \ .. . \ I\{ux = max (h0, uv ..., uN)} χ о о X —5v" dut... duN. (2.65) Следует обратить внимание на то, что U (θ, τ) отличается от L (θ, τ) в формуле (2.62). Критерий V (θ, τ) отвечает задаче минимизации вероятности остановки на оценке, которая больше других оценок и, кроме того, больше hQ. Формула (2.64) при положительных иг, . . ., un+i принимает следующий вид: /(Ип+11 Μι,..., ия) = \ -Q-/ {ип+1 < θ} π (θ; Αη, α + η)άβ = Ы [ } α + η \ 1 ^ 7 H« + , + ljT^-. еслиМп<А„, /« + » \ Cn ^. (2·66) Положим #n = max (Λ0, С/х, . . ., ί/η), из формулы (2.66) получаем Ρ (ϋΜ = Нп+1 | fflt..., ffn> = α + * + 1 . (2.67) Подобным образом вычисляя совместную плотность / (ип+и . . . . . ., их | гг2, . . ., ип) получаем Qn = V{Un=HN\U1,...,Un) = -£±%-I{Un = Hn). (2.68) Нахождение байесовского правила τ* равносильно решению задачи оптимальной остановки стохастической последовательности {Qn, fn}, где σ-алгебра fn порождена ί/χ, . . ., Un. В этой задаче не имеет места случай независимых наблюдений, однако 75
решение полностью аналогично классической задаче. Действительно, уравнения обратной индукции таковы yN*=QN, yN = msix(Qn,M(yn+1\fn)), п=«1,...,ЛГ—1. При η = Ν — 1 из формул (2.67) и (2.68) получаем Μ (γ* Ι fN-i) = M(QN\ ί^-ι) = -j^pvT · Пусть при некотором п < Ν — 1 случайная величина Μ (γη+ι| I fn) равна константе vn+u тогда Μ (Υη |fn-i) = Μ (max (Qn, vn+i) \ fn-i) = vn^ {Un < Hn \ fn) + + max (|±j,, Vn+i) Ρ {# η = #n I fn) = α + л —1 1 / α + л \ = £Т7Г— ""« + 1Г+7Г max (Т+Ж · Ή · поэтому Μ (γη Ι frn-ΐ) также является константой. Таким образом, при всех η = 1, . . ., N имеем Μ (γη+1 | fn) = vn+1, причем vN = 1/(α + Ν), νη = Μ max (νηη, Qn) = α^~ νηΗ + + irbrmax('£f^' "*«) · (2·69) Отсюда непосредственно вытекает, что байесовским правилом остановки является τ* = min{n | η > da, Un = #n}, где порог da равен наименьшему η такому, что (а + п)/(а + N) J> > yn+i. Если а является целым числом, то рассматриваемая байесовская задача имеет то же решение, что и классическая задача с α + Ν вариантами и дополнительным требованием о пропуске первых α вариантов, поэтому da = max (1, d* — α), где α = = 1,2,... и d* = d* (α + TV) — порог в классической задаче. Нетрудно видеть, что Ρ {Ην = max ({7lf . . ., Un)} -* 1 при Ν —> oo. Отсюда получаем два следствия: во-первых, Дф (τ*) —> -> β"1, так как разность ϋ'φ (τ*) и Вф (τ*) стремится к нулю. Во- вторых, правило td*, где d* = d* (iV) — оптимальное значение порога в классической задаче с N вариантами, оказывается асимптотически, байесовским и в задаче с критерием Дф (τ). Из сказанного несложно вывести, что правило Td* является асимптотически минимаксным относительно L (θ, τ). В самом деле, для любого τ и е ^> О при всех достаточно больших N inf L (θ, τ) <fo (θ, τ) άΦ (θ) < sup Яф (τ) < Ηφ (τά*) + ε < έΓι + ε. θ θ τ С другой стороны, L (θ, Td*) не зависит от θ, так как правило Td* основывается только на относительных рангах, и L (Θ, Td*) —> —> β?1 при iV —> oo. Следовательно, для всех достаточно боль- 76
ШИХ -/У supinf £(θ, τ)<ιηί£(θ, rd*) + β. τ θ θ 2.7.3. Правило остановки τ<ι* из классической задачи является не только асимптотическим минимаксным для семейства распределений П1э но и минимаксным при любом N. Таким образом, для этого или любого более широкого семейства распределений (например, для семейства всех равномерных распределений или для семейства всех непрерывных распределений) наблюдение оценок дополнительно ничего не дает, по сравнению с наблюдением только относительных рангов. Оставшаяся часть этого параграфа посвящена доказательству минимаксности т<**. Важное место в теории статистических решений занимает принцип инвариантности. Говоря нестрого, этот принцип утверждает, что если задача сохраняет вид при определенных преобразованиях переменных, то и решение должно быть инвариантным относительно этих преобразований. В нашем случае в произведении пространства параметров и пространства наблюдений действует мультипликативная группа положительных действительных чисел. Это действие осуществляется по простой формуле gc (θ, u) = = (с9, cu). Существенная особенность семейства Пх состоит в инвариантности относительно таких растяжений, а именно: -fee (си) = F (и). Кроме того, если un — максимальное значение среди иц . . ., их, то и cun будет максимальным значением среди сих, . . ., cuN, с ^> 0. Отсюда следует свойство инвариантности функции выигрыша, т. е. L (θ, τ) = L (cQ,gc τ), где по определению gc τ (u) = τ (си). Применительно к этой ситуации принцип инвариантности означает, что минимаксное правило можно искать в классе инвариантных правил остановки, для которых gc % = % при всех с ^> 0. Считая принцип инвариантности обоснованным, покажем как из него вытекает минимаксность τ<ι*. Пусть правило τ является инвариантным, тогда его выигрыш не зависит от значения неизвестного параметра. Действительно, L (θ, τ) = L (1, ft/βτ) = L (1, τ). Следовательно, инвариантное правило является минимаксным в том случае, если оно максимизирует L (1, τ) по классу всех инвариантных правил остановки. Значение τ (и) = 1 зависит только от иг, поэтому для инвариантных правил верно одно из двух: либо τ (и) = 1, либо τ (и) ^> 1 для всех и. Выигрыш правила τ (и) = 1 составляет всего лишь АГ1, поэтому его можно исключить из рассмотрения. Для всех остальных инвариантных правил положим μ (и2/и1, ..., uNlux) = τ (1, u2/uly..., un/Ux), (2.70) можно считать μ правилом остановки относительно переменных и2/ии . . ., uN/ult 77
В интеграле ι ι L(l, τ) = у .. }I{ux=max(ui,..., uN)}dux.. ,duN 0 о сделаем замену переменных s2 = и2/иг, · · ·» sjv = un/uv По- скольку ^х/^! = u^.\ux = 5μ, то имеем 1 l/si 1/si L (1, τ) = yii'1 dux j ... ^ / {5μ = max (1, s2, · · ·» 5n)> ds2.. .d^. 0 0 0 Еще одна замена ш = l/ίχ сводит задачу максимизации L (1, τ) по классу инвариантных правил к байесовской задаче остановки: оо W 10 Ζ,(1,τ) = ^-J£-J... ^/{fy = max(l,s2,... ,sN))ds2... dsN=* 10 0 = Λφ(μ). где априорное распределение параметра W есть распределение Парето с плотностью π (w; 1, 1). Как следует из результатов п. 2.7.2, байесовским правилом остановки последовательности наблюдений 52, . . ., 5#, которые распределены равномерно на (0, w), оказывается правило μ*, равное первому η > d* такому, что Sn = max (1, 52, . . ., Sn) (если μ* = /ζ, то выбирается Sn — смещение на 1 по сравнению с п. 2.7.2 происходит из-за того, что нумерация наблюдений начинается с 2). Прообразом при отображении (2.70) правила μ* является правило Td*, поэтому td* — оптимальное инвариантное правило и, следовательно, минимаксное. 2.7.4. Теперь приведем формальное доказательство. Каждой плотности φ, сосредоточенной на положительной полуоси, поставим в соответствие выражение ί(τ|φ) = ξ gcrq)(c)dc, где τ — произвольное правило остановки. Это выражение можно рассматривать как рандомизированное правило остановки: до начала наблюдений моделируется значение с некоторой случайной величины, имеющей распределение с плотностью φ, а затем используется правило gc%. Безотносительно к этой интерпретации можно чисто формально обращаться с $ (τ|φ) по правилам оо £(θ,|(τ|φ)) = $£(θ,*βτ)φ(0Λτ о *«1(т|<р) = 1(*е*|ф). при этом, как нетрудно проверить, свойство инвариантности L(cQ,gcb(x\<p)) = L(Q,b(T\<p)) остается в силе. 78
Определим последовательность плотностей Ф>Н<)=2Т^-Мж<с<м}· Эта последовательность обладает тем свойством, что для любого τ inf lim L(9, θ M->oo В самом деле, inf lim L (θ, $ (τ Ι φΜ)) > inf L (θ, τ). (2.71) θ Μ—οο θ If dc £<(Ьь('*\<Рм)) = ТШГ ) £(θ,£0τ) —= i/м Μ =w S Μ4-Θ>τ)^θinf L(9''T) A 1/M -^r <θ'<Μθ и (2.71) получается при М -*оо. Далее, этот предел не зависит от Θ, что доказывается так lim Ζ,(θ, δ (τ | φΜ)) = lim L(l, gjj (τ | φΜ)) = Μ-»00 Μ-»Ο0 0 Μ = limL(l, $(^1τ|φΜ))= Hm^^ С L(l, £ c τ)-^-= . Μ/θ Μ = lim οΐ „, \ L(l, ?д) —= lim -^—τΓ \ L(l, gcx) — м-*°° θ/м м-*°° i/м где при последнем переходе мы воспользовались тем, что Μ Μ/Θ 1 $ Ц1,,,т)-^- j Ц1,,,т)-*Ц< 2 In M 1/M Θ/Μ 1/M Μ < 2InΛί ( J "T"l+ J ~/ = InM ' Θ/Μ Μ/Θ Введем семейство правил остановки относительно переменных 52 = иг1их, . . ., SN = Wn/W! формулой McW^i»...» Un/u>i) = £V (1, u2fuv ...» uN/u±). С помощью замены переменных и изменения порядка интегрирования получаем ι ι м £(1,|(τ|φΜ)) = $.. ·$(ιΠΗ17 $ ^«V- О О 1/М = max (ии ..., и^)} -y-J <2ггх... аим = 1 1 M/ui О 0 Ui/M 79
1 1/tti 1/ui M/ui 0 0 0 tti/M = max (1, s2,...»sjv)} ——J Ui'1 dui ds2... ds^. Простые аналитические преобразования последнего выражения показывают, что при Μ -* оо Αί ^(1»1(т|фм))~-2Ш1Г J дф(Ис)-^-· 1/М Следовательно, lim Ζ, (1, j (τ | (рм)) < sup ϋφ (μ0) < Дф (μ*) = L(l, Td*). Λί-*οο С В это неравенство с полным правом можно подставить произвольное θ вместо 1, совместно с (2.71) это доказывает, что L (1, td*) ^ > inf L (θ, τ) для любого τ. Следовательно, Xd* — минимаксное θ правило. Комментируя доказательство, отметим, что входе рассуждения по существу был доказан частный случай принципа инвариантности: мы определили последовательность плотностей, которая в определенном смысле задает асимптотически (по М) инвариантное рандомизированное правило. Плотность 1/с задает инвариантную меру на группе положительных чисел. Если бы эта группа была компактной, то интеграл от плотности инвариантной меры был бы конечен, и мы имели бы возможность обойтись без предельного перехода по М. Вторую часть рассуждения можно рассматривать как доказательство того, что в классе инвариантных рандомизированных правил существует оптимальное нерандомизированное правило1 хотя здесь требуются некоторые уточнения.
Глава 3 РАНГОВЫЕ ЗАДАЧИ НАИЛУЧШЕГО ВЫБОРА 3.1. Задача с конечным числом вариантов 3.1.1. Во всех задачах предыдущей главы результат выбора считался удачным только в том случае, если выбранным оказался наилучший вариант. Было показано, что если качество очередного варианта можно охарактеризовать только результатами сравнения этого варианта с предыдущими, то при бесконечном возрастании числа вариантов вероятность удачного выбора асимптотически не превышает е"1 да 0,37, независимо от конкретного вида процесса появления вариантов. Вспоминая о разборчивой невесте, мы заметим, что причиной столь невысоких шансов на удачный выбор оказывается слишком высокая разборчивость нашей невесты, для которой выбор уже второго по качеству варианта равнозначен выбору наихудшего. Пожалуй, даже самая строгая ценительница изменит свою систему предпочтений, когда узнает, что ее запросы можно удовлетворить приблизительно лишь в одном случае из трех, и согласится с тем, что и выбор второго по качеству варианта из большой совокупности не так уж плох. Более широкий класс постановок задач наилучшего выбора исходит из предположения о том, что потери, которые соответствуют выбору того или иного варианта, определяются абсолютным рангом выбранного варианта, причем потери тем больше, чем больше этот ранг. Задачи из предыдущей главы дают совсем простой пример зависимости потерь от абсолютного ранга: потери равны 0, если этот ранг равен 1, и равны 1 во всех остальных случаях (нетрудно понять, что для определяемых таким образом потерь задача минимизации средних потерь эквивалентна задаче максимизации вероятности выбора наилучшего варианта). В общем случае предполагается заданной некоторая неубывающая последовательность q (1), q (2), . . ., которая называется функцией потерь. Удобно считать функцию потерь неотрицательной, тем более, что это не ограничивает общности. Основная постановка задач этой главы такова. Пусть Хх, . . . . . ., Х]у и Yj, . . ., Yjv, соответственно, абсолютные и относительные ранги поступающих в моменты 1, . . ., N вариантов. В момент η мы наблюдаем относительный ранг Υη и должны принять решение о выборе или пропуске n-το варианта только на основании значений Ух, . . ., Уп. Если выбирается и-й вариант, то потери составляют q (Xn). Требуется минимизировать средние потери 81
Mq (Χτ) по классу всех правил остановки последовательности наблюдений Yly . . ., Υχ. Говоря об этой задаче, мы будем пользоваться символической записью (Хп, Q (Хп)У, имея при этом ввиду, что Υη — наблюдаемая в момент η случайная величина, a q (Хп) — потери при остановке в момент п. Не будет лишним напомнить, что относительные ранги независимы, иУпс равной вероятностью принимает любое из значений к = 1, . . ., п. Абсолютный ранг Хп является функцией от Уп, . . ., Yni поэтому величина ожидаемых при остановке в момент η потерь зависит только от Υη. Мы можем, следовательно, по определению положить QUYn)=M(q(Xn)\Y1, ...,Yn). Пусть $Fn — σ-алгебра, порожденная Ylt . . ., Yn. Случайная величина Q% (Yn) является if „-измеримой и для любого правила остановки Mq(Xx)= Σ M(g(Xn)/<T=n,)= Σ M(M(q(Xn) | §n)/{t=„,) = η=1 π=1 = Ι Μ (<?£ (Υη) /(τ=η)) = Μρ£ (τ), π=1 поэтому задача (Υη, q (Хп)У эквивалентна задаче оптимальной остановки стохастической последовательности {—Qn (Υη), &η}ι (знак минус возникает из-за того, что в первой главе задача оптимальной остановки была введена как задача максимизации среднего выигрыша, а теперь мы минимизируем средние потери). 3.1.2. Как и во всех задачах оптимальной остановки конечной последовательности наблюдений, оптимальное правило остановки в задаче <УП, q (Хп)У можно найти методом обратной индукции. Согласно этому методу, оптимальным является правило остановки τ" = min {гс | Q% (Yn) < ι£ι>, (3.1) так как в задаче <УП, q (Хп)У имеет место случай независимых наблюдений. Величина vn есть минимальные средние потери в классе правил остановки τ ^ тг, предписывающих пропуск первых η — 1 вариантов, и рекуррентно вычисляется по формуле vS = Μ min(4, Qn (Yn)), v%+1 = oo, (3.2) причем Mg (*,*) = if есть минимальные средние потери. Мы часто будем называть v% ценой продолжения в задаче <У„, q (Хя)у. Хотелось бы иметь описание оптимального правила остановки более явное, нежели (3.1), типа того, которое мы имели в клас- 82
сической задаче. Для этого требуется установить некоторые свойства монотонности функции ожидаемых потерь Qn (Yn). Эти свойства содержатся в следующей лемме. Лемма 3.1. Для любых η = 1, . . ., N и к = ίχ . . ., η N-n+k i=fc <?« (к) = -J+T Q%+1 (к + 1) + (l - ^А-) Q%+1 (к), (3.4) <?«(*)<<?« (А+ 1), (3.5) Qw(k)<QUk). (3.6) Доказательство. Из определения и двойного неравенства Yn < Хп < N — η + Υη следует, что N-n+k Q%(k) = M(q(Xn)\Yn = k)= Σ q(i)P{Xn = i\Yn = k). i— к Абсолютный ранг л-го варианта при условии, что Υη = Λ, имеет гипергеометрическое распределение, т. е. ■«.-чг.-ч-с^хгж). Действительнов событие, состоящее в том, что Хп = i и Yn = к можно описать так: в случайной выборке объема η из совокупности в N вариантов ровно к — 1 вариантов извлечены из i — 1 вариантов низших рангов, один вариант имеет ранг ι, остальные же η — к вариантов извлечены из множества N — i вариантов высших рангов. Это доказывает (3.3). Если относительный ранг тг-го варианта равен к, то его ранг среди первых лг + 1 вариантов равен к или к + 1 в зависимости от выполнения неравенства Уп+1 > к. Первая возможность осуществляется с вероятностью к/(п + 1), а вторая — с вероятностью 1 — к/(п + 1)» поэтому (3.4) вытекает из формулы полных вероятностей. Для доказательства (3.5) используем индукцию по η от больших значений к меньшим. Ясно, что Qn (к + 1) = q (к + 1) > q (к) = Q% (к). Далее, пусть (3.5) выполняется при некотором η + 1 <^ N и всех & = 1,...,га + 1, тогда из (3.4) получаем Qn(k + i) = ^Ql1(k + 2) + {i-±^-)QUk+l)- = TTT^(A + 2) + (l-TAr)<?Ji,x (* + !) + 83
> -τψτ Я* (* + « + (*- ί£τ) Qnn <*) = QZ (*). т. e. (3.5) справедливо и для п. Перейдем к доказательству (3.6). Из (3.4) и (3.5) получаем <?» (*) = ττγ?™ (к +1) + (ι - -^bp) qL· (к) > Лемма доказана. Неравенство (3.5) означает, что в каждый момент выгоднее выбирать вариант с как можно меньшим относительным рангом. Неравенство (3.6) — что вариант с относительным рангом к выбирать тем выгоднее, чем большее число вариантов пропущено. Цена продолжения νη возрастает по нижнему индексу, поэтому если в какой-то момент оптимальное правило (3.1) предписывает остановку на варианте с относительным рангом А, то это предписание и далее сохраняет силу. Полагая d? = min {n I Q% (к) < i&i), (3.7) мы видим, что (3.1) эквивалентно записывается как τ* = min {η \ η > dyn>, (3.8) где άγ — это случайная величина, равная d^ на множестве \Yn = к}. Неравенство (3.5) позволяет заключить, что di ^d2 <Ξ ... ^d]v = Af. По аналогии с классической задачей будем называть dL , . . . . . ., d$ порогами, а оптимальное правило остановки пороговым. Порог dk — это момент, начиная с которого следует выбирать вариант с относительным рангом к. Итак, мы показали, что оптимальное правило остановки такое: следует пропустить первые d% — 1 вариантов, затем следует выбрать вариант с относительным рангом 1, если только такой вариант появится в один из моментов η = d^, . . ., d2 — 1; если при этом первые df — 1 вариантов оказались пропущенными, то затем следует выбрать вариант с относительным рангом 1 или 2, как только такой вариант появится в один из моментов η = = d^, . . ., df — 1 и т. д. (разумеется, некоторые пороги могут совпадать — тогда мы пропускаем некоторые стадии). 3.1.3. Как можно найти (dx ,. . ., άχ) и ν?? Один из способов— попытаться решить (3.2). Другой возможный способ — минимизировать средние потери как функцию порогов. Пусть άλ ^ . . . . . . ^ djv — набор порогов, определим пороговое правило τ, заменяя в (3.8) d? на dK. Выпишем формулу для величины средних
потерь. Имеем ^fc+l-1 к =dk i^i N a/f+l" -1 =£ £ 4-р«т>я-1>^» w· <3·9) fc=l n=d^ i=l причем, если dk = dfr+1, то соответствующее этому к слагаемое во внешней сумме отсутствует. Событие {τ = η — 1} при dk ^ η < <; dk+i имеет место тогда и только тогда, когда Yt ^> 1 при ί = dx, . . ., d2 — ;i;, . . .; Ff>A; — 1 при ι = dfc-i, . . ., dfr — 1 и, наконец, У{ > /с — 1 при i = dh, . . ., η — 2. Следовательно, fr-l n-l ρ(τ>«-1} = Πρ, Π (ι-4)' где Окончательно, из (3.9) получаем N fr-1 d/£r+l—х n-l fc Мд<х,)«-£(11й)£ (Π(ι-τ))Σ4-<?»(0. ί3·11) и это выражение станет еще более громоздким, если подставить (3.3). Тем не менее, минимизация (3.11) как функции порогов d\i . . ., djv для простых функций потерь может быть более приемлемой с вычислительной точки зрения, нежели решение (3.2). Причина этого заключается в том, что для «достаточно хороших» функций потерь наборы порогов (df, . . ., d$) и (d^+1, . . ., ά^+ι) отличаются мало, и (3.11) нужно вычислять для сравнительно небольшого количества значений (dx, . . ., d^+i), если уже найдены пороги (df, . . ., djv). Напротив, при переходе от N к N + 1 (3.2) требует нового пересчета. Нетрудно показать, что в классической задаче df монотонно возрастает, а остальные порогиd£\ . . ., d$ вообще всегда равные. Что касается монотонности, то в случае произвольной функции потерь пороги могут вести себя самым нерегулярным образом. Почувствовать это можно на таком примере. Пусть функция потерь такова, что q (1) = 0; q (i) = 1, начиная с i = 2 до достаточно большого числа i = Μ, и q (M + 1) очень велико. Таким образом, пока Ν ^ Μ задача эквивалентна классической, поэтому d^/N равно приблизительно е~х и d^ = . . . = d$ = N. Как только N становится равным Μ + 1, то все пороги резко отодвигаются влево, т. <?. затягивать выбор становится рискованно. 85
Совсем иначе обстоит дело с минимальными средними потерями Vi — как в классической задаче, так и в общем случае pf растет с увеличением числа вариантов. Лемма 3.2. Для любого N = 1, 2, . . . v*+1 > yf. Доказательство. Пусть в задаче с N + 1 вариантами заранее известен момент появления наихудшего варианта. Ясно, что наличие дополнительной информации не мешает. С другой стороны, мы приходим к задаче с N вариантами, если пропускаем наихудший вариант. Более формально, пусть в задаче с N + 1 вариантами μ — момент появления наихудшего варианта, т. е. Χμ = N + 1. Рассмотрим класс правил остановки, измеримых относительна последовательности σ-алгебр, $п = 3d (μ, У1э . . ., Υη), η = = 1, . . ., N +1. Можно считать, что правило τ*, оптимальное в этом классе, никогда не равно μ, так как q (Χμ) ^ q (Xn) для всех η = 1, . . ., N + 1. Поскольку &п ZD fni T0 i(*f)<i(V+i). (3·12> Пусть Υχ, . . ., ΥΝ есть последовательность Υ\, . . ., Υν+ι, из которой исключен член Υμ. Нетрудно видеть, что совместное распределение^, . . .,Υν совпадает с совместным распределением Υ\, . . ., Υν (результат сравнений остальных вариантов не зависит от момента появления наихудшего варианта). Следовательно, τ* есть рандомизированное правило остановки в обычной задаче с N вариантами, nq (Xtn) = q (Χχ*)- Вместе с (3.12) это доказывает лемму. Чтобы найти значение предела νλ , можно поступить следующим образом. Запишем (3.2) как разностное уравнение η νξ-νΐι— 4-ΕΛ_(?"{h)Y (ЗЛЗ) с граничным условием N Пусть N —» оо, η —> оо, но так, что η/Ν —> t, тогда гипергеометрическое распределение аппроксимируется отрицательно биномиальным, т. е. Поэтому естественно ожидать, что при сделанных предположениях # (к) -> л* (о т Σ q (о Ск~Л) <* α - о". (з·14) 86
я Vn ~* v (t) (в частности, ν? -» ι; (0)), где ι; (·) является решением дифференциального уравнения оо »Ч')=т-Еи',-Лк('))+ (3,15) fc=l с граничным условием N ν (1) = lim 4" J? q (А) = sup ? (A). Этот факт для ограниченных функций потерь можно доказать чисто аналитически, рассматривая (3.13) как разностную аппроксимацию уравнения (3.15). Для неограниченных функций потерь на этом пути возникает ряд препятствий, связанных со сходимостью (3.14) и с превращением (3.16) в условие ν (1) = оо, которое само по себе не гарантирует единственности решения (3.15). Детали указанного аналитического подхода довольно громоздки и, что самое главное, оставляют в тени интуитивно наглядную вероятностную сторону вопроса. Альтернативный подход состоит в рассмотрении ν (t) как цены продолжения в задаче оптимальной остановки некоторого предельного процесса (для процесса относительных рангов) с непрерывным временем. Предельную задачу оптимальной остановки можно назвать задачей наилучшего выбора с бесконечным числом вариантов, так как аналогия с задачей (¥п> Q (Хп)У достаточно полная. Все предельные соотношения для задачи с конечным числом вариантов находят свое естественное выражение в задаче наилучшего выбора с бесконечным числом вариантов, причем доказательства основных предельных переходов можно получить с помощью введения некоторых промежуточных задач оптимальной остановки. Заметим, что большинство задач предыдущей главы также допускает предельную интерпретацию (по существу, мы уже пользовались ею в п. 2.6), однако в ранговых задачах такой подход особенно важен, так как позволяет прояснить ряд качественных вопросов, которые при аналитическом подходе остаются незамеченными. Например, с аналитической точки зрения совсем неясно, может ли интересующее нас решение (3.15) (т. е. то, которое является пределом Vn) быть бесконечным при некоторых t Φ 1 и конечным при остальных ί < 1, а вероятностное решение этого вопроса (отрицательное) оказывается совсем простым (теорема 3.2). 3.2. Задача с бесконечным числом вариантов 3.2.1. В ранговых задачах наилучшего выбора с наблюдаемой последовательностью вариантов связываются векторы X = = (Х1э . . ., ΧΝ) и Τ = (7\, . . ., ΤΝ), где Хп есть абсолютный ранг появившегося в момент η варианта, а Тк есть момент появ- (3.16) 87
ления варианта с абсолютным рангом к. Между Τ и X имеется простое соответствие: Тк = η тогда и только тогда, когда Хп = к. Правило перехода от одного вектора к другому является операцией взятия обратного элемента в группе перестановок чисел 1, . . ., Ν, т. е. Τ = χ-ι, Χ = Τ""1. (3.17) В основу вероятностной модели можно положить как X, так и Т, считая все Ν\ значений одного из этих векторов равновозмож- ными элементарными исходами и определяя другой вектор по правилу (3.17). Иными словами, все изучаемые случайные величины можно рассматривать как функции либо X, либо Т. В частности, вектор относительных рангов Υ = (Y\, . . ., YN) можно определить как через X: Yn = card {к | 1 < к < и, Хк < Хп), (3.18) так и через Т: Yn = card {к | 1 < к < i, Тк < Г,}, где Tt = л, а символ card обозначает мощность множества. Пожалуй, в задаче <УП, q (Хп)У с конечным числом вариантов удобнее иметь дело с зависимостью Υ (X), но именно зависимость Υ (Τ) обобщается на случай бесконечного числа вариантов. Предположим теперь, что компоненты вектора Τ являются независимыми равномерно распределенными на единичном интервале случайными величинами. Относительные ранги, определенные формулой (3.18), имеют то же совместное распределение, что и в случае, когда Τ есть перестановка. Следовательно, в задаче <УП, q (Хп)У в качестве пространства элементарных исходов можно взять iV-мерный единичный куб с равномерным распределением вероятностей. При этом (3.17) следует понимать как Τχη = Τ(η), (3.19) где Т(П) — n-я порядковая статистика вектора Т, т. е. Гц) < Г(2) < . . . < Г(#) — упорядоченный по возрастанию набор (7\, . . ., Τ ν) (неравенства строгие в силу того, что вероятность совпадения некоторых компонент Τ равна нулю). Новое пространство является более «богатым» и позволяет сформулировать рандомизированную модификацию задачи <УП, q (Хп)У, в которой временной параметр пробегает единичный интервал, т. е. время непрерывно. В рандомизированной задаче предполагается, что в каждый момент t известны моменты Τ% <^ t появления уже наблюденных вариантов и результаты их сравнения, и что решение о выборе какого-либо варианта может приниматься только в момент его появления. Для дальнейшего существенно, что наличие указанной информации равносильно знанию в каждый момент t момента появления лучшего на (0, t] варианта, второго по качеству и т. д. В рандомизированной задаче мы располагаем большей информацией, нежели в задаче <УП, g(Xn)>, 88
но она является избыточной, так как наши потери зависят только от абсолютного ранга выбранного варианта и не зависят от момента его появления. Обе задачи эквивалентны, и оптимальное .правило остановки зависит только от Y. Несмотря на эквивалентность при каждом фиксированном iV, только рандомизированная задача позволяет положить N = со. Причина такого различия заключается в строении пространства элементарных исходов. Если под Τ = (7\, Г2, . . .) понимать перестановку натурального ряда, то на множестве таких Τ нельзя определить вероятностную меру, которая была бьГинвариантной относительно перестановок компонент Т* (это свойство требуется как естественная формализация условия «варианты появляются в случайном порядке»). Напротив, если под Τ понимать точку бесконечномерного единичного куба, то таким свойством обладает мера Лебега. Заметим, что предположение о равномерном распределении Тп не ограничивает общности. Коль скоро мы считаем случайные величины Тп наблюдаемыми, то случай произвольного непрерывного распределения F сводится к случаю равномерного распределения с помощью замены времени t —> F {t). От условия непрерывности F отказаться нельзя, так как это привело бы к ненулевой вероятности совпадения компонент Т, и определение (3.19) стало бы некорректным. 3.2.2. Перейдем к формальной постановке задачи с бесконечным числом вариантов. В основу вероятностной модели мы положим последовательность Τ = (7\, Г2, . . .) независимых, равномерно распределенных на единичном интервале случайных величин, все остальные случайные величины будут функциями вектора Т. Мы интерпретируем Тп как момент появления варианта, имеющего абсолютный ранг η среди счетного множества упорядоченных по качеству вариантов. Для каждого t е= (0, 1] положим Кг (0 = min {n I Tn < f}, Kw (t) = min {n>Kt (t) | Γη< < 0. (3.20) zt (t) = τκ. (o, и К (t) = (К, (f), K2 (f), . . .), Ζ (t) = (Z± (f), Z2 (f), . . .). Таким образом, Κι (t) и Zt (t) являются, соответственно, абсолютным рангом и моментом появления варианта, i-ro по качеству среди поступивших на (0, t] вариантов. Векторы К (t) и Ζ (t) независимы, и компоненты Ζ (t) являются независимыми, равномерно распре- * Предположим, что такая мера Ρ существует, тогда все Ап = {Τ | Тп = 1} должны быть равновероятными, так как Ап получается из Ах перестановкой 1-й и п-й компонент. Вместе с тем ΣΡ (Ап) = 1, поэтому найдется η такое, что Ρ (Ап) > 0. Следовательно, Ρ (Ап) = Ρ (Аг) > 0 для всех п. Последнее невозможно, так как нельзя разбить 1 на счетное число равных слагаемых. 89
деленными на (0, t] случайными величинами (это известные свойства выборок из равномерного распределения). Если s < t, то Ζ (s) является функцией Ζ (t) — чтобы убедиться в этом, нужно в определениях (3.20) заменить Тп на Zn (t)9 Положим ^ί=*5Β(Ζ(ί)), 0<*<1. Семейство σ-алгебр ft является возрастающим и непрерывным справа, т. е. t>s причем Вектор Ζ (t) содержит в себе всю информацию, которую можно получить в результате сравнения всех вариантов, поступивших к моменту £, поэтому потребуем, чтобы решение о выборе варианта в момент t зависело исключительно от Ζ (t). В соответствии со сказанным, в качестве способов выбора мы будем рассматривать класс 9R правил остановки τ = τ (Τ) таких, что 0<τ<1; {T<i}6fi, *<1; τ (Τ) <={1, Тъ Г2,...}. Если τ = Гп, то выбирается вариант с абсолютным рангом п, потери при этом составляют q (n), где функция потерь q (·) неотрицательна и не убывает. Если τ = 1, то все варианты оказываются пропущенными, потери при этом полагаются равными q (оо) = sup q (n). def Для абсолютных и относительных рангов будут использоваться следующие обозначения: Xt = /ζ, если t = Тп\ иУ( = и, если t = Zn (t). Кроме того, удобно положить Хх = Υλ = оо. Для каждого правила остановки τ средние потери определяются как Мд(Х,)—Σ <?(>ι)Ρ{τ = Γη> + <ζ(οο)Ρ{τ = 1>. П=1 Задача с бесконечным числом вариантов заключается в минимизации средних потерь. Таким образом, мы хотим найти инфимум ν = inf Щ (Хх) def ж * V τ; и оптимальное правило остановки. Часто, имея в виду эту задачу, мы будем пользоваться обозначением <уи q (Xt)y. Наши дальнейшие рассмотрения покажут, что такая запись вполне обоснована. 3.2.3. До сих пор мы не занимались вопросами оптимальной остановки процессов с непрерывным временем, у нас и теперь нет необходимости в изложении общей теории. Мы .покажем, что 90
в рассматриваемой задаче имеет место непрерывный аналог случая независимых наблюдений, т. е. цена продолжения V(i)-essintM(?(XT)|^). аег gj^ где инфимум берется по классу 9К^ правил остановки τ > t, является (почти наверное) константой ν (t) и достигается за счет правил, не зависящих от ft. В задаче с конечным числом вариантов аналогичное свойство было прямым следствием независимости относительных рангов, теперь же оно требует более тонкого обоснования. Сначала нужно понять, насколько σ-алгебра f t «беднее» fv Для этого мы расширим определения (3.20). Положим для s <C t К$8, t) = min {η \s < Tn < th K& (*, t) = = тт{/г>/^(М)|5<Гп<*}, (3.21) Zi>,'i) = Гк.(8)0, Mt (s, t) = Yz^ty Таким образом, Kt (s, £), Zf (s, t) и Μ\ (s, t) — это, соответственно, (ненаблюдаемый) абсолютный ранг, момент появления и относительный ранг варианта, i-το по качеству среди поступивших на (s, t] вариантов. Пусть К (s, £), Ζ (s, t) и Μ (s, ί) —векторы, состоящие из одноименных компонент. Векторы Ζ (s) и Ζ (5, ί) независимы и каждый из них не зависит от пары (К (s), К (s, ί)). Из определений (3.21) вытекает также независимость Μ (s, t) и Ζ (s). Пусть ^M = ^(Z(M),M(M)), ясно, что σ-алгебры ^ и fs, t независимы. Покажем, что σ- алгебра f t порождена парой σ-алгебр (fsy fs,t)- Для этого достаточно доказать, что Ζ (t) является функцией тройки (Z (s), Z (s, ί)» Μ (5, £)) или, что то же самое, доказать, что эта тройка позволяет сравнить все поступившие к моменту t варианты. В самом деле, Ζ (s) позволяет сравнить все варианты на (0, s]\ Ζ (s, t) позволяет сравнить все варианты на (s, t]\ наконец, результат сравнения варианта, поступившего в момент Zt (s) G: (0, s] с вариантом, поступившим в момент Z7 (s, t) G: (s, ί], определяется неравенством i < Mj (5, ί) — card {k < 7 | Zfr (5, f) < Z7 (s, *)} (3.22) (вычитаемое /с есть число вариантов на (s, ί], лучших поступившего в момент Zj (s, ί) варианта, а вся правая часть (3.22) дает число вариантов на (0, s], лучших указанного варианта). Итак, f t «беднее» f г на σ-алгебру $Ftt x в том смысле, что fx порождена парой (ft, f u x), и σ-алгебры f t и f ti г независимы. Нетрудно видеть, что абсолютный ранг Κι (£, 1) = Χζ^ί,ΐ) έ-го по качеству на (ί, 1] варианта измерим относительно ί^, и, следовательно, не зависит от &\. 91
Положим по определению *» = infMg(XT). щ v(t) = iniMq(Xx), Щ где 9К* есть класс правил остановки τ Ε: 9R*, измеримых относи* тельно iFf.i· Правила τ ΕΞ $ϊ< отвечают тем способам выбора, которые предписывают следить за относительными рангами вариантов после момента in не прийимать во внимание результаты сравнения вариантов до этого момента. Мы покажем, что этот класс достаточно широк, а именно: справедлива следующая теорема. Теорема 3.1. Для любого t ΕΞ (0, 1) у (t) = g (t) = ν (t). Доказательство. Основная идея состоит в представлении произвольного правила из класса SRf в виде рандомизированного правила из класса 9)1** и в использовании независимости ft и ft,i. Мы знаем, что σ-алгебра §х порождается тройкой (Z (г), Ζ (£, 1), Μ (£, 1)), поэтому всякое правило остановки τ Ε: SK* можно считать функцией τ (Ζ (t), Z (J, 1), Μ (J, 1)). Для каждого вектора ζ = (zb ζ2ί . . .) с компонентами ζη ΕΞ (0, t] положим τζ = τ(ζ,Ζ(Μ),Μ(*,1)). Для любого и^> t индикатор /{Т<и> является функцией тройки (Z (*), Ζ (if M)f Μ (ί, и)), поэтому /<tz<u} является функцией пары (Z (£, u), M (£, и)). Следовательно, τζ является правилом остановки из класса 9R* · Поскольку τ = τζ(ο» то для потерь имеем выражение оо ?(ХТ) = 2 ?№(^1))]/{Тад = 2г(М)} + ?(оо)/{Тад=1}, в котором Κι (£, 1) и Zi (ty 1) не зависят от Ζ (£). Из свойств условных математических ожиданий теперь следует, что М (q (Χτ) ΙΖ (<) = ζ) = Д 9 (ЛГ{ (ί, 1)) Ρ <τζ = Ζ, (ί, 1)} + + q(°o)P{xzS=l) = Mq(XXz). Из того, что τ 6= SR* и последней формулы вытекает, что на множестве {Ζ (ί) = ζ} M(q(Xx)\ft)>V(t), а по произволу τ получаем γ (ί) > ι; (£)· Обратные неравенства ν (t) ^ g (t) ^ Μγ (ί) следуют из вклю- 92
чения 3Rj ZD 9К* и леммы Фату. Неравенство ν (t) Ρ* Μγ (t) вместе с ν (t) «ζ γ (£) дает ν (t) = g (t) = γ (ί). Теорема доказана. Множество {τ ^> t} является #\-измеримым, поэтому из определения у (t) вытекает неравенство M(q(Xx)I{x>i)\ft)>y(t)I{x>th которое по теореме 3.1 равносильно неравенству М(д (Хх)/{т>|;\ft)>v(t)Iit>t). (3.22) Это означает, что если какое-нибудь правило предписывает пропустить все варианты на (0, t], то ожидаемые при этом потери не меньше ν (t). Ясно, что 3Re ZD ЭД* при s < t, поэтому ν (t) не убывает. Следовательно, если ν (s) = оо, то и ν (t) = оо при t ^> s; но априори неясно, может ν (t) быть бесконечным при одних t Φ 1 и конечным при других t. Следующая теорема дает отрицательный ответ. Теорема 3.2. Если ν < оо, то ν (t) < оо для всех t ΕΞ €= [0, i); если же ν = оо, то v(t) = оо. Доказательство. Определим 5 как супремум значений £, для которых ν (t) конечно. Пусть e<s, тогда ν (s — ε) < оо, и, следовательно, существует τ €Ξ 3Rs-e такое, что Mq (Χτ) < оо. Из (3.22) следует, что вероятность событий {τ > s) равна нулю, так как в противном случае средние потери τ были бы бесконечна велики. Определим правило остановки σ (Ζ (1 - 5, 1)) = τ (Ζ' (*)) + 1-5, где Z\ (s) = Zi (1 — 5, 1) — 1 + s. Это определение корректно в силу того, что τ можно считать функцией вектора Ζ (5), a Ζ' (5) принимает те же значения, что и Ζ (s). Можно сказать, что σ действует как τ применительно к вариантам на (1 — е, 1] и не зависит от сравнений до момента 1 — ε, т. е. σ£ $?ι-ε» причем σ < 1. Более того, Μ? (Χτ) = Σ Μ (? (^ (5)) Ι τ (Ζ (5)) = Zi (s)) Ρ{τ = Ζ{ (s)} = = Σ Μ (? (Я, (1 - s, 1» | τ (Ζ' (*)) = Ζ\ (,)) Ρ {τ = Ζ\ (*)} = i=l = |ιΜ(^(ί:ί(1-5,1))|σ=Ζί(1-5,1))Ρ{σ = = Z1(l-*,l)> = Mff(*a), где мы воспользовались тем, что пары (К (5), Ζ (s)) и (К (1 — 5, 1), Z' (s)) имеют одинаковое совместное распределение. Следовательно, ν (1 — е) < Μ? (Χσ) < оо, откуда по произволу ε следует, что 5 = 1. Вторая часть утверждения тривиальна. Теорема доказана. 3.2.4. Теперь ответим на вопрос — какова величина ожидаемых в момент t потерь при выборе ι-го по качеству на (0, t] вариан- 93
та? Нетрудно видеть, что случайная величина Kt (t) имеет отрицательно биномиальное распределение. Действительно, событие {Кi (t) = &}, i ^ к, имеет место тогда и только тогда, когда Th ^ t и еще i — 1 штук Tj из Ти . . ., 7Vi попадают на (0, t], а остальные к — г штук Tj попадают на (г, 1], поэтому Ρ {Κ, (ί)= к) =(f~ J) ί* (1 — *)*-*. По определению Xz^t) = Ki (t), так что независимость К (t) и Ζ (t) дает Μ (? (Χζ.(,}) I ft) = M<? (*, (*)) = Дi (*), (3.23) где Ri (t) определяется формулой <x> Д« (*) - ^ Я (*) (f Г J) <* (1 - Ψ-1· (3.24) Соотношение (3.23) показывает, что Rt (t) и есть искомая величина потерь, ожидаемых в момент t при выборе варианта с относительным рангом i. Наряду с ν (·), функции Rt (·) играют центральную роль в решении задачи наилучшего выбора. Ряд свойств этих функций легко доказывается, исходя из определения и известных теорем анализа: 1) если Ri (t) < оо, то Ri (·) сходится равномерно на U, 1); 2) внутри круга сходимости R'(t) <^ 0, неравенство всегда строгое, если только q (i) Φ q (oo); 3) Ri (t) I q (i) при t | 1, если радиус сходимости ненулевой; 4) если Rx (s) < оо, то Rt (t) < оо для всех i и iEk, 1); 5) Ri (t) t q (оо) при i f oo; 6) Ri(t) | ff(oo) при t I 0; 7) если Ri+1(t) <oo, то Rt (t) < Ri+l (t), кроме случая Я (0 = Я. (оо), когда имеется равенство; 8) если q (Μ) = q (oo), то все Rt (·) — многочлены; 9) если 2q (к) tk < оо при всех t S Ю, 1), то Rt (t) < oo при i = 1, 2, . . .. В соответствии с 5) положим /?«> (1) = q (oo). Следующая лемма обобщает (3.23) для случайных моментов времени, т. е. ожидаемые при остановке в случайный момент τ потери составляют Ry% (τ). Пусть fT есть σ-алгебра событий A f для которых Α Π {τ< ί}Ε f< для всех t. Под ^τ можно понимать совокупность событий, наблюдаемых до случайного момента τ. Лемма 3.4. Если Mq (Χτ) < оо, то Μ (q (Χτ) \ fT) = Д γτ (τ). Доказательство. Разобьем (0, 1] на 2Ν равных полуинтервалов Cfn = ((я— 1)/2Ν, ηβΝ\ и положим Υ'η и Х'п равными, соответственно, относительному и абсолютному рангу наилучшего на Уп варианта. Определим правило остановки τ#, принимающее значения η/2Ν и измеримое относительно <F1/2n, f2/2N, · · ·» fi, «94
условием При каждом элементарном исходе ω £Е {τ < 1} значение τ (ω) является моментом появления наилучшего варианта в достаточна малой окрестности τ (ω). Следовательно, на множестве {τ < 1} имеется монотонная сходимость ΧτΝ \ Χτ, ΥτΝ f Υτ. Вместе с тем на множестве {τ = 1} сходимость также имеется, так как Χ'τΝϊ оо, Υ'τΝ f oo на этом множестве. Из тогог что τ#|τ и непрерывности справа семейства {ft} вытекает ([20], стр. 36) Ρτ = Π frN- Ν Из монотонности q (·) и свойств 2) и 7) функций Л,- (·) получаем q(X'TN) f q(Xx), R . Ы f /?γτ(τ). В силу (3.23) имеем Μ (q (Χ'τΝ) | fTN) = ^ Μ (q (X;N) | f η/2*) /<τ„=η/2"> = π=1 2* Пусть Α — произвольное событие из #ч, тогда Л Е= 5" τΝΓ при всех iV. Следовательно, $<7(X;„)dP = $ Я . (TN)dP, Α Α τΝ а по теореме о монотонной сходимости $g(XT)dP = $ RYx(x)dP. А А По произволу А отсюда получаем Μ (q (XT)\fT) = Λγτ(τ). Лем- ма доказана. Согласно этой лемме при остановке в момент τ = t ожидаемые потери всегда не меньше R1 (t). Положим δχ равным супремуму тех значений t, для которых Rx (t) > v (t). Интуитивно ясно, что до момента бх останавливаться не следует даже на относительно лучшем варианте, т. е. когда Υt = 1, а после δχ выбор относительно лучшего варианта становится более выгодным, нежели продолжение. Каким может быть значение δχ? Предположим, что 6t = 0. Тогда для любых s < t имеем при s I 0 v(t)>v(s)^>R1(s) ί ?(оо). 95
Правило τ = 1 содержится в любом из классов $!tt, поэтому ν (t) ^ q (оо). Следовательно, ν (t) = g (00). В случае g (оо) < оо рассмотрим правило остановки inf{i>4-|y'=1}; 1, если это множество пусто. \ Если наилучший вариант попал на (-к-, 1), а второй по качеству— 1 на (0, у), то Χτ = 1. Поэтому Ρ {*τ = 1} > Ρ (Τ2 < Vi, 74 > V.) = V4, Mg(XT)<^-g(l)+-|-g(oo)<g(oo), причем равенство возможно только когда q (1) = q (оо), т. е. q (i) = q (оо). Но если функция потерь постоянна, то R± (t) == == <7 (оо) = ν (t) и бх = 1. Это противоречит предположению, и, значит, при ограниченной функции потерь δχ Φ 0. Рассмотрим теперь случай q (оо) = оо. В этом случае при сделанном предположении ν (t) == оо и Дх (t) < оо при всех t ΕΞ (0, 1], т. е. 6Х = 0 лежит на границе круга сходимости Л ι (·) (центр этого круга находится в 1). Далее мы покажем (следствие теоремы 3.10), что верно более общее утверждение: если радиус круга сходимости i?i (·) меньше 1, то ν (t) == оо и, следовательно, 6Х лежит опять-таки на границе этого круга. Рассмотрим другой крайний случай — 6Х = 1. Если ν = оо, то ν (t) = ΐ?χ (t) == оо при всех 16Ξ (0, 1). Верно и обратное: если Вг (t) = оо при t ΕΞ (0, 1), то q (оо) = оо и для всех τ по лемме 3.4 Μ^(Χτ)>Μ(/?1(τ)/{τ<1>) + ^(οο)Ρ{τ=1}=οο, откуда ν (t) = оо. Следовательно, если ν < оо, то радиус сходимости i?i(·) ненулевой, а поскольку при t | 1 ι; (*) > Μ? (#ι (1 - f, 1)) = Μ? (#ι (f)) f q (oo), то предположение бх = 1 дает (по свойству 3)) д (1) = lim Rx (t) > lim v (t) = q (oo), Hi Mi поэтому q (i) = g (oo). Таким образом, δχ равно 0 или 1 только в патологическом или тривиальном случаях. Если их исключить, то справедлива следующая теорема. Теорема 3.3. Если ν < оо и функция потерь непостоянна, то 0 < δχ < 1 м ι? (£) = ν при всех t ΕΞ [0, 8г). Доказательство. О первой части утверждения теоремы говорилось выше. Чтобы доказать вторую часть, возьмем 0 <^ s < t < 6t и правило остановки τ е 3Re. По лемме 3.4 и в силу монотонно- 36 т =
сти i?i (·) и неравенства Rl (и) < Rt (и) имеем Μ (q (Χτ) I{x<t)) = Μ (RYτ (τ) /{τ<ί}) > Μ (/?ι (τ) /{τ<η) > > Λι (*) Ρ {τ < f> > υ (t) Ρ {τ < *}, (3.25) так как £ < 6t и, следовательно, Rt (t) > у (ί)· По теореме 3.1 для любого ε > О найдется правило μ Е= 9Rf (т. е. не зависящее от ft) такое, что Μα (Χμ) — ν(ί)<8. (3.26) Рассмотрим правило остановки принадлежащее $Rt. Из (3.25) и (3.26) получаем Мд (Хр) = Μ (? (Χτ) /{τ>π) + Μ (? (Χμ) /{τ«>) = Μ (q (Χτ) /(r>n) + + Ρ{τ<ί}Μ2(Χμ)<Μ(ϊ(ϊτ)Λτ>ί»)+ "(*)Ρ{τ<*> + ε< < Μ (?(Χτ) /{οη) + Μ(?(Χτ) I{x<t)) +г=МЯ (Χτ) + ε. По произволу ε и τ мы заключаем, что ν (t) <I ν (s). Вместе с обратным неравенством это дает ν (t) = v (s). Теорема доказана. Еще одна лемма понадобится нам при выводе основного дифференциального уравнения, которому удовлетворяет ν (·). Эта лемма утверждает, что если мы задались целью остановиться на каком-нибудь интервале на первом же варианте с относительным рангом не больше г, то в случае успеха относительный ранг выбранного варианта будет с равной вероятностью принимать любое из значений у = 1, . . ., г. Лемма 3.5. Пусть 0 < s < ί <^ 1 и г = 1, 2, .... Положим iinf{rn = (Ml|rrn<r> (1, есш эпь) множество пусто, тогда на множестве {а < i) для всех / = 1, . . ., г Р{^а=Л^Л = 1/г. Доказательство. Пусть Nj — число вариантов на (s, t], которые лучше /-го по качеству, но хуже (/ — 1)-го из вариантов, поступивших на (0, s], т. е. Nj = card {i I Kj-X (s) < Kt (s, t) < K, (s)}, где полагается К0 = 0. Все Nj одинаково распределены и независимы (в этохМ нетрудно убедиться, выразив Nj через Т) и не зависят от fs. Случайный момент σ не зависит от £s и, в силу перестановочности компонент Ζ (s, £), при условии {σ < t) с равной вероятностью принимает любое из значений Zt (s, £), где 1 < i < Nx + . . . + Nr. С равной вероятностью любой из (Νχ + . . . + iVr) лучших на (s, t] вариантов попадается первым, причем если он принад- 4 Заказ JSR 3752 97
лежит множеству в Nj вариантов (лучших /-го, но хуже (j — 1)-го на (0, s)), то Ya = /. Поэтому на множестве ίσ < t) = {Ν, + . . . ...+iVr>0} Ρ {Υα = /|Fe} = M (Ρ {Υΰ = /1 f„ {ΝJ} | fs) = Лемма доказана. 3.2.5. Мы переходим к изложению основных результатов в задаче (Yty q(Xt)y. Сначала мы выведем основное дифференциальное уравнение, а затем докажем оптимальность порогового правила остановки, аналогичного оптимальному правилу в задаче <УП, q (Хп)У с конечным числом вариантов. Теорема 3.4. Если ν < оо, то ν (t) непрерывна на [О, 1) и удовлетворяет дифференциальному уравнению оо ^W—rl^W-fliWr· (3·27) Доказательство. Возьмем 0<5< ί< 1и положим θ равным моменту появления наилучшего на (s, t] варианта. Для любого правила остановки τ из класса 9RS, согласно лемме 3.4t формуле (3.22) и свойствам Rt (·)» получаем Mq (Хх) = ΜΗΥτ (τ) > Μ {ϋΥχ (τ) /{τ<η + ν (t) /{τ>η) > > Μ (RYq (t) /<T<f} + ι; (*) /{τ>η) > Μ min (RYQ (*), ^ (*))· (3.28) Если s ^ t или ί { 5, то Уе t °°» поэтому (свойство 5)) RyQ (t) | | Ϊ (оо). По произволу τ из (3.28) заключаем, что Y\mv(s)^v (J), limι;(ί) ^ ι; (s), а это вместе с неравенством ν (s) <^ v (t) (монотонность ι?(·) доказывает левую и правую непрерывность. По теореме 3.3 ν (t) = ν при iG (0, бх), что согласуется с (3.27) на этом интервале, а также позволяет далее ограничить рассмотрение полуинтервалом [бх, 1). В каждой точке t лишь конечное число Rt (t) меньше ν (£), так как Rt (t) f q (оо) > ν (t) при i \ оо. Пусть это число равно г, покажем, что при s, достаточно близком к £, для всех и е (5, t\ Ri (и) < ι; (и), i = 1, . . ., г. Действительно, поскольку 5 < бь то Дх (s) < v (s) <Z <x> и, следовательно, все Rt (·) сходятся на (бь 1). По непрерывности i?r (s) и ν (s) и монотонности Лг+1 (s) при 5, достаточно близких
к t, Rr+i (s) Ξ> ν (s) и Rr (s) < ν (s), причем последнее неравенство справедливо и для всех Ri (s), i < г (свойство 5)). Пусть σ определено как в лемме 3.5, положим где τ 6Ξ SR* и Mg (Χτ) сколь угодно близко к ι> (£). Из (3.22) и леммы 3.4 получаем V («) < М? (Хр) = Μ (? (Хо) /<σ«) + V (t) I{e>t)) < < Μ (ΗΥσ (s) /,σ<0 + ι; (ί) /{σ>„) = Μ min (Rra (*), у (<)), (3.29) где в первом равенстве подразумевается предельный переход Μ? (Хх) -> ν (t). Событие {Yq = /} происходит тогда и только тогда, когда у-й по качеству вариант, из поступивших к моменту £, попадает на (s, ί], а остальные ; — 1 лучших на (0, t] вариантов попадают на (0, s]. Следовательно, распределение Yq геометрическое, т. е. Ρ {^θ = /} = (*/ί)^1 (1-*/*)· События [Yq ^ г} и {Υσ ^ г} совпадают, поэтому лемма 3.5 дает г Mm\n(RYJs)tv(s))^(l-(s!t)r)y^^Rj(s) + (s/t)rv(t). Но на множестве {σ <^ t) = {Υσ ^ г} случайные моменты θ и σ могут не совпадать лишь в том случае, если (s, t] содержит по меньшей мере два из г лучших на (0, t] вариантов, что происходит с вероятностью порядка ((* - *)/*)2 = о (t - s) так как t > δχ > 0. Отсюда получаем lim (у (ί) — Μ min (Луе (ί), ι; (t)))/(t — s) = =lim (у (ί) - Mmin (RYc (/), у (t)))f(t — s) = =-τΕ(ι,(ί)~^'(ί))+· Из (3.28) следует, что v(t)^Mmm(RYQ(t),v(t)), и вместе с (3.29) это доказывает (3.27) для левой производной ν(·); непрерывность ν (·) гарантирует непрерывность левой производной, что влечет равенство левой и правой производных. Теорема доказана. <* 99
Пусть ν < оо и функция потерь непостоянна. Поскольку J?x (·) сходится на (бх, 1], то при каждом i > 1 существует единственное решение б* уравнения Rt (t) = v (t), причем 0 < δχ < < δ2 < · . . и δ| I 1 при i f оо. Исключение составляет случай q (Μ) = q (оо) при некотором Л/, когда 0 < бх < . . . < бдх = = бм+i = . . . = 1. Порог δι — это момент, начиная с которого выгоднее останавливаться на варианте с относительным рангом iy нежели пропускать его. Порог бх находится пока на особом положении, так как его мы определили как супремум множества t таких, что i?x (t) > v (t). Следовательно, δχ может не удовлетворять равенству ί?χ (δχ) = ν (бх) только в том случае, если бх лежит на границе круга сходимости Дх (·). В действительности эта патология исключается, так как она несовместима с условием конечности ν (теорема 3.10). Определим пороговое правило остановки: ^ = г min {t s {Τη) | RYt (t) < ν (*)} \ 1, если это множество пусто. эквивалентная запись: ^ г min{«e{rn>|t>e7l} \ 1, если это множество пусто. Таким образом, τ* предписывает выбирать вариант с относительным рангом 1, начиная с момента б1э варианты с относительным рангом 2 — начиная с момента б2, и т. д. Правило τ* — это непрерывный аналог оптимального правила из задачи <УП> q (Хп)>. Теорема 3.5. Если ν < оо, то правило остановки τ* является оптимальным. Доказательство. Сначала докажем такое обобщение (3.22): Μ (q (Χΰ) /{σ>τ> Ι £τ) > ν (τ) 1{^τ). (3.30) Для этого возьмем <tN такими, как в лемме 3.4, тогда Tjy | τ и Π ^tjv = $ίχ· В силу (3.22) и монотонности ν (·) имеем Μ (q (Χσ) Ι{σ>τΝ) \ fxN) > V (τΝ) Ι{ο>τΝ) > V (τ) 1{а>Ту}. Пусть А 6Ξ $ч» тогда А е #\Ν для всех N и ξ ? (Χα) Ι{τ>χΝ) dV >ν{τ)\ Ι{σ>τΝ) dP, A A а по теореме о монотонной сходимости ξ q (Χσ) /<σ*τ> dP > V (τ) ξ /{σ>τ} <Η\ Α Α что и доказывает (3.30). 100
По определению τ* и лемме 3.4 М (? (Х+) | fr*) = RYxt (τ*) < ι; (τ*). (3.31) Для любого правила остановки τ правило min (τ, τ*) его не хуже, так как ввиду (3.30) и (3.31) Μ (q (Хх) | §τ*) 1{χ>χ*} > ν (τ*) /{τ>τ*> > Μ (q (Χ^) \ &«) /{τ>τ*}. (3.32) Пусть У* = [6fc-i, 6fr), где 60 = 0. На множестве {tgJk, τ<τ*} правило τ выбирает вариант с относительным рангом больше &, поэтому на этом множестве Дгт (τ) > Л* (τ) > Я» (δ») = ρ (6fc). Следовательно, Μ (q (Χτ) Ι §τ) I{xevk, χ<τ*, > ι; (δ*) /<τ^, τ<χ*,, (3.33) т. е. τ может быть улучшено правилом, которое пропускает все варианты на Зк, а затем совпадает с достаточно хорошим правилом из класса 5Кд . Покажем, что для любого правила τ существует при любом к правило ta- G: 9Кб. такое, что правило К К Тк = Х*1{х*^6к} + tbkI{x*>bk) не хуже τ, т. е. Mq (Ххк) < Щ (Χτ). Доказательство будем проводить по индукции. Ясно, что при к = 1 утверждение справедливо, так как ν (δχ) = v. Индуктивный переход будет доказан, если мы построим правило τ^+ι» которое имеет требуемый вид и не хуже τ,. Для этого рассмотрим полную систему событий А = {τ* < τ, < δ*+1>, Β = {δ*+1 < τ* < τ,}, <? = {τ,<δ*+1<τ*}, D = {τ, < τ* < δ*+1}, Ε = {6fr+1 < τ, < τ*}, * = {τ*<δ»+1<τ*>. На множествах Л и оправило τ* в силу (3.32) улучшает правило T/f. На множестве D имеем тк = τ^, поэтому тк можно в силу (3.33) улучшить правилом из класса 9Refc+1» которое больше τ*, и, в свою очередь, в силу (3.32) улучшается правилом τ*. На множестве С имеем τ, = τ^ ΕΞ £fjc+i, поэтому тк в силу (3.33) улучшается некоторым правилом μ ΕΞ ®Чбк+1· Теперь положим τ&+ι = t*/(A \jd и f) + 4h& U Ε) + μ Ι с- Нетрудно видеть, что t/t+i имеет нужный вид, и Mg (Xcfc+1) ^ Возьмем теперь последовательность {тп} правил остановки таких, что Мд (Хх ) -+ v. Согласно доказанному, существуют 101
правилах* такие, что последовательность правил τ* = т*/(х*<бп> + xbJ{x*>6n\ является оптимизирующей, т. е. Мд (X *) -ы;. В силу (3.22) Μ? (Χ *) > ξ ? (Χχ*) ^Ρ + ν (δη) Ρ {τ* > 6η}. (3.34) Покажем, что ν (δη) ->-q (<χ>). Действительно, если τ > ί, то Χτ не превосходит абсолютного ранга наилучшего на (£, 1] варианта, поэтому при t | 1 Мд (Χτ) > Μ? (ΛΓχ (ί, 1)) = Μ? (#ι (1 -ί)) - Дх (1 - ί) ί ? (*>). Если g (сю) = оо, то Ρ {τ* < 1} = 1, и (3.34) дает при η ->-оо Mg(Xx*)<i;, откуда следует оптимальность τ*. В случае ограниченной функции потерь (3.34) дает ι;» ξ g(XT*)dP + g(oo)P{x* = l} = Mg(XT*)i {τ*<ι> поэтому τ* во всех случаях оптимально. Теорема доказана. Замечание 1.В задаче с бесконечным числом вариантов все содержательные результаты связаны с условием ι?<οο. Однако, эта задача важна нам не сама по себе, а лишь как предельная форма задач с конечным числом вариантов. Далее мы покажем, что во всех случаях νΝ | ν (νΝ — минимальные средние потери в задаче <УП, q (Xn)>), но чтобы единообразно описать асимптотическое поведение оптимального правила τ^, нужно определить пороги 6Л и в случае ν = оо. В последнем случае естественно положить все бк равными нулю, хотя такой набор порцгов не отвечает никакому правилу остановки, так как выражение min {t I Yt < оо} не имеет смысла (почти наверное inf {Тп} = = 0). Вообще, случай ν = оо (который мы назвали патологическим) с точки зрения асимптотик в задачах с конечным числом вариантов является значительно более сложным и совсем не исследованным. Замечание 2. Из доказательства теоре*мы 3.5 следует, Что τ* — наименьшее оптимальное правило остановки. 3.3. Предельные соотношения в задаче с конечным числом вариантов 3.3.1. Классическая задача наилучшего выбора — это ранговая задача с функцией потерь ί 0, если i = 1; ^ = (l, если i>l; 102
так как для любого правила остановки Mg(XT) = l-P{Xt = l} и минимизация средних потерь равносильно максимизации вероятности выбора наилучшего варианта. В соответствующей задаче с бесконечным числом вариантов уравнение (3.27) для цены продолжения выглядит особенно просто: »'(') = -f И0-1 + ')+. "(1) = о, и так же просто решается: (1 — е"\ если 0<^<е-1; v® = {l + tliit, если ^<ί<1; иоэтому оптимальное правило такое: [mm{t\t^e'\ Yt = i) [ 1, если это множество пусто, т. е. ν = е"1, бх = е"1, а все остальные пороги 6fc, к ^> 1, равны 1. Мы знаем, что в классической задаче с конечным числом вариантов N оптимальное правило задано порогами (d^, . . ., djy), причем только первый порог не совпадает с N. Сопоставляя сказанное с известными результатами, можно заметить, что в классической задаче vN->v, ai?/N->8k, A = l,2,... при N-+oo. (3.35) Именно в этом смысле задача с бесконечным числом вариантов <Ff, q (Xt)} аппроксимирует задачу с конечным числом вариантов <УП, q (Xn)y. Наша ближайшая цель состоит в доказательстве (3.35) для всех, даже неограниченных, функций потерь, если ι;<οο. Это будет сделано путем введения некоторых промежуточных моделей между задачами <У,, q (Xt)} и <УП, q (Хп)>, которые также естественно интерпретируются, как задачи наилучшего выбора. В действительности будет получен более сильный результат о сходимости цен продолжений, но мы считаем предельные соотношения (3.35) основными. 3.3.2. В п. 3.2 рандомизация задачи <УП, q (Хп)} путем введения случайных моментов наблюдений была связующим звеном между постановками задач <УП, q (Xn)> и (Yt, q (X*)>. Теперь же это звено будет использовано для «вложения» задачи с N вариантами в задачу с бесконечным числом вариантов. Чтобы описать это вложение, рассмотрим следующую модификацию задачи <У,, q (X,)>. Предположим, что в задаче с бесконечным числом вариантов нам дополнительно известны моменты появления N лучших за весь процесс наблюдения вариантов, но неизвестен порядок появления этих вариантов. Иначе говоря, мы знаем, что этими мо- 103
ментами являются Г(1) < Г(2) < . . . < Г(де> (разумеется, это N первых порядковых статистик вектора Т), но не знаем, в какой именно из этих моментов появится наилучший вариант, второй по качеству, и т. д. Для краткости вместо «вариант, появившийся в момент Т(П)Ъ, условимся говорить «вариант αη». Таким образом, в процессе выбора мы в каждый момент t ΕΞ (0, 1) знаем не только результаты сравнений уже поступивших вариантов, но и число Nt вариантов из множества {alt . . ., аде}, которые поступили к этому моменту. Выбор варианта с абсолютным рангом больше N не может быть более выгодным, нежели выбор любого из вариантов alf . . ., аде, так как в первом случае потери но меньше q (Ν + 1)» а во втором — не больше q (N). Поэтому для любого правила остановки τ можно указать не худшее правило τ', которое предписывает выбор только вариантов из {аь . . ., αΝ}. В качестве такого правила можно взять 1Г(П), еслт Γ(η-ΐ) <τ< Γ(η), которое предписывает выбор варианта с абсолютным рангом больше N заменить на выбор следующего по порядку просмотра ап (здесь по определению Г(0) = 0). Таким образом, в модифицированной задаче мы можем искать оптимальный способ выбора (правило остановки) в классе правил, предписывающих выбирать только варианты из множества {аь . . ., αΝ} (т. е. останавливаться только в моменты Г(1), . . ., Г(де)). Но абсолютный ранг варианта αη, определяющий наши потери, зависит только от результатов сравнения вариантов al9 . . ., аде между собой и не зависит от результатов сравнения остальных вариантов, поэтому в момент t = Г(П) достаточно принимать во внимание лишь ранг ап среди аъ . . ., an, равный Yt — относительному рангу ап (среди всех поступивших к моменту t вариантов). Сказанное означает, что модифицированная (знанием Г(1), . . ., T(N)) задача (Yt, q (Xt)y является дальнейшей рандохмизацией задачи (YnJ q (Xn)> — здесь уже не только моменты Тъ . . ., Где случайны, но и добавляется ненужная инфоргиация о сравнениях худших вариантов. Всякое правило остановки в задаче <УП, q (Xn)} можно рассматривать применительно к выбору одного из вариантов аг, . . ., аде, причем средние потери оказываются теми же. Более того, оптимальное правило в «рандомизированной в квадрате» задаче получается таким способом из оптимального правила в задаче (Yn, q (Xn)}. Говоря формально, мы в задаче с бесконечным числом вариантов расширяем класс правил остановки до класса правил, измеримых относительно σ-алгебр &t = S3(Z(t),Tv,...,Tm)t где (Г(1), . . ., Γ(Ν)) — упорядоченный по возрастанию набор (Ти · · ·» Где). Напомним, что Zi (t) — момент появления варианта, i-ro по качеству к моменту t, а Tt — мохмент появления варианта с 104
абсолютным рангом г: Г,- = Z* (1). «Считающий процесс» определяется как Nt = card {i < Ν Ι Tt < t). В наших прежних обозначениях, (?^ (Yn) и у^[+1 — соответственно* ожидаемые при выборе п-то варианта потери и цена продолжения в задаче <УП, q (Хп)>, а τ* = min {n \ Q„ (Yn) < υζ+1) — оптимальное правило остановки (3.1). В модифицированной задаче <Уг% q(Xt)y, следовательно, оптимальным правилом является ΐΝ = min {Tin) I ρ* (УТ(я)) < vlj = min {i | Q%t (Yt) < 4t+ib поэтому роль цены продолжения в момент t здесь играет случайная величина vNt+1. Следовательно, если Nt = /ι, то минимальные средние потери при продолжении процесса выбора за момент I составляют ι^+1, и никакое правило τ е ЗК* из ^модифицированной задачи (Yt, q (Xt)} не может эти потери уменьшить. Что можно извлечь из этой конструкции? Первое важное следствие — это неравенство v^ <^ v. Доказательство тривиально: поскольку NQ == 0, то ν? = ι;$ο+1 ^ ν (0) = v. Было бы очень заманчиво так же доказать неравенство νη *ζ ν ((и— 1)/ЛГ) при остальных га ^ 1, но ситуацию усложняет то обстоятельство, что Nt при t = (η — ί)/Ν может принимать любое из значений 1, . .., N. Тем не менее, при больших iV, и nlN% близких к £, Nf/N «мало уклоняется» от t. На этой идее основывается доказательство следующей леммы. Лемма 3.6. Для любого t ев (0, 1) lim sup Vn <^ v (t). nlN-*t Доказательство. По определению Nt есть число Τ % <^ t, i = 1, . . ., iV, где Тъ . . ., Τ χ — независимые равномерно распределенные на единичном интервале случайные величины. Следовательно, Nt имеет биномиальное распределение с параметрами (N, £), т. е. распределение числа успехов в серии N независимых испытаний с вероятностью успеха t. Нам потребуется следующий известный результат [32] о вероятностях больших уклонений: для любого ε ^> 0 sup Ρ{|Λ7, — UN t\> Υ N In Ν) = О (ί/(γ N In N)). (3.36) ε<ί<ι-ε На множестве {Nt = τη) цена продолжения в модифицированной задаче (Yt, q (Х*)> равна у^+1, поэтому для любого t £= (0, 1) Vm+\I{Nt=m} <^ V (t) I{Nf=m). Если m > л, то 4> ι>™, поэтому переходя к математическим ожиданиям и суммируя по m от m = η до τη = η + 2Δ, где Δ еще подлежит определению, получаем ^η Ρ {Nt е (я, и + 2Δ)} < ι; (ί) Ρ {Л, е (л. η + 2Δ)} < ι; (*). 105
Теперь возьмем t = η/Ν + (In Ν)/γΝ9 Δ = γ Ν 1η Ν. Поскольку MNt = η + γ Ν 1η Ν, το (3.36) дает vS(l—0 (ί/γΝ In Ν)) < ν (η/Ν + (1η Ν)/γΝ). При /г/iV -> £ получаем требуемое неравенство. Лемма доказана. 3.3.3. Доказательство обратного неравенства требует более значительных усилий, но при этом будут введены в рассмотрение новые задачи наилучшего выбора, представляющие и самостоятельный интерес. Одна из основных черт задачи (Yt, q (Xt)y состоит в запрещении .возврата к однажды отвергнутым вариантам. В двух следующих задачах это ограничение отчасти снимается. Разобьем весь интервал наблюдения на N равных полуинтервалов Cfn—((n—ί)/Ν, η/TV], η = 1, . . ., N. Пусть tn — момент появления наилучшего на С/п варианта, который мы назовем «вариантом Ьп». Ясно, что если в момент t £= £fn считать доступным для выбора любой из вариантов, появившихся за временной промежуток Jn, то серьезного внимания заслуживает только вариант Ъп в том смысле, что потери нельзя уменьшить путеАм выбора любого другого варианта на £fn. В задаче с конечной памятью и частичным возвратом решение о выборе Ъп может быть основано только на_результатах сравнения вариантов Ьи ..., Ъп между собой. Пусть Учесть ранг Ъп среди Ъи . . ., Ьп\ Хп — ранг Ъп среди 61э . . ., bN; Хп — ранг Ъп среди всех вариантов, поступивших на (0, 1). В этих переменных задача с конечной памятью будет обозначаться как <УП, q (Xn)>. В задаче с полной памятью и частичным возвратом решение о выборе Ъп может быть основано на результатах сравнения всех поступивших на (0, η/Ν] вариантов. Полагая У п равным рангу Ъп среди всех вариантов на (0, η/Ν], мы_можем сказать, что задача с полной памятью есть задача <Tn, q (Xn)>. Определим Αι как абсолютный ранг (т. е. ранг среди всех вариантов на (0, 1)) того из вариантов Ь1? . .., Ьц, который имеет ранг i среди Ьи · . ., Ьц. Вот список формальных определений в обозначениях п. 3.2: 1) tn = Ζχ ((η — i/)N9 n/N), n = i,...,N; 2) Л0=0, AUl = min {j> Ai\Tjt={tu..., tN}}, ί=0,... . . ., Ν — 1; 3) Xn = i, если Ζχ (η — Ι/Ν, η/Ν) = ΓΑ., i = 1, . . ., Ν; 4) Υη = /, если для некоторого i Ε {/, . . ., Ν}, tn= TA. и / — Ι штук из ΤА.,.. ., ТАь_г попадают на (0, (и— 1)/ЛГ), /= 1Л !.. 5) Хп = i, если Ζχ ((*_- l)/N, n/N)= Tt, i= 1Л 2, . . . (эквивалентное определение: Хп = Xt ); 6) 7п = U если Ζχ ((η - \)ΙΝ, η/Ν)]= Zj (η/Ν), ; = 1, 24 . . . 106
Непосредственно из определений выводится, что Χ» = Λχη· (3.37) 3.3.4. Рассмотрим задачу с конечной памятью, т. е. задачу <УП, q (Xn)>. В силу (3.38) для любого правила остановки τ из класса 9R правил остановки последовательности наблюдений Yu . . . . . . ., Yn Mq(XT)=Mq(AYJ, (3.38) поэтому правомерна также запись этой задачи в виде (Yniq(Aj )>. Проводя аналогию с обычной задачей с N вариантами — (Уп* q (Хп)У, можно сказать, что в задаче с конечной памятью абсолютные ранги принимают «случайные значения» Аъ . . ., А^, в то время как в обычной задаче эти значения есть 1, . .., Л^Эта аналогия даже более полная «— а именно, задача <УП, q C?n)> эквивалентна задаче <УП, д (Хп)У с функцией потерь q (i) = Mq (At). Чтобы доказать этот факт, мы сначала изложим основные свойства «случайных рангов» At в следующей лемме. Лемма 3.7. Для любых i и к: 1) Л| > i; 2) Ai не зависит от {Хг, . . ., XN, Ух, . . ., YN); 3) Ρ {Αι+1 - At = к) = (1 - i/N)(t/N)*-K Доказательство. 1) Ранг всякого варианта из {Ьц ... . . ., bjv} среди Ьх, . . ., bjv (в частности, и i-ro по качеству среди Ьх, . . ., bjv) не меньше его ранга среди всех вариантов на (0, 1). 2) Наилучший вариант среди всех на (0, 1) будет также наилучшим на интервале своего появления (т. е. на соответствующем Cf^i поэтому Αι = 1. Предположим, что утверждение справедливо для некоторого i > 1, тогда на множестве {Ai = ]} равенство Лг+1 = = к имеет место в том и только в том случае, если 7^+1, . .., Т^х попадают на те интервалы, которые содержат какие-нибудь из 7\, . . ., Tj, а 7\ ни на один из этих интервалов не_ попадает. Поскольку указанное событие не зависит от Х^ . . ., Xpj (перестановка интервалов ΰΊ, . . ., C/n приводит к тем же распределениям^ Ρ {-^i+i= # Ι-ΧΊ» · · ·» Xn) = = Σ V{Ai+1 = k\I{A 3)9XV ... ,XN}PMi=/|Xlf... ,XN}= fr-i = Σ Р{^г+1 = А|Л{ = /}Р{^ = /с} = Р{Л{+1 = А}, и, следовательно, Л1+1 не зависит от Х^ . . ., Xjv> Независимость от У2, . . ., У^ есть следствие того, что (У1э . . ., YN) есть функция от (Xlt . . ., ^)>_(как и для обычных рангов Уп и Хп : Уп есть число Х19 . . ., Хп, не больших Хп). 3) Повторяя предыдущее 107
рассуждение, получаем Ρ {Αι+1 — Af=k \Ai = j) = Ρ {Λ{+1= J -f- к \А{ = /} = = (l-i/N)(ifN)*-i, поэтому ρμί+1-^=Α}= 2 ρμί+1-^=Λ|^=/}ρμ{ = /} = = 5(1- UN) (i/N)«-i Ρ {Л, =;} = (1 - i/N) (i/N)*-* (в силу Ai J> i). Лемма доказана. Теперь мы докажем основное утверждение относительно задачи с конечной памятью. Лемма 3.8. Задачи <Pn, q (Хп)} и (Yn, q (Хп)>, где q (ί) =: = Mq (Ai), являются эквивалентными. Доказательство. В силу (3.38) и п. 2) леммы 3.7 имеем для любого правила остановки τ е SR Mq(Xx) = Mq(AT) = M(M(q(AJ)\A1, . .. ,ΑΝ)) = П=1 Π=»1 Ν _ _ = Σ £ΗΡ{χτ=τι}=Μ£(χτ). Кроме того, случайный вектор (Х^ . . ., Х^) с равной вероятностью принимает любое из iVl возможных значений^ (эти значения — перестановки), поэтому векторы (ΧΊ, . . ., XN, Ух, · · ·» Υ ν) и (Х1У . . ., ΧΝ, Υν . . ., ΥΝ) имеют одинаковое распределение. Следовательно, одно и то же правило может рассматриваться применительно к любой из задач <Fn, q (Хп)> и <УП, g(Xn)>, при этом оно дает одинаковые средние потери. Лемма доказана. Как следствие получаем, что в задаче с конечной памятью оптимально правило остановки ?v = min{Ai|^(yn)<^+1}, где Qn (0 определяется формулой (3.3) через q (i) вместо q (i)% a ν η — формулой (3.2) через Q% (i) вместо Q% (0» τΝ — пороговое правило. Поскольку At ;> г, то q (ί) = Mq (Ai) ;> q (ί). Следовательно, для всех п *?<*£. (3.39) Если функция потерь ограничена, то функция потерь q (·) также ограничена. Исключая тривиальный случай q (1) = q (oo), 108
эаметим, что при η/Ν ->·1 e 10, 1) ν* отделено от q (оо), т. е. lim sup ν η < q (<*>). (3.40) π/Ν-κ» Чтобы убедиться в этом, достаточно взять любое правло х^ η из класса ©}, дающее отделенную от нуля вероятность выбора наилучшего из вариантов bv . .,., Ь#, например, пороговое правило из классической задачи τ= \ ( min j&>maxi az, — j ΥΛ = ΐΙ , [ 1, если это множество пусто. 3.3.5. Перейдем к задаче с полной памятью (Хт Я (%)пУ· В этой задаче решение о выборе варианта Ьп, лучшего на Уп =* =((/г — l)/iV, η/Ν], определяется рангом Υη. Обозначим 3R класс всех правил остановки τ в этой задаче, т. е. принимающих значения 1, . . ., N и измеримых относительно σ-алгебр #Ί/#, ^2/iv» · · · • . ·» #Ί» где ^n/w порождается вектором Ζ (η/Ν) и содержит всю информацию относительно результатов сравнения всех вариантов, поступивших к моменту t = η/Ν. Случайная величина ϊ^, согласно своему определению, измерима относительно σ-алгебры <Fs, t (см. п. 3.2.3), где s = η — ί/Ν9 t_= n/N, поэтому она не зависит от Fa и, следовательно,; все ylf . .., Yn независимы. Согласно (3.23) на множестве {У\ = к] M(q(Xn)\fnIN) = Rk(n/N)t где Rb (·) определяется формулой (3.24). Из независимости 71%... . . ., Yn и последней формулы следует/ что в задаче с полной памятью (и частичным возвратом) имеет место случай независимых наблюдений. Применение метода обратной индукции позволяет доказать оптимальность правила остановки Т* =min{rc|d>% in/N)), (3.41) где цена продолжения является решением рекуррентного уравнения Ъ% = Μ min (ifcv R~ (η/Ν)), ί#+1 = оо. (3.42) Событие {Υη = к} происходит в том и только в том случае, если 6пИхмеет ранг к среди всех вариантов на (0, η/Ν], а все лучшие Ъп варианты из поступивших к моменту t = η/Ν вариантов не попадают на #п. Следовательно, PiT.-tj-pfz.^ei.jz,^) z»„, (-£■)<£»„} = -Н«-4Г· 109
Мы можем, следовательно, записать уравнение (3.42) как с граничным условием «8-Ё««т(»-тгГ· к=1 Функция Rk (·) не возрастает, а ϋ„ строго возрастает по η (исключая тривиальный случай постоянной q (·)), поэтому из (3.41) следует, что оптимальное правило остановки в задаче с полной памятью является пороговым, т. е. задано некоторым набором порогов (аъ d2, . . .), аналогично задаче <УП, q (Xn)>. В задаче с полной памятью мы при решении вопроса о выборе очередного варианта Ъп располагаем большей информацией, чем в задаче с конечной памятью, поэтому 9R 3 ®?ι и, следовательно, для любого η ΰΝη^νξ. (3.43) Кроме того, всякое правило остановки τ £Ξ $?(η-ΐ)/Ν можно использовать для выбора одного [из вариантов &!,..., bjv» считая, что выбирается вариант bkJ к = и, . . ., N, если τ е Уъ· Поскольку Ьк — наилучший вариант на Jfr, то указанный способ выбора не увеличивает средние потери правила τ, поэтому *пО(("-1)М0. (3-44) т. е. в задаче с полной памятью средние потери меньше, чем в задаче (Yt, q (Хг)У> что обусловлено, конечно же, расширением класса стратегий выбора. 3.3.6. Анализ ранговых задач наилучшего выбора сильно затрудняет то обстоятельство, что в общем случае функция потерь не ограничена. Если q (oo) < оо, то исследование всех предельных соотношений значительно упрощается, так как функция потерь слабо дифференцирует варианты с большими рангами, и если следить только за вариантами с рангами (относительными, абсолютными и любыми другими), меньшими достаточно большого числа, скажем М, то это средних потерь почти не увеличивает по сравнению с оптимальным способом выбора. Еще проще исследование предельных соотношений для таких функций потерь, которые совсем не различают вариантов с достаточно большими рангами,, поэтому естественно сначала доказывать предельные переходы в задачах с наиболее простыми функциями потерь, а затем аппроксимировать более сложные функции потерь. Так, назовем усеченной функцией потерь (по отношению к ис- 110
ходной функции потерь q (.)) функцию потерь ί 0(*). если i<M; ?Μ(ί) = |?«, если i>M. (З·45) По определению, q (Μ) = q (<x>) < оо. Все переменив^ которые имеют смысл правил остановки, порогов или средних потерь и относятся к усеченной функции потере будем снабжать дополнительным нижним индексом: как то бмь Vmi Rmh (*)» ум(*) и τ· π· Следующее утверждение относится к задачам с бесконечным числом вариантов <Y\, q (Х<)> и (F*, #м №)>· Лемма 3.9. 1) Для любой функции потерь q (·) и t e (02 1) ι;Μ (*) ί ι>(*), в частности, vm \ v'> 2) если ν < оо, иго эяга сходимость равномерная на любом интервале (О, 5), s < 1; 3) еаш q (оо) < оо, то сходимость равномерная на всем [О, 1]. Доказательство. При любом Μ правило остановки Тм» определяемое через qM (·), является оптимальным в задаче <Уи Ям №)>> так как i;M < ?м(°°) = ? W <°° и» следовательно, справедлива теорема 3.5. Несколько модифицируя доказательство этой теоремы, можно показать, что в классе 991*, правил остановки τ > ί, оптимальным является правило Тд^, заданное порогами (U ..., t, Ьмчу бм, k+i» ·..)» где 6т — ближайший к t порог из полу- интервала (ί, 1], и Ьмм = δ^Μ+ι = . . . — 1. Воспользовавшись в случае необходимости выбором подпоследовательности Ми для которой одноименные пороги сходятся, мы можем считать, что для любого к существует предел ак = lim 6д^. Пусть τ30 — предель- М-+х ное правило остановки, заданное порогами (*,...,£, ак, а*+1, · · ·)» где ак есть наименьшее α* ;> t. Покажем, что при фиксированном L MqL (τΜ) -* MgL (τ°°), Μ -^ оо. (3.46) Действительно, при каждом е существует лишь конечное число порогов obj, скажем /, меньших 1 — е. На множестве {τ°° < 1 — — е} правила τ00 и Хм не совпадают только в том случае, если на одном из отрезков вида [ inf 6mi, sup 6mi], i = l,...,/ появляется вариант с относительным рангом не выше /. Поскольку указанные отрезки лежат справа от £, то вероятность несовпадения τΜ с τ00 на {τ30 < 1 — е) при Μ -»· оо бесконечно мала,: так как длины этих отрезков стремятся к нулю, а число их конечно. Что касается интервала (1 — е, е], то в задаче с функцией потерь <7l(·)» потери вообще любого правила остановки τ на множестве {τ > 1 — е} близки (по вероятности) к q {L)i так как ill
вероятность попадания одного из вариантов с абсолютном рангом не больше L на (1 — е, ε) равна 1 — (1 — ε)1-, а при выборе любого другого варианта потери (в задаче (Yt, q^ (Xt)}) равны q (L). Остается заметить, что в силу уже использованных аргументов при Μ -►■ оо Ρ{τΜ>1-ε}-*Ρ{τ~>1 — ε}, и положить е -> 0. Это доказывает (3.46). Теперь для Μ > L MqM (ΧχΜ) > MqL (ΧτΜ) -> Щь (Χτ00), Μ -> оо, а по теореме о монотонной сходимости при L -> оо MqL(X%00) f Mq(XTOO), так как чем больше L, тем больше qL (i)» i = 1, 2, . . .. Этот предел не меньше ν (£), так как τ°° ΕΞ 3R*. Следовательно, lim vM (t) == lim MqM (Χτ ) > ν (t). M-»oo Μ—►<» Μ Обратное неравенство очевидно, поэтому vM (t) ^ ν (t). Теперь 2) следует из монотонности и непрерывности (теорема 3.4) ν (·) при ι;<οο, а 3) — из неравенства v(t)^q(oo). Теорема доказана. 3.3.7. Наша ближайшая задача состоит в доказательстве предельных соотношений для усеченной функции потерь. На протяжении всего раздела мы считаем параметр усечения Μ фиксированным. Затем мы обобщим полученные результаты на задачи с произвольными функциями потерь. Сразу же отбросим тривиальный случай q (1) = q (оо), когда все правила остановки дают одинаковые средние потери. Лемма 3.10. Для любого Μ = 1, 2, . . . при N ->■ оо sup | 4п - "м ((" - 1)М0 Η 0. η Доказательст в_о. Пусть τ — правило остановки из класса Ш (т. е. в задаче <У„, qM (Xn)} с полной памятью и частичным возвратом) такое, что τ ^ η и средние потери этого правила составляют νΜη, т. е. Как следует из п. 3.3.5, τ = max (и, fN), где τΝ определено в (3.41) (мы подразумеваем наличие индекса Μ у всех рассматриваемых правил остановки и порогов). Кроме того, v^m строга возрастает по т и не превосходит q (Λί), а В.щ (t) = q (M) при к ρ* Μ. Следовательно, при Ν > Μ правило f задается порогами (п,. .. , п, dk,. .. , dM» Ν, Ν,...)» К 112
где dk равно наименьшему d% ;> η, а полный набор (dx, d2, . . -У определяет оптимальное правило τΝ. Сказанное означает,что для любого m ;> гс, если Ут ^ Μ, το4 Φ т. Поставим в соответствие правилу τ правило остановки τ £= £= 3R(n-i)/jv (в задаче с бесконечным числом вариантов (Yu q №)>)» определяя τ порогами ((/г - 1)/ЛГ, ...,(* — 1)/ЛГ, dfr/,V,..., dM/N, 1,1,...), * ■ ^ ' fr-l (обратный прием использовался для доказательства (3.44)). По определению {х = т) = {τ е Cfm = ((го — 1)/W, го/ЛГ]}, т. е. τ и τ всегда выбирают вариант с одного и того же полуинтервала (напомним, что Ч — т означает выбор варианта Ьт, лучшего» на Cfm). Кроме того, в силу (3.44) Щм (Щ = $мп <vM(n- Щ) < MqM (Xx). (3.47) Покажем, что для любого ε > 0 и всех достаточно больших N Щм (Хт) < Щм (Щ + ε. (3.48) Для всех т = га, . . ., N — 1, если правила τ и Ϊ выбирают различные варианты с Jm, то по крайней мере два из Μ лучших на (О, m/N] вариантов попадают на £/т, вероятность чего равна (М\ 1 Исключение составляет J#, но если τ = ЛГ и τ = 1, то потери обоих правил равны q {М)\ в случае же, когда τ = iV, τ < 1 в выбранные варианты различны, имеет место вышеуказанное событие. Следовательно, Мдм (X,) - М<?м (1=) < 9 (Л/) Ρ {τ Φ 4) = Ν Ν = <?(Μ)£ P{T^f,T = n}<g(M)(f) £·^, (3.49) где под "χ φ τ" понимается выбор различных вариантов. Покажем* что правая часть в (3.49) стремится к нулю при N -> оо. Для этого достаточно доказать, что dx->oo, так как η ;> d^ а ряд ΣΙ/τη* сходится. Действительно, по определению, порог аг — это такоа &, начиная с которого в задаче с полной памятью выбор относительно лучшего варианта, т. е. с рангом У* = 1, становится болеа выгодным, нежели продолжение наблюдений, поэтому из (3.40) получаем Rm(dJN) < Ci < v$m. (3.50> Предположение об ограниченности аг приводит к противоречию, Ш
так как тогда мы из (3.40) и (3.50) имеем при N -> оо (так как <dx + l)7iV->0) limsup RM1 (di/N) < lim sup r£+i < q (<*>) = q (M), в то время как Μ4)=Σ^(Α)-^(ι--^Γ-*?(Μ)' ^-*°°· Итак, (3.48) доказано. Поскольку τ е Styn-D/w» то (3.48) дает при больших N и всех 17М (л — 1/Л0<»м« + е. Остается сравнить это неравенство с (3.47), положить N ->■ оо иг наконец, е -> 0. Лемма доказана. . Следующее утверждение обосновывает асимптотическую эквивалентность основной задачи <УП, q^ (Хп)У и задачи с конечной памятью <УП, дм (Хп)> для усеченных функций потерь. Лемма 3.11. Для любого Μ = 1, 2, . . . тгри 7V ->- оо sup|i;Mn — г;мп |->0. η Доказательство. В силу (3.39) "мп<г$п. (3.51) Пусть τ — правило остановки в задаче <Fn, gM (Xn)>, которое предписывает пропуск первых η — 1 вариантов и имеет потере равные ν%η. Это же правило будет рассматриваться применительно и к задаче <УП, qM (Хп)>. Равенство Ям (Χχ) = Ям (Χχ) = q (Αχχ) имеет место, если происходит одно из двух следующих событий: В самом деле,, в случае В потери τ в обеих задачах равны q (Μ), а в случае С равенство очевидно. ТакихМ образом, эти потери могут различаться только в том случае, если Аг > i для некоторого ι < Μ. По лемме 3.7 = М-1 Mq(Xx)-Mq(Xx)^q(M)l>{\/ (4>ί)>- м-ι ι=1 М-1 = д(М)(1-Р{Д(Л{=о>) = д(М)(1- Π (ι—зт)).: Поскольку ранги Хп и Fn имеют то же совместное распреде- 114
ление, что и Хп и Уп, то VMn = М^м (Χχ), а поскольку ^мп < Щм (Х%), то получается оценка М-1 »Μ»-ν2»<?(Α/)(ΐ- Π (l--j^))-*0, ΛΓ Вместе с (3.51) это доказывает лемму. Для усеченных функций потерь следующий результат является основным. Лемма 3.12. Для любого Μ = 1, 2, . . . при N-+ оо sup | VMn — νΜ {η Ι Ν) | -> 0. η Доказательство. В ходе доказательства леммы 3.6 была получена оценка "Ч'-^ЫЫ^Ч^+тг)· <3·52> равномерная по всем η ΕΞ ίΝε, Ν (1 — ε)]. Покажем, что она равномерна на более широком промежутке «е(0, N (1 — е)). Для этого заметим, что vM (t) постоянна на (0, δΜ1), и отношение dM1IN также отделено от нуля при N -+ оо, что следует из определения (3.7), отделенностиг>м1 от q (Μ) и равенства lim Qmi (1) = 0· η/Ν-κχ> Теперь заметим, что в (3.27) не более Μ слагаемых, каждое и» которых не больше q (Μ), поэтому на всем [0, 1] производная ι/ (t) оценивается сверху числом Mq (Μ)/δΜν Следовательно, < Ml(M) 1п* . (3.53) Следующие утверждения относятся к задачам <Хи qM (Xt)} и (Ут Ям (Хп)У· Вероятность появления одного из вариантов с абсолютным рангом не больше Μ в какой-нибудь момент t e (1 — —ε, 1] (η е (Ν (1 — ε), Ν]) равна 1 — (1 — е)м (стремится^ к 1 — —-(1 — ε)Μ). Следовательно, limsuV\vM(^)-vM(^)\^q(M)(i-B)M. (3.54) ТГ >ι-β Из (3.52) и (3.53) получаем при всех η < TV (1 — е) А<*(^) + 0(^.). (3.55) 115 / η , In TV \ / п\
Из неравенств (3.43) и лемм 3.10 и 3.11 получаем Vm vjf) — vMn = f vm \ly~) — "мп J + Фмп — ν мп) + + {vL· - vln) < [vu (-ж) - vln) + (vL· - vL·) -> 0, #->oo, причем эта сходимость равномерная по п. Вместе с (3.54) и (3.55) это доказывает лемму. Заметим, что в доказательствах лемм 3.10 и 3.11 оценки скорости сходимости имели порядок 1/ЛГ, и только лем*ма 3.6 давала оценку порядка (ΙήΝγγΝ. Каков же истинный порядок сходимости Vmx к ι;Μ? Доказательство леммы 3.12 дает оценку О ((In N)/ YN). Обратимся, однако, к классической задаче и увиди*м, что она дает основание для предположения о порядке О (ί/Ν). Это действительно так для всех усеченных функций потерь, а именно: Муцци [64] показал, что νΜ - v%u < см (q (Μ) - q (1)) ЛГι, где константа см зависит только от М\ но уже для ограниченных функций потерь имеется только оценка [64] N ^ / / \ /jh / InTV , g(oo) — g(c2In/V) \ V-Vl <Cl(g(oo)-g(l))^Tpr+ Ч^оо)1\{1) '). где константы сг и с2 не зависят от преобразований функций потерь вида q (·) -> aq (·) + Ь, а > 0. 3.3.8. Наконец, мы можем доказать следующую важную теорему. Теорема 3.6. Для любой функции потерь q (·) и t g [0,,11 1) limvn=v(t), n/N-+t 2) если ν < οο,; то для любого в > 0 lim sup Un—w (-£-)! = 0, 3) если q (oo) < oo, mo β 2) можно положить е = 0. Доказательство. По леммам 3.9 и 3.11 имеем ν (t) = lim vM (t) = lim lim v%In ^ lim lim inf имп =Hm inf v?, М-юо M-*oo n/N->* М-юо n/N—t n/N—t а обратное неравенство составляет содержание леммы 3.6. Свойства равномерной сходимости следуют теперь из монотонности Vn по п и непрерывности ι;(·) при ν < oo на любом отрезке [0,, 1 — ε], а в случае ограниченной функции потерь — на всем [0г 1], причем ν (1) = q (oo). Теорема доказана. Вот наиболее важные следствия. 116
Следствие. 1) ι>^->· ι> (0), JV-ьоо; 2) если Ri(t)<^oo для всех ί Ε (0, 1] и ν < οο, mo d^/N -> δ^, длявсехк = 1,2,...; 3) гели Ri (t) < οο для всех t e (0, 1] u ι; = oo, mo d^/iV ->· 0, Доказательство. Первое утверждение очевидно. Далее, если у<оо, то у(·) непрерывна на [0,1]. Сходимость всех Rk (·) равномерная на любом отрезке [ε, 1], если i?i (t) < οο при ί Ε (0, 1]. В последнем случае нетрудно равномерно оценить разность Qn (к) — Л& (η/Ν) и получить 2). Наконец, в условиях 3) отношение d^/N не может оставаться отделенным от 0, так как при η/Ν > е функция ожидаемых потерь Q% (к) -> Вк (η/Ν) я% следовательно, ограничена, в то время как ν% -*· οο. Следствие доказано. Еще при рассмотрении классической задачи в п. 2.1 мы определили асимптотически оптимальное правило остановки как последовательность правил остановки г1э τ2, . . . в задачах с N = \t 2, . . . вариантами, для которой вероятность удачного выбора стремится к е"1. При этом было показано, что асимптотически оптимальным является пороговое правило с порогом d, если d/N —> -+е~1. Аналогично назовем последовательность правил τΝ в задаче <УП, q (Хп)У с N вариантами асимптотически оптимальным правилом, если при N -> оо Mq(XXN)-*limv? = v N-+00 (заметим, что при ν = оо это условие более слабое, нежели условие сходимости к нулю разности средних потерь оптимального правила и τ^). Обобщением утверждения об асимптотической оптимальности в классической задаче является следующая теорема. Теорема 3.7. Если функция потерь ограничена, то для асимптотической оптимальности порогового правила τ#, заданного зависящими от N порогами (dx, d2, . . . ), необходимо и достаточно выполнение условий lim dk/N = 6fr, k = 1, 2,... . iV-oo Доказательство. Детали нижеследующего рассуждения легко восстанавливаются. Сначала докажем достаточность. Будем представлять себе, что варианты в задаче (Ynf q (Хп)У появляются в моменты 1/iV, 2/Nt . . ., 1. Потери любого правила как в задаче (Yn, q (Хп)}, так и в задаче <YU q (X*)> на участке t > 1 — е близки (по вероятности) к q (оо), когда мало е. На участке ίΕ(0, 1 — ε] имеется лишь конечное число, скажем М, порогов, поэтому здесь нас интересуют лишь варианты с относительньши рангами не выше М. Моменты появления вариантов с относительным рангом к в задаче <УП, q (Хп)> при N -► оо могут рассматриваться как моменты скачков пуассонов- 117
ского процесса переменной интенсивности 1//, причем процессы, отвечающие различным А, в пределе независимы. Но точно таким же является и процесс появления таких вариантов в задаче <УЬ q (Xt)}, что по существу и утверждалось в лемме 3.5. Из условий сходимости порогов теперь следует, что имеется сходимость по распределению ΥχΝΙ{χΝ<Ν(ΐ-ε)} —► Υχ*Ι{χ*<Ν(ι-ε:}ι Ν-*οο. Из равномерной по η сходимости $?(*)->Я»(-£-), ЛГ-оо, получаем Λτ^<^(ΐ-ε)>) —► Μ №Υχ* (τ*) Λτ*<ΐ-ε|). Остается заметить, что Ρ {τ^ > Ν (1 — ε)} ->■ Ρ {τ* > 1 — е} и устремить ε к нулю. Перейдем к необходимости. Выберем такую подпоследовательность значений iV, чтобы зависящие от N пороги д,ъ d2, . . . давали сходящуюся последовательность отношений dk/N -> λΛ. Повторяя предыдущее рассуждение, докажем, что средние потери τ# стремятся к средним потерям правила с порогами (λχ, λ2, . . .) в задаче с бесконечным числом вариантов. Если хотя бы одно λ^ не равно 6fc, то это правило дает потери больше ν (см. следующий п. 3.4.). Теорема доказана. Этот результат теряет смысл при ν = оо и не обобщается на случай, когда ν < оо, но функция потерь не ограничена, так как в последнем случае важен уже порядок сходимости отношений dk/N к порогам 6&. Замечание к доказательству. В основу вероятностной модели задачи с бесконечным числом вариантов (Хи ? (Xt)y можно непосредственно положить предельный процесс относительных рангов. Делается это так. Пусть на (0, 1) имеется счетное число независимых пуассоновских процессов интенсивности l/t каждый. Занумеруем их числами 1, 2, . . . и положим Yt = Л, если t — момент скачка /с-го процесса. Чтобы определить абсолютный ранг, сначала введем текущий ранг (варианта, поступившего в момент t, среди всех вариантов на (0, s]) двумя условиями: Ytt t = Υ и Yt, s+δ = Yt, s + 1» если на Is, s + Δ] произошел ровно один скачок одного из процессов с номерами 1, 2, . . ., Ff|St где t <; s. Процесс Yt, 8 при фиксированном t является марковским и изменяется в сторону больших значений, причем Р {Yt, l = k\Yt = i) = (*-/)«« (1 - ί)*Λ т. е. Υν ι < °° (π· н·)» что и позволяет положить Xt = Yt, ι· 118
3.4. Пороговые правила остановки и исследование уравнения для цены продолжения в задаче с бесконечным числом вариантов 3.4.1. По существу все основные результаты в ранговых задачах наилучшего выбора, рассматриваемых в этой главе, состоят в доказательстве оптимальности или асимптотической оптимальности в классах пороговых правил остановки. Например, в задаче с бесконечным числом вариантов, которая является пр - дельной формой классической задачи наилучшего выбора, пороговое правило ίπηη{ψ>λ, Yt = l} χ» = { {1, если это множество пусто, приводит к средним потерям / (λ) = 1 + λ In λ, а оптимальное правило τ* соответствует порогу 6t = е'1, который является точкой минимума /(·)· Обобщение этого факта на произвольные функции потерь содержится в нижеследующей теоремег относящейся к задаче (Yt% q (Xt)}- Пусть τ — пороговое правило остановки, т. е. (min{t\t^XYt}, \ 1, если это множество пусто, где λχ ^ λ2 ^ . . . , λ^ -> 1. Положим / (λχ, λ2, . . . ) = Μ? (Χτ) = MRYx (τ). Теорема 3.8. Пусть i?x (t) <^ oo при всех iG(0j 11й тогда: 1) если λχ — О, то f (λχ, λ2, ...)== q (сю); 2) если λχ > 0 и f (λχ, λ2, . . .) = oo, mo f (μχ, . . ., μ^, Xk+1% λ/ί+2 ...) = oo при любых ku0^lμ1^ί...^μk*ζs Хк+1] 3) если! (λχ, λ2, . . . )< oo, mo f (μ1? . . ., μ^, Xk+1, λΛ+2, . . . ) равномерно ограничено при фиксированном к и μι ^ е > Оь где ε — произвольно; 4) если f (λχ, λ2, ...,)< oo, то функция fk (0 === / (ft · · · * ft λ&+1, λ^+2» . . .) k ' непрерывна на (Ο, λ&+11 и удовлетворяет дифференциальному уравнению к со к 4+1 к ^ 5) / (λχ, λ,,. ..) - Χ (Π λι) $ -£γ% Rt (t) dt + (Π λ,) g (oo); 119
β) ι; (ή = / (*, . . ., U Ьш 6fc+2, . , . ) при δ < t < g δ0 = О — β частности, ν = ι; (0) = / (6lf δ2, . Γ. ); ^ ** 7) δ* является корнем уравнения /к (*) ='д^ (ή) если ν < оо и h = ог·, i >/c; 8) / (λ* λ,,.. .) < Σ (λ** Π λ,) Д* (λ,) + (Π λ,) q (oo). Доказательство. 1) Интенсивность потока относительно лучших вариантов равна l/ί, поэтому почти наверное любая окрестность 0 такой вариант содержит. Поскольку Rx (t) f f Я (°°) при t I 0, то при λχ | 0 потери g (Χτ) сходятся по вероятности к q (оо). 2)—3) Средние потери τ складываются из средних потерь при остановке до момента t = λΛ+1 и средних потерь при остановке после этого момента. Первое слагаемое конечно в силу равномерной сходимости Ri (·)» ί = 1» · · ·» к на [λΗ, λ^+1], которая, в свою очередь, вытекает из сходимости Rx (·) на всем единичном интервале. Второе слагаемое есть λ λ Ρ {τ > λ*+1} Mq (Χτ>) = lm'm k /(*,...,*, λ*+1, λ*+2, . . .) Vi ' ϊ ' так как на множестве {τ > λΛ+1} это правило совпадает с независящим от прошлого течения процесса до момента t = Xfc+1 правилом τ' с порогами (t, ...,£, λ^+1, λ&+2, . . . ). То же относится и к правилу с порогами (μχ, . . ., μ^, Jlfc+1, Xfc+2, . . . ), поэтому оба правила одновременно дают конечные или бесконечные средние потери, если только μχ > 0. 4) Следствием 3) является равномерная ограниченность fk (·) на [λλ., Xfc+1]. Далее, при Is, t] CI [λ^, Xfc+1] имеем jf£ Л (*):-[Ш= Μ (i?ra (σ) /<σ<<> - h (*)), (3·56> где σ — первый момент появления на Is, £) варианта, относительный ранг которого не превосходит к (определен в лемме 3.5). Правая часть (3.56) стремится к нулю при s | t или t j s, так как вероятность появления требуемого варианта имеет порядок о (tt— s), а функция под знаком математического ожидания конечна. Это доказывает непрерывность/тД·)· Далее следует применить аргументы доказательства теоремы 3.4, которое здесь упрощается из-за того, что не нужно рассматривать момент появления лучшего на Is, t) варианта (обозначаемого ранее Θ). 5) На полуинтервале [Хк, λΛ+1) правило τ останавливается на первом попавшемся варианте с относительным рангом не больше к, если только выбор не был произведен до момента t = λλ., и такой вариант действительно появляется. Если ΐ = ίΕ [λ^, λΛ+1), то Yt с равной вероятностью принимает любое из значений 1, . . .,& (лемма 3.5), причем если Υτ = к, то ожидаемые потери равны R^ (τ), а интенсивность потока таких вариантов составляет k/L 120
Остается заметить, что при τ = 1 потери составляют q (oo), а вероятность остановки в момент t = 1 равна указанному бесконечному произведению. Эту формулу можно получить также предельным переходом из (3.11). 6)—7) Прямые следствия теоремы 3.5. 8) При остановке на [λ^, λΛ+1) наибольшие ожидаемые потери составляют Rk (Xk) ввиду двоякой монотонности Ri (·) (по i и t). Теорема доказана. Несколько слов о значении этой теоремы. Во-первых, изменение конечного числа порогов не может дать качественный скачок средних потерь, лишь бы пороги были отделены от нуля. Во-вторых, формула 5), несмотря на свой малопривлекательный вид, дает решение основного уравнения (3.27) на [бЛ, 6fc+1] — стоит ТОЛЬКО ПОЛОЖИТЬ λχ = . . . = Хк = £, λΛ+1 = 6fc+1, λ&+2 = 6fc+2, · · · · Наконец, 8) дает оценку ι>, поэтому если подобрать пороги такими, чтобы правая часть была конечной, то и будет показано, что v< оо. Оставшуюся часть раздела мы посвятим исследованию условий, при которых ν < оо, а также условиям единственности решения уравнения для цены продолжения. 3.4.2. Теперь мы переходим к одному из наиболее интересных результатов, относящихся к ранговым задачам: для функций потерь полиномиального роста минимальные средние потери в задаче с бесконечным числом вариантов являются конечными. В свете предыдущего параграфа можно также сказать, что эти потери в задаче с конечным числом вариантов остаются ограниченными (хотя и возрастают) при неограниченном увеличении числа вариантов. Нетрудно понять, что любой полином от ft степени т представляется в виде Ч)+Ч*Л+-+<Г). поэтому конечность ν достаточно проверить только для функций потерь вида g (ft) = ft (ft + 1) ... (ft + m). (3.57) Такие полиномы хороши тем, что функции ожидаемых потерь выглядят особенно просто, а именно: оо Λ* (*) = J], (*л~ \ ) i (« + 1)... (i + m) ί» (1 — *)*-» = _ к (к + 1) . . . (к + т) ,- ■Σ(ΐΐ:)ί'""<ι-,>"= к (к + 1)... {к + т) 7»« ' (3.58) 121
где справедливость последнего перехода обусловливается тем, что под знаком суммы стоит полный набор вероятностей отрицательно биномиального распределения. Теорема 3.9. Для функций потерь полиномиального роста ν <. оо. Доказательство. Пусть q (·) имеет вид (3.57). Мы только усилим неравенство 8) из предыдущей теоремы, если заменим в нем все Rk (kk) на Rk (λχ), а это в силу (3.58) дает оценку ν<^(λ? Π λ0 д*Μ + (Π *i)?(°°) = fc=.l i=i i=l -Ё(^п*.)м>+"х^(>+'>+(пМ«<°°»· Таким образом, конечность ν будет доказана, если мы подберем пороги λχ,λ2, . . . так, чтобы выполнялись следующие три условия λι < λ2 < . . . < 1, (3.59) оо rUi=o, (з.бо) !>;* Π b)klk+i[-lk+m) <~. (3.6i) Положим по определению k λ^ Ц ^ = k(k+i)...(k + m + l)(k + m + 2) ' (3*62) Поскольку ряд оо ΥΠ 1 Z-l {k + m + l){k+m + 2) сходится, то подстановка (3.62) в (3.61) приводит к сходящемуся ряду, т. е. (3.61) при таких Xfr выполняется. Обратимся к условию (3.60). Разделив (3.62) на такое же выражение, но с увеличенным на единицу к% получим Μ4Ϋ = 1 + (ш + Ъ)/к. (3.63) Легко проверить, что (3.60) равносильно расходимости произведения дт — что, очевидно, выполняется ввиду (3.63). 122
Остается разобраться с (3.59). Монотонность порогов видна из (3.63), нужно только добиться выполнения условия λ^+ι ^ 1, которое равносильно условию или, переходя к логарифмам и подставляя (3.63), Сходимость этого ряда позволяет взять λχ достаточно малым, но ненулевым, чтобы неравенство выполнялось, и, следовательно, выполнялось (3.59). Теорема доказана. Грубость оценок, использованных в доказательстве, позволяет предположить, что ν < оо и в значительно более широком классе функций потерь, однако рассчитывать на конечность во всех случаях не приходится, что подтверждается следующей теоремой и ее следствием. Теорема 3.10. Если ряд Ing(k) 2j A;2 к=1 (3.64) расходится, то ν = оо. Доказательство. Будем рассуждать от противного и покажем, что конечность ν влечет сходимость (3.64) при неограниченной функции потерь (если q (оо) < оо, то такое утверждение тривиально). Действительно, пусть у<оо, тогда поскольку τ* < 1 почти наверное, имеем при ί;->-οο в пороговых значениях * = б, ν (6к) Ρ {τ* > δλ.) = Μ (Ду^ (τ*) /{T*>efc)) -> 0, (3.65) так как 6fr j 1. По определению порогов 8к и порогового правила τ* ν (бЛ) = Rk (б,) < q (к) и δΐ ... δι. τ Ρ{τ*>6,}= »-* . °к поэтому (3.65) при логарифмировании дает при к -*· оо Последнее позволяет взять т настолько большим, чтобы при 123
всех к > т выполнялось неравенство к \nq(k)<kln6k— ]31пб{. г=1 Теперь для всех Μ >т имеем Μ Μ , . Μ к 2ί Α: (λ:-1) ^2-1 Л-1 Za Zj * (fc - 1) * fc=m Jr=m k=m i=i Μ . e Μ Μ ln6fr П,_с V3 1 -Σ^-Σ1"8- Ε Λ (Λ — 1) к=т г=1 fr=>max (i, m) Μ ?η—ι ??ι—1 =^Ε1ηδ*-Ί^Σ1ηδ*<-Ί^τΕ1ηδ>· *=1 k=l /f=l Самое последнее выражение не зависит от А/, поэтому ряд (3.64) сходится. Теорема доказана. Следствие. Если i?i (£) = оо хотя бы при одном значении t е (0, 1), то ν = оо. Доказательство. Если оо Λι(0=Σ f(l-f)M?(0=°°. г=1 то и 2(1-«)'?(*) = °°. поэтому из сходимости геометрической прогрессии с знаменателем γΙ — ί следует, что g (i) > (1 — £)~i/2 Для бесконечного^ числа значений t. Выберем такую подпоследовательность i1? i2» · · ·» для которой выполняется указанное неравенствОд и кроме того* in+1 > 2in. По монотонности q (·) получаем _1 « .1 -т ,4 «1 1 * «*Т1/ Следствие доказано. 3.4.3. Таким образом, условие конечности минимальных средних потерь может выполняться только когда Rx (t) конечно при любом f ΕΞ (0, 1]. В последнем случае все Rk (t) также конечны, и вопрос о нахождении цены продолжения ν (·) в задаче с бесконечным числом вариантов сводится к изучению решений определенного вида дифференциального уравнения оо /'(')=-гЕ(/(')-Дк('))+· (3·66> Ji=l 124
Вообще говоря, неотрицательное решение (3.66) может быть одного из следующих типов: тип I — / (0 = / (0); тип И-/(0)</(1)<оо; тип III — / (t) < оо при любых t е [0, 1) и lim / (t) = оо; тип IV — / (t) < оо при любых iElO, T), Т<1и/ (t) =оо при t > Τ, но, как следует из теоремы 3.2, тип IV не имеет отношения к задаче наилучшего выбора, т. е. цена продолжения является решением типа I, II или III. Кроме того, в случае ν < оо и q (оо) < < оо цена продолжения может быть решением типа I только в тривиальном случае постоянной функции потерь, и мы его исключим из рассмотрения. Если функция потерь ограничена, то цена продолжения однозначно определяется уравнением (3.66) вместе с граничным условием ν (1) = q (оо) < оо (это следует из теоремы существования и единственности решения обыкновенного дифференциального уравнения [25]), т. е. ν (·) имеет тип II. Если функция потерь не ограничена, то ситуация существенна усложняется, так как если ν < оо, то цена продолжения является решением типа III, и мы имеем дело с граничным условием ν (1) = = q (оо) = оо, и условия общей теоремы о единственности решения не выполняются. Тем не менее, ν (·) всегда можно выделить из всех решений типа III, а именно: справедлива следующая теорема. Теорема 3.11. Если q (оо) = оо, то ν < оо тогда и только тогда, когда уравнение (3.66) имеет решения типа III, причем υ (·) является минимальным решением такого типа. Доказательство. Если ν < оо, то по теореме 3.4 ν (·) является решением типа III. Из теоремы единственности следует, что если /(·) и #(·) — два решения (3.66), и / (t0) = g (*o) < °° при каком-нибудь t0> то / (t) < g (t) во всех точках, где g (t) <С оо. Пусть gc (·) — решение типа II страничным условием gc (1) = с. Ясно, что gc (t) при. фиксированном t монотонно возрастает по с, положим #<» (0 = = lim g (t). Если существуют решения типа III, то g^ (·) явля- С-*ос ется наименьшим решением такого типа. Остается показать, что если функция #«. (·) имеет тип III, то ν <с оо и g^ (t) = ν (t). Заметим, что если зафиксировать конечное граничное условие и увеличивать функцию потерь, то соответствующее решение (3.66) опускается, т. е. становится более пологим. Пусть с = q (Μ), тогда gc(t) > vM (t), щеим (·) — цена продолжения в задаче (Yt, Qm (Xt)} с усеченной функцией потерь. По теореме 3.9 vM (t) f v (t) при Μ ->- оо, поэтому υ < оо и ν (t) = lim vM (t) = lim#c (t) = g» (t). M-+OC C-^oo Теорема доказана. 125
По-видимому, условие у<оо эквивалентно единственности решения типа III, хотя в полной мере доказательство этого факта неизвестно. Далее мы еще вернемся к этому вопросу, а теперь докажем справедливость этой гипотезы для функций потерь полиномиального роста. Теорема 3.12. Для функций потерь, растущих не быстрее некоторого полиномах цена продолжения является единственным решением типа III. Доказательство. Если уравнение (3.66) имеет решения типа III, то наибольшее такое решение является инфимумом решений типа IV. Утверждение теоремы будет доказано, если мы представим ν в виде предела некоторой последовательности хъ х2- . ., которая дает начальные условия / (0) = хк решениям / (·) типа IV. Рассмотрим дифференциальное уравнение оо *' W=-г Σ{е {t) - Rk (ίΤ))+' ° < т <*' (3·67) получающееся из (3.66) простой заменой времени. Всякому решению типа III этого уравнения отвечает решение типа IV уравнения (3.66) —/ (tfT) = g (t), которое имеет то же начальное значение и уходит в бесконечность при t = Т. Возьмем произвольную последовательность Тх < Т2 < . . ., Tf | 1 и рассмотрим семейство задач (Yt,qT- (^f)>» B которых функции потерь определяются как <7тЛ*) = Я*(Тг), а при остановке в момент t ^ Т$ потери бесконечны. Задача ^Xti (7т · (Хг)У имеет довольно наглядную интерпретацию: мы хотим остановиться до момента Т*, и если мы выбираем вариант с рангом к среди всех вариантов, поступивших к этому моменту, то наши потери зависят от усредненных результатов сравнений выбранного варианта с остальными вариантами на [Tj, 1] (сравните с задачей с конечной памятью и частичным возвратом, рассматривавшейся в п. 3.3.4). Поскольку оо я*(Я|) = £ (ill) Ri ГС) t* (i -1) ;-*, то повторяя доказательство теоремы 3.4, мы видим, что цена продолжения в задаче (Yt, <7τ· (Xt)} является решением уравнения (3.67), если только существует правило остановки τ, для которого MRXx (Tf) < оо. Покажем, что для функций потерь полиномиального роста такое правило действительно существует. Ясно, что можно ограничиться полиномами вида (3.57). В силу (3.58) для 126
таких функций потерь Вь (2\) = к (к + 1)... (к + т)ГТГ\ Возьмем теперь правило остановки τ с порогами {k1Tij χ α\ ч где λχ, λ2, . . . определены в теореме 3.9. В силу (3.68) и* И "fill имеем ν · > оо MRX% (Τ,) < £ R* (λ»Τ,) Ρ {λ,Τ, < τ < λ^Τ*} < оо < £ Rk (λχΤ,) Ρ {λΛΤ{ < τ < λ»„Τ,} = <=1 fr=l j=l V *' так как τ < Τ* почти наверное. Повторяя рассуждение теоремы 3.2, мы видИхМ, что цена продолжения в задаче (Yt, qt (Xt)y имеег тип IV и Tj — точка ухода в бесконечность. Пусть τ,- = Т*т*, т. е. тг задано порогами (ТД, Τέδ2, . . . )г тогда по теореме о монотонной сходимости при i ->· оо МДхт.(Т0 I Mq(XT*)=v, так как Rk (Τ,) j ? (Л). Это доказывает, что ι? является пределом хъ х2, . . ., соответ- ствующим минимальным средним потерям в задачах (Yt, qT. (Xt)y. Единственность следует из этого факта и теоремы 3.11. Теорема доказана. 3.4.4. До сих пор мы не занимались вопросами явного вычисления ν и порогов бц 62, . . ., и знаем ответ только для классической задачи. Подобный вопрос в задаче с конечным числом вариантов конструктивно решается методом обратной индукции и в принципе цена и пороги могут быть найдены предельным переходом v^ -> v, db/N ->■ 6fr. Этот путь ьычислителыю неосуществим уже для относительно простых функций потерь. Другой возможный подход состоит в попытке аналитического решения уравнения для цены продолжения, но даже для ограниченных функций потерь это требует значительных усилий, так как если функция потерь не является усеченной, то цена продолжения задается различными аналитическими выражениями на каждом из интервалов (бл, 6fc+1), число которых бесконечно. Но и для усеченных функций потерь #м(·) решение потребует склейки различных выражений на Μ интервалах. По-видимому, единственный приемлемый способ состоит в рекуррентном выражении меньших порогов через большие, что вместе с условием бк | 1 может привести к аналитическому нахождению цены и порогов. Пусть ν < оо, тогда на интервале (6^, 6&+1) цена продолжения 127
является решением дифференциального уравнения к ^Φ^-τΣ^Ο-ΛιΦ). (3·69) причем ν (6,) = Д, (δ,), ν (δ*+1) = Λ*+1 (6fc+1). (3.70) Нетрудно проверить, что при к ^ 2 поэтому (3.69) при /с ;> 2 эквивалентно уравнению ft: fr-1 dt №)—^S*»-T(jdi53r§*W) интегрирование которого дает Выражая постоянную интегрирования через второе из граничных условий (3.70) и подставляя в полученную формулу первое условие (3.70), мы приходим к рекуррентному выражению порога Ьк через 6fc+1 Нк (б,) = G, (вк+1), (3.71) где к ;> 2 и я*{t)=τ Σ(ff* (ί) -л*(ί))* (3·72) i=l k-i Gk W = тг Σ (Д*« (') - ^ (0). (3.73) Действуя аналогично на интервале (δχ, б2), получаем Я! (6t) = = Gi (62), где оо #i (i) = -f Ri (0 - Σ Τ" 5* <4 ~ ')*' (ЗЛ4> i=l <?t (t) = Ях (i) + -i- (Д· (<) - Ri W), (3.75) Si-il?(i). Функции Hk (·) и Gk (-) определены корректно, так как условие ν < оо гарантирует сходимость всех /?- (·) (следствие теоремы ЗЛО). 128
?м δ1 δζ δ3... $Ktt Sz 63...ffKi1 Рис. 1 Рис· 2 Л е м м а 3.13. Функции Hk (·) и Gk (·) обладают следующими свойствами: 1) #,(')> О, CV (*) > О; 2)H1®<Gl(t); 3) Hk(t)^Gk(t)^Hk+1(t); 4) Я; (ί) =._(*_ 1) #fc+1 (ί), k > 2; 5) <Й (ί)< - (* - 1) Нш (t), A>2. Доказательство непосредственно следует из определений (3.72)-(3.75). Таким образом, пороги 8к являются решениями рекуррентного уравнения (3.71) с «граничным условием» 6к | 1. Между уравнением (3.71) и решениями дифференциального уравнения (3.66) имеется простая связь. Пусть Ri (·) имеет радиус сходимости 1 вокруг точки t = 1, тогда функции Нк (·) и Gk (·) корректно определены безотносительно к условию ν < оо. Эти функции строго убывают, исключая случай усеченной функции потерь Qm (·)* когда строго убывают Нк (·) и Gk (.), к = 1, . . .,М (а только они нас и интересуют). Сказанное означает, что для каждого χ ΕΞ (0, 1) существует единственное решение х' уравнения Нк (х) = Gk (x')> причем в силу леммы 3.13 х' >> х. Следовательно, пара (Нк, Gk) определяет дифференцируемое отображение <pfc : (0, 1) ->■ R. Пусть ^!е(0э1), положим no^fonpe- Рис. 3J ,| 5 Заказ Λ& 3752 129
делению χ2 = φχ (я1), χ9 = φ2 (я2), . . . и т. д., последовательность *.»а:2 . .. удобно представлять себе как движущуюся вправо точку. Для выделения цены продолжения из множества всех решений уравнения (3.66) нам не хватает знания одного-единственного значения, если функцря потерь не ограничена. Каждое решение / (·) уравнения (3.66) определяет некоторую последовательность я1, а:2, . . . как множество корней уравнений / (t) = Rk (t) и, разумеется, эта последовательность совпадает с а?, Φι (я1)» φ2 (я2)» . · · Но верно и обратное — всякая такая последовательность соответствует некоторому решению (3.66). Таким образом, имеется взаимно однозначное соответствие между последовательностями а;1, я2,. и решениями (3.66). Последовательность порогов 6lf δ2, . . . также является последовательностью вида я1, а?, . . ., но обладает особым свойством. Если функция потерь является усеченной на значении q (M), то δχ — единственная точка, которая приходит в 1 за Μ шагов: всякая точка χ1 < δχ в 1 вообще не приходит, а всякая точка а^ > δχ (из единичного интервала) приходит в 1 за меньшее число шагов (рис. 1), и это — характеристическое свойство цены продолжения. Если q (оо) <оои функция потерь не является усеченной, то δχ приходит в 1 за бесконечное число шагов, все а^ < δ1 в 1 не приходят, а все Х\ > δχ достигают 1 за конечное число шагов (рис. 2). Самый сложный случай — когда функция потерь не ограничена. Если все решения имеют тип IV, то ни одна точка не достигает 1 (рис. 3). Если существует решение типа III, то по теореме 3.11 ν < оо и, следовательно, δχ достигает 1 за бесконечное число шагов, а все более правые точки достигают 1 за конечное число шагов. Что же касается точек х' < 61э то в последнем случае мы знаем только, что они не достигают 1 при функциях потерь, растущих не быстрее полинома (теорема 3.11). Ясно, что всякая точка, приходящая в 1 за бесконечное число шагов, определяет решение типа III, если q (оо) = оо. Это означает, что единственность такой точки равнозначна единственности решения типа III. Более того* если такой точки нет, то ν = оо, и все решения имеют тип IV. Исследование единственности может быть, таким образом, сведено к изучению локальных свойств q>fc в окрестности 1. Кажется вполне правдоподобным, что искомая точка всегда единственна, если она существует, т. е. пороги б1э δ2, ... однозначно определяются уравнением (3.71) и условием δ^->1. По-видимому, лемма 3.13 указывает на то, что никакая точка «не догоняет» б1э но строгое доказательство нам неизвестно. 3.4.5. Разберем некоторые примеры. Пример 1. Классическая задача наилучшего выбора. В этой задаче Rx (t) = 1 — t, Rk (t) == 1 при к > 1, поэтому Ηλ (t) = — In t - 1, Gx (t) = -In t, 130
а поскольку δ2 = i? To бх есть корень уравнения (3.71), т. е. #ι (δι) - - In δχ - 1 = - 1ηδ2 = Gx (δ2), откуда δι = е^1 и ν = Λχ (6χ) = 1 — β"1. Пример 2. Задача Гусейн-Заде с г = 2. Функция потерь имеет вид |0, при к*С2, ?2(A') = U, при А>2. при к >! Имеем Λχ (*) = (1 — О2, Л2 (0 = 1 — *2, Л* (0 = 1 при к > 2, поэтому б3 = 1, Ях (*) = 2* — 2 In * — 2, Я2 (ί) = 2/t — _ 1, Сх (*) = -21η *, G2(0 = 2/ί - 1. Следовательно, б2 является корнем уравнения Я2 (δ2) = 2/б2 - 2 = 1 = G2 (δ3), откуда б2 = 2/3, и δχ является корнем уравнения Ях (δχ) = 2δχ - 2 In δχ — 2 = -2 In (2/3) = Gt (δχ), откуда δχ ^ 0,35 и ν = i?1(61) ^ 0,43. Это означает, что вероятность выбора одного из двух лучших вариантов приблизительно равна 1 — ν ж 0,57 (ср. с классической задачей). Пример 3. Экспоненциальная функция потерь: q (к) = = ек. Ряд оо оо расходится, поэтому по теореме 3.10 потери бесконечны. Примера. Задача о среднем ранге: q (к) = к. По теоремам 3.9 и 3.12 у «< оо и пороги однозначно определяются из условий Нк (δ*) = GH (8k+i), 6k f 1. По формуле (3.58) Rk (t) = k/t% подстановка в (3.72)—(3.75) дает #ι(*)=^ + 4-· GxW=4-^2+4-' „ /,ч Hillii-L G /fl_ (*-i)(* + 2) 1 k>2 Поскольку «/Ax HL^il * (*-1)(* + 2) 1 _r,*v °fc U/C+l то 6fe/6/c+l ^ (1 + 2/&)-i/(fc+D и, следовательно, eftS=Q(l + 2/i)-i/(ifDe 5* 131
В частности, «ι = Π(1 + 2/ί)-ι/<*«>, откуда цена равна v = R1 (δχ) = 1/δχ = Π (1 + 2/iy^D ~ 3,87. Поразительной особенностью этого результата является малость величины средних потерь: в терминах задачи с конечным числом вариантов это означает, что средний ранг выбранного варианта при оптимальном способе выбора не превосходит 3.87, каким бы большим ни было общее число вариантов N. Для сравнения укажем, что если использовать правила остановки с фиксированным (одновременно для всех N) числом порогов (например, правило с единственным порогом di ~iV/e), то потери будут расти линейно с ростом числа вариантов. 3.5. Задача Гусейн-Заде 3.5.1. Рассмотрим ранговую задачу наилучшего выбора с функцией потерь * {О, если Л;<>, 1, если *>г. Число г отражает требовательность к выбору или, если угодно, разборчивость — чем больше г, тем большее число вариантов квалифицируется как «лучшие», причем все остальные варианты являются одинаково нежелательными. Будем называть «абсолютно лучшими» те варианты, абсолютный ранг которых не превосходит г, в противоположность «относительно лучшим» вариантам, имеющим относительный ранг не выше г. Ясно, что задача минимизации средних потерь эквивалентна максимизации вероятности выбора одного из абсолютно лучших вариантов. В этом параграфе нас будет интересовать асимптотическое поведение оптимального правила и минимальных средних потерь в задаче с бесконечным числом вариантов, когда г неограничено возрастает. Все результаты имеют прямое отношение и к задаче с конечным числом вариантов N и описывают некоторые асимптотические свойства, когда N и г определенным образом стремятся к бесконечности. Интуитивно ясно, что чем большее число вариантов мы признаем лучшими, тем с большей вероятностью удается выбрать один Эта функция потерь является усеченной на значении qr (г + 1) = q (оо), но г не является параметром усечения некоторой единой функции потерь, так как qr (·) и дг+1 (·) — усечения различных функций. 132
из них. Это понятно и с житейской точки зрения — чем меньше эапросы, тем проще их удовлетворить. По-видимому, также ясно, что средние потери при оптимальном способе выбора стремятся к нулю с ростом г, однако заранее трудно представить себе порядок малости этих потерь. Чтобы получить хотя бы грубую оценку, рассмотрим правила остановки τλ, определяемые единственным порогом λ, 0 < λ < 1. Всякое правило такого типа есть следующее предписание: «пропустить все варианты до момента λ, а затем остановиться на первом же относительно лучшем варианте (если такой вообще появится)». Словесно это предписание совпадает с рассматривавшимися ранее пороговыми правилами, но теперь мы в слово «лучший» вкладываем другой смысл. Правило τλ предписывает остановку на интервале (t, t + Δί), λ <C t <C 1, если на интервале (λ, t) не появилось ни одного относительно лучшего варианта, а на (t, t + At) такой вариант имеется. Поскольку абсолютно лучшие варианты также и относительно лучшие, то вероятность выбора абсолютно лучшего варианта при остановке иь (£, t -f At) равна вероятности того, что (t, t + At) содержит хотя бы один абсолютно лучший вариант, и все г лучших к моменту t вариантов появились до момента λ. Первое из этих событий определяется относительными рангами поступивших до момента t вариантов, а второе — относительными рангами остальных вариантов, поэтому события независимы и Ρ {Χτχ < г, τλ е (t, t + At)} = r (X/t)r At + o (At), а интегрирование в пределах от t = λ до t = 1 дает величину средних потерь Mqr (Хч) = 1 -Ρ {Хч < г} = 1 - 7ΤΤ,(λ - Г). (3.76) Отсюда нетрудно найти оптимальное значение порога %* = (±у<™ (3.77) и средние потери Μ9Γ(-Χτλ.) = 1-(-^)1/(Γ_1). (3.78) Последняя формула показывает, что минимальные средние потери стремятся к нулю с ростом г, и оценивает их величиной порядка г'1 In г. Далее будет показано, что действительная скорость убывания значительно более быстрая, а именно экспоненциальная. Из этого факта будет следовать, что при больших г оптимальное правило предписывает остановку почти сразу же после некоторого момента δ*, не зависящего от г. Правила остановки, используемые при оценивании минимальных средних потерь, таковы: «пропустить все варианты до момента λ, а затем остановиться на первом варианте с относительным рангом не выше от». 133
3.5.2. В соответствии с нашими прежними обозначениями, пусть vr (t) — цена продолжения, бг1, . . ., бгг — пороги (все остальные пороги равны 1), определяющие оптимальное правило τ?. Мы сменим обозначение только для потерь, ожидаемых при остановке в момент t на варианте с относительным рангом к (прежнее обозначение — Rk (t)), полагая оо ft—1 Кроме того, удобно описывать оптимальное правило остановки с помощью непрерывной кусочно-линейной функции аг(·) как . /min{*|r,<rar(*)b τΤ = I A [ 1, если это множество пусто, где ( к/г, если t = 6rk; ar(*) = j 0, если * = 0; [ 1, если £ = 1, и на каждом интервале (6rfr, 6rfe+1) эта функция линейна. Уравнение (3.27) записывается в виде lrar(t)] v'r(t)= Σ (vr(t)-Rr(k,t)), i;r(l) = 0, (3.79) а порог Ьгк является единственным корнем уравнения Rr (кх t) = = vr (t). В частности, i;r = yr(0) = (l-6rl)r. (3.80) Напомним также, что на интервале (6rfc, δΓ&+1) цена продолжения больше Rr (к, £), но меньше Rr (к + 1, *), что равносильно двойному неравенству Rr ([mr (*)], t) < vr (t) < Rr ([rar (t)] + 1, *), (3.81) где [·] —целая часть. Далее нам потребуются неравенства ί f, при 0<*<1, "'<">{ (1 -0', при 6„<«<1, <3·82' первое из которых очевидно (tr равно вероятности появления всех г абсолютно лучших вариантов до момента t), а второе следует из монотонности vr (·) и (3.80). Еще нам понадобится такое соотношение при 0 <^ a ^ t lim (Rr ([от], ψ» = (±.)a (^)1_α, (3.83) которое может быть получено из формулы Стирлинга. 134
Лемма 3.14. Для всех г = 1,2, ... vr > 2"г. Доказательство. Предположим, что вариант с абсолютным рангом 1 появляется до момента бг1, тогда оптимальное правило тг может выбрать только один из г — 1 оставшихся абсолютно лучших вариантов. Но результаты сравнения всех вариантов по порядку просмотра, исключая вариант с абсолютным рангом 1, не зависят от момента появления указанного варианта, поэтому средние потери τ* при нашем предположении не меньше *>r-i (6ri), т. е. vr > Srivr-i (6ri) > &rivr-i. (3.84) Покажем теперь по индукции, что бг1 < 1/2 при всех г. Для г = 1 это так: δη = е"1 < 1/2. Пусть бг1 < 1/2 при некотором г > 1, тогда из (3.80) и (3.84) получаем (1 - бг+1дГ+1 > «r+ι,ι (1 - δΓι)Γ > бг+1Д2-'. Левая часть последнего неравенства монотонно убывает по бг+1|1, а правая — монотонно возрастает, причем равенство имеется только в точке 1/2. Следовательно, δΓ+ι, ι <С 1/2. Коль скоро бг1 < 1/2 при всех г, то итерируя (3.84), получаем утверждение леммы. Лемма доказана. Лемма 3.15. Для всех t е (0, 1) linkup (vr Ш1г < infmax (ρ, (±f (^Г)' Доказательство. Пусть X — абсолютный ранг варианта, имеющего ранг [аг] среди всех вариантов, появившихся к моменту t. Рассмотрим правило остановки τ = min {s <; 11YB ^ <^ аг} (где min φ = 1). Если [аг] < X <Г г + 1, то, во-первых, τ<1 в силу того, что (£, 1) содержит по крайней мере вариант с абсолютным рангом не больше Гаг], и, во-вторых, Χτ <^ г, так как Хх <С X. Если же X ^> г + 1, то нетрудно видеть, что условная вероятность выбора одного из г абсолютно лучших вариантов не больше г/(г + 1). Следовательно, P{X=[ar]} + P{X>r+l}>Mgr(*x)> >Р{Х = [аг]} + 74тР{Х>г+1}. После подстановки в это неравенство Ρ {X = [аг]} = *[«1, Ρ {X > г + 1} = Дг+1 ([аг], ί), и извлечения корней г-й степени, из (3.83) при г -*· оо получаем нужное выражение. Лемма доказана. Эти леммы показывают, что vr убывает экспоненциально. Из (3.80) следует, что порог бг1 отделен от нуля и единицы, так как 1 —infmaxf^, (4-) (т—4) ") < lim inf 6rl<limsup6rl< 0<α<*<1 \ \ α / \ x —α / / r r
3.5.3. Перейдем к нахождению асимптотической формы оптимального правила остановки и величины минимальных средних потерь. Теорема 3.13. При г -> оо справедливы следующие соотношения: 1) δΓΐ->δ*; 2) ar (t) -*· α (t), где α (·) является решением дифференциального уравнения „ЧЛ (1-α (*))/(!-<) α W— In (ί(1-α (Ι))/(1--*))«(<)) На интервале (δ*, 1); a (t) = 0 п/ш f < δ* и a (1) = 1; 3) ί (1 — δ*), яри * < δ*, ("г (*))1/Г -> [ ya (^a«) ((1 _ Щ\ _ a (ί)))1-«(0 Лрц t > δ*, 4) τ* сходится по вероятности к δ*. Доказательство. Сделаем в (3.79) подстановку Sr (*) = (уг (0)1/г> чтобы получить уравнение вг (*) = тг Иг (*)] йГг (*)] (1 - Лг («)), (3.85) где [rar(0] - мм ь Дг([гаг(01,1) ТМ^И и gr (1) = 1. Используя свойства биномиального распределения! можно показать, что fer (ί) ->· 0 при г->- оо, если ar (t) имеет предел. Семейство функций gr (·) равномерно ограничено (так как О ^ gr (ί) ^ 1) и равностепенно непрерывно в силу того, что порог бг1 отделен от нуля и, следовательно, правая часть (3.85) не превосходит Ι/inf δΓΐ. По теореме Арцела [19] можно выделить равномерно сходящуюся подпоследовательность gr. (·)* предел которой обозначим g (·). Эта предельная функция постоянна на некотором отрезке [0, δ*], равна 1 — δ* при t = δ*, и в силу (3.82) g (t) > max (*, 1 — t) при t > δ*. Выражение шч^г монотонно возрастает от 1 —t до 1, когда α увеличивается от О до t. Следовательно, можно положить на [δ*, 1] '«-ЫгГМЗгГ·· «"ч Из (3.83) и (3.81) вытекает, что в каждой точке t e (0,1) последовательность ar. (t) сходится к α (t), поэтому теорема об ограниченной сходимости позволяет заключить, что g'(t)=-L<x(t)g(t), g(l) = l. (3.87) 136
Это уравнение однозначно определяет g (·)> поэтому для всей последовательности gi (·), g2 (·)> ··· имеется равномерная сходимость к *(·)· Утверждения 1) и 3) уже доказаны, а 2) получается путем подстановки (3.86) и (3.87). Докажем 4). Из 2) следует, что любой порог 6г1( стремится к δ* при г-> оо. Возьмем произвольное ε и зафиксируем &. При больших г все пороги бг1, . . ., Ьгк попадают в 2е-окрестность δ** Таблица 7 г *>г 6г1 г Уг *п 1 0,6321 0,3679 8 0,0476 0,3166 2 0,4264 0,3470 9 0,0334 0,3146 3 0,2918 0,3367 10 0,0235 0,3129 4 0,2013 0,3302 15 0,0041 0,3068 5 0,1397 0,3255 20 0,0007 0,3031 6 0,0973 0,3219 г 25 0,0001 10,3008 7 0,0679 0,3190 а бг1 отделен от δ* + 2ε по крайней мере на ε. Оптимальное правило останавливается до момента δ* -+- 2ε во всяком случае тогда, когда по крайней мере один из вариантов с абсолютным рангом не больше к попадает на интервал (δΓΐ, δ* + 2ε) длины не меньше ε. Вероятность последнего события равна 1 — (1 — e)fr ->■ 1 при к -> оо. По произволу ε имеем сходимость τ? κ δ* по вероятности. Теорема доказана. Численное значение.предельного порога δ* составляет приблизительно 0,283. Значения δΓΐ и цены vr для некоторых г приведены в табл. 7. 3.6. Задача с памятью единичного ^объема 3.6.1. Одним из основных допущений в ранговых задачах наилучшего выбора является предположение о возможности сравнения каждого варианта со всеми ему предшествующими. Иначе говоря, в процессе выбора мы помним качественные характеристики всех просмотренных вариантов. Если условиться измерять объем памяти числом вариантов, с которыми допустимо сравнение, то можно также сказать, что требуемый в каждый момент объем памяти равен числу просмотренных вариантов. Во многих практических ситуациях имеются серьезные ограничения на объем памяти, поэтому эффективность ранговых процедур выбора при большом числе вариантов будет обоснована лишь в том случае, если мы сможем указать классы правил, которые основываются только на результатах сравнения наблюдав· мого варианта с небольшим числом предшествующих вариантов, и вместе с тем дают достаточно низкие средние потери. Посмотрим на примере классической задачи, к чему может привести идея ограничения объема памяти. На первый взгляд кажется 137
довольно разумным требование о возможности сравнения очередного варианта лишь с некоторым фиксированным числом, скажем т, непосредственно предшествующих ему вариантов. Однако после некоторого размышления становится ясно, что когда общее число вариантов возрастает, а т неизменно, то вероятность удачного выбора стремится к нулю даже если разрешить возврат к любому из пропущенных вариантов. Ситуация очень напоминает «белый шум» — хотя мы и располагаем весьма обширной информацией, все равно это ничего не дает из-за того, что информация «размыта» по всему ряду наблюдений. Порочным, таким образом, оказывается исходное предположение о непрерывном и, что самое главное, неуправляемом обновлении памяти. Следовательно, обновление памяти нельзя пускать на самотек, т. е. мы сами должны решать, какой вариант запоминать стоит, а какой — нет. Концепция управляемой памяти применительно к классической задаче приводит к возможности использования оптимального порогового правила. Действительно, до порогового момента следует запоминать варианты, лучшие находящихся в памяти, а после этого момента следует остановиться на первом же варианте, лучшем всех находящихся в памяти, при этом требуемый объем памяти равен единице. Оказывается, что управляя памятью единичного объема, можно добиться замечательных результатов и в задачах с функцией потерь общего вида, а именно: даже для функций потерь полиномиального роста сделать средние потери ограниченными при N -> оо (N — число вариантов),, в задаче Гусейн-Заде сделать средние потери «почти экспоненциально» стремяпщмися к нулю при г -► оо равномерно по N. 3.6.2. Предположим, что объем имеющейся в нашем распоряжении памяти равен единице. Просматривая последовательно варианты, в каждый момент можно сравнить очередной вариант с находящимся в памяти и, в зависимости исключительно от результата этого сравнения, предпринять одно из трех действий: выбрать, пропустить или запомнить. Если очередной вариант выбран, то на этом процесс выбора заканчивается. Если этот вариант пропущен, то информация о нем полностью утрачивается, и выбор его в дальнейшем невозможен. Если же очередной вариант запоминается, то выбор его в дальнейшем невозможен, и полностью утрачивается информация о варианте, ранее находившемся в памяти. В такой постановке любое допустимое правило τ удобно представлять как последовательность предписаний одного из девяти типов: 1) (+/ —)п = (пропустить/запомнить), 2) (+/—)п = (пропустить/пропустить), 3) (+/—)п = (пропустить/выбрать), 4) (+/—)п = (запомнить/запомнить), 5) (+/—)п = (запомнить/пропустить), 138
6) (+/—)n = (запомнить/выбрать), 7) (+/ —)n = (выбрать/запомнить), 8) (+/—)n = (выбрать/пропустить), 9) (+/—)n = (выбрать/выбрать), где п = 1, . . ., N. Если га-й вариант оказался лучше находящегося в памяти, то τ предписывает первое из действий, отвечающих (+/—)п, а если хуже — то второе. Так, если (+/—)б = (пропустить/запомнить), то τ предписывает пропустить 5-й вариант, если он оказывается лучше находящегося в памяти, и запомнить — в противном случае (разумеется, это имеет смысл только если первые 4 варианта оказались невыбранными). Всякое допустимое правило в рассматриваемой задаче является обычным правилом остановки в том смысле, что {τ = га} е= fn = = 3d 0^1* · · ·> Υη)ι поэтому может показаться, что сужение класса правил упрощает задачу минимизации средних потерь. В действительности все обстоит как раз наоборот, так как мы лишаемся важнейшего в задачах оптимальной остановки инструмента— метода обратной индукции. Вот логика обратной индукции: сравним потери от остановки на η-ом шаге, ожидаемые при условии проведенных наблюдений, с потерями от оптимального продолжения, ожидаемыми при условии проведенных наблюдений. . ., т. е. оптимальное действие на га-ом шаге определяется как функция от проведенных наблюдений, и так от η = Ν до га = 1. Теперь же такое рассуждение неприемлемо, так как для того чтобы принять какое-нибудь решение на га-ом шаге, нужно сначала разобраться с действиями на предыдущих шагах — ведь именно они определяют «проведенные наблюдения». Говоря более точно, мы отказались от принципа накопления информации, формализуемого условием рассмотрения класса всех правил, измеримых относительно неубывающего семейства σ-алгебр (дело вкуса — считать, что у нас нет какой-то информации, или же она есть, но ей нельзя воспользоваться). Положение становится очень тяжелым, и единственный выход состоит в дальнейшем сужении класса допустимых правил, чтобы сделать его доступным анализу. При более пристальном рассмотрении становится ясно, что с точки зрения минимизации средних потерь можно безо всякого ущерба отказаться от предписаний типа 2), 3), 6) и 9). Кроме того, первый вариант целесообразно запомнить (если N ^> 1), а последний вариант всегда выбирается. Остается 5 возможных предписаний и δ^"2 возможных правил, но и этот класс оказывается слишком большим. Далее мы ограничимся предписаниями трех типов — 4), 5) и 8). 3.6.3. В классической задаче оптимальное правило выглядит так: ((запомнить/пропустить), если и = 1, . . ., tf*— 1, (выбрать/пропустить), если n^d*. Смысл дополнительного введения предписания (запомнить/запом- 139
нить) следующий: если в процессе выбора слишком долго не подаются варианты, лучшие находящегося в памяти, то запомненный вариант слишком хорош, т. е. выгоднее утратить всю накопленную информацию, обновив память, нежели рисковать добраться до последнего варианта. Пусть q (*) — произвольная функция потерь, и τΝ (q) — оптимальное правило в классе правил с предписаниями типа 4), 5) и 8) (число таких правил конечно, поэтому оптимальное правило существует). Положим bL равным наименьшему п, для которого rN (q) на л-м шаге есть (+/—)п = (запомнить/запомнить). В момент Ьх происходит обновление памяти, и оптимальное продолжение должно совпадать с оптимальным правилом в задаче ъ N — bi вариантами, но уже другой функцией потерь q(i) = Mq(Ai), гдо Ai — абсолютный ранг варианта, имеющего ранг i среди последних N — Ъх вариантов. Доказательство этого факта повторяет выкладки в лемме 3.8 (относящейся к задаче с конечной памятью и частичным возвратом, которая служила промежуточным звеном между ранговой задачей и ее предельной формой). До момента Ьх имеются две возможности — (+/—)Л — (за~ помнить/пропустить) и (+/—)п = (выбрать/пропустить). Полагая vn (я) равным цене класса правил, предписывающих (запомнить/ /пропустить) при к = 1, . . ., /г, мы путем обратной индукции убеждаемся в справедливости соотношения υζ (q) = Μ min (itf* (?), ρ&ι). λ = bL -1,..., 1, (3.88) где <=Σ'<<::)/0 есть величина потерь, ожидаемых при выборе на л-м шаге относительно лучшего варианта. Найдется η < Ъх такое, что Qn+1 < < yn+i (#)» так как в противном случае оптимальное правило не использовало бы никакой информации о первых Ъх — 1 вариантах, что невозможно. Из монотонности vn (q) и Qn (по η) следует выполнение указанного неравенства при всех η > αχ, где ах < Ь. Следовательно, τ^ (q) есть совокупность предписаний (запомнить/пропустить), если и = 1,.. ., αχ — 1, (выбрать/пропустить), если η = аи . .., bx — 1, (запомнить/запомнить), если η = bu а после момента Ъх это правило совпадает с хм~ъ* (q). Порог Ьх находится из равенства у£ (q) = ν?*** (g). Приведенное рассуждение дает алгоритм нахождения оптимального правила путем редукции к задаче с меньшим числом ва- <+/-)»- η 140
риантов. Правило τΝ (?) оказывается при этом заданным набором порогов αλ < Ъх < а2 <С Ь2 <С ... <С N и предписывает запоминать вариант, лучший находящегося в памяти, в моменты, промежуточные между Ьк и α&+ι» выбирать такой вариант между afc+1 и bfc+1, а в моменты Ъъ Ь2, ... обновлять память. Слегка модифицируя доказательства лемм 3.2 и 3.6, нетрудно показать, что минимальные средние потери v? (q) не убывают по N и в пределе не превосходят минимальные средние потери в аналогичной задаче с бесконечным числом вариантов, к которой мы теперь и переходим. 3.6.4. Аналогами правила rN (q) в задаче с бесконечным числом вариантов являются правила, заданные порогами аг < βι <С а2 < < Рг < ··· <1· Рассмотрим функцию потерь q (ft) = к (ft + 1) ... (ft + те). При выборе в момент t е= («ц βι) варианта, лучшего находящегося в памяти, ожидаемые потери составляют R1(t) = (m + i)\/tm*, (3.89) так как Yt = 1. В момент t = βχ задача становится эквивалентна исходной в силу того, что замена временного параметра * ~ (ί - βχ)/(1 - β!) приводит к функции потерь Λι ((* - PiV(l - βι)) = (1 - Pi)m+1Ri (t - βχ), отличающейся от (3.89) лишь постоянным множителем. Это же рассуждение применимо и к остальным порогам β2, β3» · · ·* поэтому оптимальные значения порогов αχ, βι, α2, β2, .·· (если они существуют) должны удовлетворять соотношениям βι = (β*+ι - β*)/(1 - β*), «ι = (ak+1 - β,)/(1 - β*)· (3.90) Пусть τ — произвольное правило, заданное порогами, удовлетворяющими (3.90). Событие {χ > βχ} равносильно попаданию наилучшего на (0, βι) варианта на интервал (0, с^), что происходит с вероятностью ρ = α/βχ. Следовательно, Ρ{τ>β*} = ρ*->0, ft-»oo, т. е. τ < 1 почти наверное. Полагая β0 = 0, выпишем явное выражение для величины средних потерь. Имеем оо М<7(Хх) = £ J д(ХтИР = -(Σίτ^-Л J *™dr- Следовательно, средние потери τ конечны в том и только в том 141
случае," если ρ < (1 — βι)™+1. Далее βι βι 5 ϊ(Χτ)(ϊΡ-^ι(0ΛΛ(0-^(^+1)!$-~- = (τ <βι} αϊ αϊ _ en(w+l)l / 1 1 \_ ρ (та+ 1)1 / 1 Λ \d™* β™"2 ) (m + 2)p™+1 ^ pm+2 ) — (in+ 2) Окончательно получаем (3.91) Оптимальные значения порогов существуют тогда и только тогда, когда (3.91) имеет максимум при ρ < (1 — βι)™+1, но, во всяком случае, при выполнении этого неравенства средние потери конечны. Таблица 8 N v?(Q) N *Г<*> 3 1,667 20 3,867 4 1,875 50 5,114 5 2,100 100 5,885 6 2,333 250 6,599 7 2,476 500 6,932 8 2,625 1000 7,138 9 2,778 10 2,933 Найдем оптимальные значения ρ и βχ для задачи о среднем ранге, соответствующей т = 0. Формула (3.91) принимает вид Mq(Xx) (р-1 — Р) (1 — βι) 2βι(1-βι-ρ) Минимум этого выражения достигается при ρ ζζ 0,296, равном положительному корню уравнения х3 + х2 + я — 1=0, βι = = pV« ~ 0,456. При этих значениях средние потери составляют l/oti » 7,413 (ср. с примером 4 из п. 3.2.4). Минимальные средние потери в задаче о среднем ранге при конечных N приведены в табл. 8. 3.6.5. Рассмотрим задачу Гусейн-Заде с бесконечным числом вариантов (см. п. 3.5). Вместо того чтобы искать оптимальное правило, положим βλ. = k/i, к = 0, . . ., i — 1, где i = i (г) определим позднее. Положим ак = β^. + p/i, где ρ = ρ (г) также еще подлежит определению. Пусть τ — правило остановки, заданное порогами аъ $х, . . .. Имеем Mgr (Χτ) = pi + £ ρ* jj R, (0 dFT (ί) < ρ* + (1 - ρ*) (1 - p/i)' < fc=o αϊ <Ρ* + (1-Ρ/0Γ· Теперь положим i = 7~ε/2, ρ = г-3/» и оценим цену класса правил с единичным объемом памяти величиной порядка О (ехр (—г1-е))#
Глава 4 ЗАДАЧИ С НЕКЛАССИЧЕСКОЙ СТРУКТУРОЙ ПРЕДПОЧТЕНИЙ 4.1. Ранговая задача с конечным числом вариантов 4.1.1. Рассмотрим следующее обобщение основной задачи из предыдущей главы. Предположим, что имеется т независимых критериев, по которым сравниваются поступающие в моменты 1, . . ., N варианты. В момент га можно сравнить очередной вариант по каждому из критериев со всеми предыдущими вариантами и, в зависимости от всех проведенных к этому моменту сравнений, выбрать или пропустить. Если вариант выбирается, то потери являются функцией вектора абсолютных рангов. Требуется так остановить процесс выбора, чтобы средние потери были минимальны. По-видимому, разборчивая невеста сочтет эту постановку особенно актуальной, поскольку ее идеал должен удовлетворять целому ряду требований. К сожалению, здесь мы вынуждены разочаровать нашу невесту — как будет следовать из результатов этой главы, если и удастся остановиться на варианте, который окажется достаточно хорош по одному из критериев, то он с большой вероятностью окажется плох по всем остальным критериям (во всяком случае, если критерии независимы)· Пусть Хп = (Хп, . . ., X™) — вектор абсолютных рангов га-го по порядку просмотра варианта по т критериям. Предполагается,, что матрица /Χ\...Ζ\λ \x;\..xjy/ с равной вероятностью принимает все (N\)m возможных значений. Отсюда следует, что абсолютные ранги по различным критериям независимы. При появлении га-го варианта наблюдается вектор его относительных рангов Yn = (Υ^, . . ., Υ%)χ все относительные ранги Yln, I = 1, . . .,m; га = 1, . . ., N независимы и для всех к = 1, . . ., га Ρ {Υιη = к} = 1/ra.J Положим fn = ί©(Υι, . . ., Υ#), и будем рассматривать класс {#~п}-измеримых правил остановки. Пусть q (·) — неотрицательная функция потерь, определенная на множестве положительных целочисленных векторов i = = (i1, . . ., im) и обладающая свойством монотонности: i >— j =Ф 143
=^ Я. (i) > Q (j)> гДе мы полагаем i >- j 4Ф il > /' для всех Ζ = def = 1, . . ., т. Для каждого правила остановки τ средние потери составляют? Мд (Χτ), поэтому обозначим рассматриваемую задачу <Yn, q (Xn)>. В целом мы будем следовать ходу рассуждений гл. 3, отвечающей случаю т = 1. Сначала мы проясним некоторые качественные свойства оптимального правила остановки, а затем перейдем к изучению асимптотик. 4.1.2. Определим функцию ожидаемых при остановке в момент η потерь как <#(Yn) = M(g(Xn)|Yn). (4.1) Применение метода обратной индукции доказывает оптимальность правила остановки τ" = min {n I Q% (Yn) < i£+1} (4.2) и приводит к обычному рекуррентному уравнению для цены продолжения vS = Μ min (ι&υ QS (Υη)), ι#+1 = οο, (4.3) причем Μς(ΧχΝ) = ν?. (4.4) Поскольку теперь мы имеем дело с векторами, то удобно ввести такие обозначения: е* = (0, . . ., 1, 0, . . ., 0), / = 1, . . ., т, 1 = Ϊ ' = (1, . . ., 1). Таким образом, ец . . ., ет — это стандартный базис тп-мерного пространства, а 1 — сумма базисных векторов. Лемма 4.1. Для любых п\ )>- к и η = 1, . . ., N *«-(Т ς .«π(ί:;κ:_-ί); (4.3. (iV-n)i+k>i>k 2=i m τη ι * ■'+1 (4.6) где суммирование производится по всем т-компонентным булевским векторам ε, ε* = 0 \/ 1; i>i=^Qn(i)>Qn(i); (4.7) <?n«(k)<<?^(k). (4.8) Доказательство. Из доказательства леммы 3.1 и независимости критериев получаем 'Λ-·ι».-4-ιΤπ(ί:!)(::ί)· что вместе с (4.1) дает (4.5). 144
Если относительный ранг га-го варианта равен ils то его ранг среди первых га + 1 вариантов равен либо il, либо il + 1. Первое событие осуществляется с вероятностью (га + 1 — il)l(n +1)» а второе — с дополнительной вероятностью. Отсюда по формуле полных вероятностей получаем (4.6). Неравенство (4.7) равносильно т неравенствам <?»(i)<<?n(i + eO, (4.9) которые будем доказывать индукцией по нижнему индексу от больших значений к меньшим. Справедливость дервого шага вытекает из монотонности функции потерь: QN(i) = q(i)<q(i + el)=Q^(i+el). Пусть (4.9) выполняется при нижнем индексе га + 1 <^ N. Из (4.6) получаем 9га + М = £<?Г>,а+е,+ е)П" + ",<'' Г'1,-'-"·'''= - ^f ς<& с+«.+«> π "·+1>/(-:-у - <-""''+ "* е»«=о fr«=2 ~ +Ш Σ<&«+«.+о π(в+"' "'„--.."г (~if'" - εχ=ο ε1=ο β1=*ι ε»=ι По предположению индукции ?2n(i + ei + e)>?2n(i+e)l следовательно, каждое слагаемое четвертой суммы не меньше аналогичного слагаемого второй суммы, получающегося заменой ε1 на 0. Следовательно, ε»=0 ε*«=1 Аналогичное рассуждение справедливо и для 1 = 2, . . ., /га, что доказывает (4.7). Формула (4.6) представляет Q„ (k) в виде выпуклой комбинации Qn (k) = Σ KQL· (к + ε), Σ λε = 1, λβ > 0, 145
а в силу (4.7) $*(k + e)>0&i(k), откуда вытекает (4.8). Лемма доказана. Цена продолжения^ не убывает по нижнему индексу, поэтому полагая d% = min {n I Q% (k) < i^+1>, (4.10) мы из (4.8) можем заключить, что (4.2) эквивалентно τ" =>in {га J n > d$n), (4.11) где dy — случайная величина, равная к на множестве {Yn = к}. Таким образом, внешне оптимальное правило (4.11) не отличается от оптимального правила в однокритериальной задаче (ср. (3.8)), но отличие имеется, и оно существенно. Пороги в многокритериальной вадаче лишь частично упорядочены. Неравенство (4.7) доказывает импликацию i>-j-K*iW><*f. и в общем случае выполняются только эти неравенства, что приводит к значительным трудностям при явном вычислении порогов и цены продолжения. При т ^> 1 оптимальное правило удобнее выражать в терминах остановочных множеств Г^ = {к|п1^к,^(к)<^+1}, т. е. множеств тех значений относительных рангов η-го вариантаг при которых следует останавливаться. В этих терминах xN = mm{n\Yn<=T%h и минимальные средние потери (4.4) задаются формулой Ji\ п"1 / card TN \ w-ч Щ (Xtn) = £ ir- Π (1 ргЧ Σ QS (О- (4.12) Внешне эта формула выглядит более компактно, нежели (3.11), но найти пороги путем минимизации (4.12) можно только для совсем простых функций потерь, а в общем случае мы имеем дело с iV™ целочисленными переменными. Как и в задаче с одним критерием, минимальные средние потери могут только увеличиться с ростом числа вариантов. Доказательство этого факта отличается от случая т = 1 (лемма 3.2), так как прежний способ «вложения» задачи с меньшим числом вариантов в задачу с большим числом вариантов не обобщается на случай т ]> 1. 146
Лемма 4.2. Для любых Ν ^ 1 о > £*, .·. Доказательство. Рассмотрим задачу с N + 1 вариантами. Можно считать, что τ*+ι > 1, так как при выборе первого варианта средние потери равны ν%11 > ν*+1. Следовательно, <πν+ι принимает значения 2, . . ., TV + 1. Пусть Χή+ι —вектор рангов (п + 1)-го варианта среди всех вариантов, исключая самый первый, η = 1, . ., N. Аналогично, пусть ι п+1 — вектор рангов (п + 1)-го варианта среди первых (п + 1) вариантов, исключая самый первый, η = 1, . . ., N. Поскольку Хп+1 >- Лп+1, ТО Но переменные (Υ^ . . ., Υίν+ι, Хг» · · ч Хлг+ι) имеют то же совместное распределение, что и (Υ1? . . ., ΎΝ, Xlf . . ., Х^), и не зависят от абсолютных рангов первого варианта. Следовательно, τΛΓ+ι может рассматриваться как рандомизированное правило остановки в задаче с N вариантами, и по теореме 1.11 Mg(X>+i)>Mg(XxiV). Лемма доказана. В многокритериальной задаче <Yn, q (Xn)> имеется т классов правил остановки, основанных на наблюдении относительных рангов только по какому-нибудь одному из критериев, но в общем случае ни один из этих классов оптимальное правило τΝ не содержит· 4.2. Предельные соотношения 4.2.1. Между многокритериальной задачей <Yn, q (Xn)> и ее предельной формой имеется менее полная аналогия, нежели в^случае одного критерия. Главное отличие состоит в том, что в предельной задаче наблюдаемые случайные величины являются скалярными, в то время как в задаче <Yn, q (Xn)> они векторные. На интуитивном уровне причины этого несоответствия можно объяснить примерно так. Когда N -»- оо, то с бесконечно малой вероятностью существуют варианты, имеющие ограниченные абсолютные ранги хотя бы по двум критериям, поэтому множество всех вариантов разбивается на два подмножества: в первое подмножество входят варианты, имеющие бесконечно большие ранги по всем критериям, а второе подмножество состоит из вариантов, имеющих конечный ранг по одному из критериев и бесконечно большой по всем остальным. Первое подмножество нас не интересует, так как выбор его элементов приводит к потерям, близким к максимально возможным. Второе подмножество само разбивается на т подмножеств, которые будем называть группами, так 147
что варианты в Z-й группе имеют конечный ранг по Z-му критерию. Если мы выбираем вариант из Z-й группы с абсолютным рангом по Z-му критерию равным к, то потери близки к gz(£) = g(oo, . . ., οο,λ, оо, ..., оо). Следовательно, асимптотически мы имеем дело не с одним множеством вариантов, сравниваемых по нескольким критериям, а с т равномерно перемешанными группами, причем варианты из одной группы сравниваются только между собой, так как потери от остальных сравнений не зависят. В определенном смысле можно сказать, что многокритериальная предельная задача есть результат взаимодействия т однокритериальных задач <У{, ql (Xt)}, поэтому мы обозначим ее <Х\ ql (X*)>m. Сформулируем задачу <Y*, ql (Xt)}m. Пусть имеется т независимых последовательностей независимых равномерно распределенных на единичном интервале случайных величин Tz = = (Т[, Т\, ...). По каждому вектору Т1 определим Ζ1 (£), Х\ и Υ* так, как это делалось в п. 3.2.2. Введем неубывающее семейство 0-алгебр rt = ^(Z1(Z),...,Zm(i)) и будем рассматривать класс 9R правил остановки τ таких, что 0<τ<1, {τ<ί}Εί<,Κΐ. xGrt U {1>. Случайная величина Tln интерпретируется как момент появления л-го по качеству варианта из Z-й группы, под событием {τ = = Τιη) подразумевается выбор правилом τ этого варианта, а под событием {τ = 1} подразумевается пропуск всех вариантов. При выборе вариантов из Z-й группы потери определяются функцией потерь ql (·), причем q1 (оо) = ... = qm (оо) и таковы потери при τ = 1. Средние потери правила τ определяются как тп Д М (ql (Χιτ) /(те(Г^) + g1 (оо) Ρ {τ = 1}, инфимум средних потерь обозначим v. Модификации рассуждений п. 3.2 столь незначительны, что все утверждения, относящиеся к задаче (Ylt, ql (Х\)}т мы сформулируем без доказательства. Прежде всего, цена класса правил остановки τ > t достигается за счет правил, не зависящих от ft, обозначим эту цену ν (t). Теорема 4.1. Если ν < оо, то ν (·) непрерывна на [О, 1) и является решением дифференциального уравнения т оо ν> о=4- Σ Σ{v {t) - **(ί))+' (4·13) ί=1 fc^i
яде оо М(0 = £*(9(£1)**<1-0". (4.14) Определим порог δ* как корень уравнения Rlk (t) = v (t). Ясно, что δχ ^ δ£ < . . ., и в общем случае между порогами из различных групп могут выполняться любые неравенства или равенство. Теорема 4.2. Если ν < оо, то правило остановки min{t<={Tln}\t>6lYlh 1, если это множество пусто, является оптимальным. Если хотя бы в одной из однокритериальных задач <У*, ql (Xt)} минимальные средние потери конечны, то и ν <С °о, так как мы можем следить только за вариантами из 1-я группы. Таким образом, конечность ν может иметь место даже когда некоторые из ql (·) тождественно равны оо. 4.2.2. Задача (Yt, gl (Х\)Ут имеет конечный аналог, который обозначим (Yln, Я1 (Хп)Ут, но он не совпадает с <Yn, q (Χη)>· Сформулируем расслоенную задачу (Yln, ql (Х1п)Ут. Пусть имеется т групп по N вариантов в каждой. Варианты из одной группы можно сравнить друг с другом, а варианты из различных групп сравнивать нельзя. Все mN вариантов появляются в случайном порядке так, что (mN)\ возможных перестановок равновероятны. При выборе варианта из Z-й группы потери определяются только результатами его сравнения с другими вариантами из 1-й группы. Требуется найти правило остановки, минимизирующее средние потери. Пусть Υ[, . . ., Υ1ν и Х[ . . ., ΧΝ те же, что и в п. 4.1.1 случайные величины, но по-другому интерпретируемые: Υη и Хп есть, соответственно, относительный и абсолютный ранг тг-го по порядку просмотра варианта из 1-й группы. Схема наблюдений относительных рангов в задаче <Xln, ql (^n)>m естественно связывается со случайным блужданием по тп-мерной целочисленной решетке. Представим себе частицу, которая начав с точки 01 = (0, . . . . . .,0) за ягУУ шагов перескакивает в точку ΝΪ. На каждом шаге частица перескакивает по одному из положительных направлений с вероятностями Ρ (η, η + е,) = ^— , при этом скачок из точки η в точку η + ej соответствует появлению (п1 + 1)-го варианта из 1-й группы и наблюдению его относительного ранга Υ1ηι+Χ· Вероятности переходов выбраны так, чтобы 149
все т групп вариантов были равномерно перемешаны. Нетрудно видеть, что все траектории частицы с началом в 01 и концом в #1 равновероятны и что между порядками появления вариантов (с точностью до нумерации вариантов внутри групп) и траекториями имеется взаимнооднозначное соответствие. В принципе задача <Υ"ή, ql (Х1п)Ут сводится к обычной (детерминированной) схеме наблюдений, но при этом независимость наблюдений теряется. Назовем точки, по которым блуждает частица, этапами. На этапе η может наблюдаться одна из случайных величин Υη4 . . ., Υ™™, и если остановка производится на Υ1 г, то ожидаемые потери составляют QNi (Ζ, Υ7/), где «^=1Γ'<ο(-ο(ώ)/ά· <4л5> Оптимальное правило можно найти с помощью простого обобщения метода обратной индукции, однако Мы на этом не будем задерживаться в связи с тем, что от задачи <У^, ql (Xln)}m нам потребуются только два неравенства. Пусть 3Rj — класс правил остановки, не выбирающих ix — 1 первых вариантов из первой группы, . . ., im — 1 первых вариантов из т-ш группы, и w? — его цена. Если j >- i, то 3Rj (Z З^ь поэтому wf > w?. Интересно отметить такое отличие от задач с детерминированной схемой независимых наблюдений: w$ не является ценой в задаче с начальным этапом j. Лемма 4.3. Для всех η = 1, . . ., N «u>Mmin(i4fl)lf ρίΤ(1, У*),. ·., Qn (m, О· Доказательство. Пусть τ — произвольное правило остановки из класса 9)}ηι. Если τ останавливается на одном из значений Υχη, . . ., У™, то ожидаемые потери не меньше mmQ%{UYln). Предположим, что τ не останавливается ни на одном из Υη,.. ., Y™f тогда на каждом множестве [Yl = у1, . . ., YJJ1 = ут} правило τ можно рассматривать как правило остановки из класса $И(п+1)1» т. е. ожидаемые потери при пропуске Υη, . . ., Υϋ всегда не меньше μ$+ι)ι· Лемма доказана. Заметим, что в случае т = 1 эта лемма превращается в равенство, которое является уравнением обратной индукции. Следующая лемма показывает, что в многокритериальной задаче потери меньше, чем в расслоенной. Лемма 4.4. Для всех η = 1, . . ., N 150
Доказательство. Из (4.5) и (4.15) получаем #(к)<тт0?(ЬА<). (416) Имеем vn+1 = u>(w+i)i = °ο· Пусть нужное] неравенство справедливо при некотором η = 2, ..., N + I, тогда ι£+1 < u$+1)1, и из леммы 4.3, (4.16) и (4.3) получаем! ι£ = Μ min (ι&χ, <?£ (Υη)) < Μ min (<+1)1, Q*[ (Yn)) < < Μ min (wfbtfl, QS (1, Υ'η), ...,QU™> Υ η)) < u£ . Индуктивный переход завершает доказательство. Лемма 4.5. При всех t S [0, 1) Доказательство. Рассмотрим рандомизированную модификацию задачи <Υ^, ?' (^n)>m» B которой моменты появления всех mN вариантов случайны, и осуществим вложение в задачу (Yu ql (Xt)my так, как это делалось в п. 3.3.2. Положим N\ равным числу вариантов из 1-й группы, появившихся к моменту t и имеющих абсолютный ранг не больше N. На множестве {N} = га1, . . ., NT = пт) цена продолжения в рандомизированной задаче (Yln, ql (Xln)}m равна и£, где η = (η1, . . ., пт) и^- цена продолжения в задаче (Ylni ql (Х1п)Ут с начальным этапом п. Следовательно, uSl{N} = n\...,Nr = nm}^v(t)I{N} = n\...,N? = nmb Опуская детали, набросаем схему оставшейся части доказательства. Во-первых, следует воспользоваться оценкой вероятностей больших уклонений (3.36) примерно так, как это делалось в лемме 3.6. Далее, следует перейти к новым координатам, разложив случайное блуждание на две составляющие — детерминированное движение вдоль главной диагонали куба и «настоящее» блуждание в гиперплоскости, перпендикулярной диагонали, с тем чтобы показать, что уклонение траектории от диагонали имеет порядок ΫΝ. Наконец, используя оценку приращений и% через одно- критериальные цены продолжений, показать, что в масштабе ΥΝ цены этапов непрерывны и и^\ ~ и?п\ при η/Ν ->■ t. Лемма доказана. 4.2.3. В этом разделе будет доказана сходимость цен продолжений в многокритериальных задачах с усеченной функцией потерь. Промежуточные модели, которые вводились в п. 3.3.3, не имеют многокритериальных аналогов, и это вынуждает нас обратиться к аналитическому методу. 151
Представим множество всех целочисленных положительных векторов i εξ Rm как объединение попарно непересекающихся множеств UM = {i| все компоненты i больше Af}, Wm = {i| найдутся две компоненты i не больше Af}, VlM = {i I только 1-я компонента i не больше Af}, I = 1, . . ., т. Пусть JN (Z Rm — целочисленная решетка куба со стороной [1, N]. Легко видеть, что card JN = ΛΓ, card (JN f] UM) = (N — M)m, card (JN f]VlM) = M(N — M)^h (4.17) card (JN П WM) = Nm — (N — M)m — mN (N —М)т'г = = 0(Nm-2). Положим по определению qlM(i) = q{M Sefe + iez), ( ffM (i1)» если l e ^if» Ζ = 1,...» m; gM(i)= 9(0» если iG^M; [ g (ATI), если i e Ум» и назовем функцию потерь ?м (·) усеченной (по отношению к исходной g (·)). На множестве WM усеченная функция потерь совпадает с исходной, на множестве Um она постоянна и равна своему наибольшему значению, а на каждом из множеств Ум зависит только от il. Все переменные, относящиеся к усеченной функции потерь, будут снабжаться дополнительным нижним индексом. Определим Qmu (^ к) как функцию ожидаемых потерь в одно- критериальной задаче <У£, дм (Χή)>, т. е. причем в этой сумме не более Μ различных значений дм (0· Если к е= Ум, то функция ожидаемых потерь в задаче <УП, дм (-Хп)> равна £мп (к) = <&(/,#)> (4.19) а если к Е= £7м> to <?мп(к)=д(М1). (4.20) Из (4.19) и (4.20) следует, что многие из порогов (4.10), определяющих оптимальное правило Тм, совпадают, а именно: если к е UM, то ймк = N, а если к б= Fm, to ймк = ам(/,Л:*)> dei т. е. пороги с одинаковыми к совпадают. Как мы увидим далее, от 152
остальных порогов средние потери асимптотически не зависят, лишь бы эти пороги имели порядок ЛГ. Положим оо Μ»(*) = ^ώ(*)(,[ΐ|) <*(1-<)*"*. (4.21) Лемма 4.6. Для всех I = 1, . . ., т и к = 1, 2, . . . sup | <?JL (i, ^) _ дЦ-J.) | = <?(.£). Доказательство. Представим (4.18) и (4.21) в виде М-1 . «Ц-М- ΣΑ« Π! (т)(1-^Г+«Л(ю. (4.22) Μ—1 ?&.(«·*) = £,flk (i) Ql}) ("l*) / (*) + Мм (М), (4.23) где сумма всех коэффициентов при glM (·) равна 1, и Lj =0, если кх < ^2. Отношение ( __,)/( ) является произведением i сомножителей вида (п — /^/(iV — &2) или (N — л — /^/(iV — &2), поэтому найдется положительное число с такое, что при всех i ^ ^к ^ Μ и Ν ^> Μ верно неравенство £:ЖП*П1-*Г\< с W Следовательно, все коэффициенты в (4.22) и (4.23) различаются на величину порядка О (1/Ν). Лемма доказана. Следующая лемма утверждает, что оптимальное правило принимает только значения порядка N. Лемма 4.7. Если хотя бы при одном I = 1, . . ., т не выполняется равенство д1м (Μ) = дм (1)» то существует δ > 0 такое, что Чм > Νδ при всех N = 1, 2, .... Доказательство. В силу (4.11), %м > аму и поэтому достаточно показать, что отношение dlMtilN отделено от нуля при всех N. Поскольку дм (i) ^ Ям (il), то имп не превосходит цену продолжения в однокритериальной задаче (Yln, qlM (Χή)>. Но в этой задаче цена продолжения равномерно отделена от дм (М) = = д (Mi) при η/Ν <. 1/2, и значит, то же верно и для Vmu- По лемме 4.6 <?мп(1)-*(7(М1), η/Ν->0, 153
поэтому соотношение lim infill =0 вместе с (4.10) приводит к тому, что vm -*g (Mi), т. е. к противоречию. Лемма доказана. Пусть vM (·) — решение на [0, 1] дифференциального уравнения т Μ 4 W = -f- Σ Σ (ум (t) - Дм* (ί))+ (4.24) с граничным условием Ум (1) = q (M 1). (4.25) Следующий результат для усеченных функций потерь является основным. Лемма 4.8. Справедливо соотношение sup | νΜ (η/Ν) — ν^η Ι - Ο (l/N). η Доказательство. Все вводимые далее константы положительны. Представим (4.3), используя равновероятность всех значений вектора относительных рангов, в виде разностного уравнения Ум, η+ι - !& η = -4 V. (4, п« - ?м« (к))+ (4.26) η *~Δ k€=Jn с граничным условием Vmn=-±t £ ?м (к). (4.27) Согласно лемме 4.7, в оценке разности достаточно ограничиться значениями η ^> Νδ. Положим гп=\»м(п/Щ-и&п\. (4.28) Из определения усеченной функции потерь, (4.17), (4.25) и (4.27) получаем ε*=^Σ(?Μ(*)_?(Μ1))=^ Σ (···)+ + JNC\Wm lt=1 jNnvL Теперь мы хотим рекуррентно оценить εη через Βη+Χ. Сначала заметим, что правая часть (4-24), рассматриваемая как функция 154
переменных t и vM, в прямоугольнике [δ, 1] Χ [0, q (M 1)] ограничена и имеет ограниченные частные производные, причем эти производные имеют не более тМ линий разрыва, поэтому найдется константа с2 такая, что I / η \ / n+ί \ . ' / * +1 \ 1 I ^ <?а | Vm \ΊΓ) - Vm V—^v—J + Vm \"7v"j "ЖI <~W · Следовательно, из (4.26) и (4. 28) вытекает, что ~ ^ е* ι I /л+1\ ' / η +1 \ 1 ν \ сг гп <. -]уГ + | VM у N J — VM у N J-jy VMn J = -jp + + 4r£(...)+|- Из (4.24) получаем m Μ vm {ILjr) 4- = 7ΓΤΤ Σ Σ Μτ")_ Д*™ ("^Ж-))+· Кроме того, при /г > iVS из (4.17), (4.19) и (4.20) следует, что 4γΣ<···γ-4γ Σ<···>*+^Σ (··■»' + Jn 'nnuM JnnwM τη +^Σ Σ, <·■·>*= τη Λί =^ψ^ £ Σ («д. η+1 - <& η« (/. *»++о щ. i=i /f=i Используя оценку леммы 4.8, получаем требуемую рекурсию «»< jji·+ (#- + 1) W (4-29) Последовательное применение (4.29) от больших значений к меньшим дает iV-n+l 8,<(ι+^-Γ«„+^Σ(1+τ)'< Jc=0. 155
-(«+*N+*((1 + *r-1)4- Из доказанного выше неравенства ε# <С cxIN теперь при N -> оо получается оценка ^ττ^+ΐ^-^ + ^τί-). верная для всех η ^ N. Лемма доказана. Приведем некоторые следствия. Поскольку вероятность существования варианта с относительным рангом Υη Ε: Wm при η ]> }> δΝ бесконечно мала, то пороги d£k, k Е= Т^м можно заменить на любые другие, например, dMk = N. Из (4.10), леммы 4.6 и леммы 4.8 следует, что -jy- ам (Ι* к) —> δΜ&> где пороги 61ми определяют оптимальное правило в предельной задаче (теорема 4.2). Следовательно, существует асимптотически оптимальное правило остановки, определяемое всего только тМ порогами, например, ШЬмь], где [·] —целая часть. Замечание. Усечение q (·) и определение #м (·)» или оп- ределение ql (·) и затем усечение, приводят к различным функциям потерь. В первом случае мы получаем q (Μ, . . ., i, . . ., Μ), где i <ζ Μ, а во втором случае — q (оо, . . ., i, . . ., оо). 4.2.4. Следующая теорема является основным асимптотическим результатом в задаче <УП, q (Xn))· Теорема 4.3. Для любой функции потерь q (·) и t G: [0, 1] 1) lim v% = v(t); n/N-t 2) если v<oo, то для любого ε ^> 0 lim sup \vn— v(n/N)\ = 0; N-юо n>N(l—ε) 3) если функция потерь ограничена, то в 2) можно полошить ε = 0. Доказательство. Для усеченных функций потерь утверждение следут из теоремы 4.1 и леммы 4.8. Пусть τΜ —оптимальное правило в классе правил τ ;> t в задаче (Ylt, qlM (Х1)Ут> Это правило задано конечным набором порогов. Выберем такую подпоследовательность значений Л/, чтобы одноименные пороги сходились. Далее воспользуемся аргументами леммы 3.9, чтобы доказать сходимость vM (t) f v (t). Поскольку усечение не увеличивает потерь, то Vmu ^ *>τί> и вместе со сходимостью Vmu -*~vm (t) J v (t) это доказывает неравенство lim inf Vn^v(t). n/N-+t 156
Докажем обратное неравенство. Из лемм 4.4 и 4.5 получаем lim sup Vn <ζ lim sup w%i ^ ν (t). n/N-+t n/N-^t Это доказывает 1). Утверждения 2) и 3) вытекают из монотонности Vn no η и непрерывности ν (·) при ι; < оо. Теорема доказана. Заметим, что более слабый результат: ν% -*-ν можно получить из лемм 4.2 и 4.8. 4.3. Случай равноценных критериев и некоторые примеры 4.3.1. Анализ многокритериальных ранговых задач сильна затрудняет отсутствие линейной упорядоченности порогов. Кроме тривиального случая, когда функция потерь зависит только от одного из абсолютных рангов, существует еще один случай, в котором имеется линейное упорядочение порогов. Скажем, что имеет место случай равноценных критериев, если для любой перестановки «чисел 1,..., т и любых i = (i1, . . ., im) g(iif...fr) = g(f:a>f...fi^)). В этом случае «допредельные» пороги dk упорядочены лишь частичного вот пороги δ& упорядочены уже линейно, поскольку имеется равенство qi(k) = ... =qm(k) (4.30) и, следовательно, б£ =. . , = б™. Равенство (4.30) естественно назвать случаем асимптотически равноценных критериев. Это понятие более общее, нежели равноценность. В этом параграфе будут рассматриваться только функции потерь, удовлетворяющие (4.30), поэтому у всех переменных, связанных с функцией потерь, верхний индекс будет опущен. Основное уравнение (4.13) принимает вид оо "'(*) = -гХ,И*)-Д*(0)+. На интервале (6^, δι+1) имеется лишь i слагаемых, т. е. и два граничных условия ν («О = Hi (β,), υ (6i+1) = Ri+1 (fii+1). 157 (4.31)
Поскольку (4.31) равносильно ТО 1;(*) = рт*54(*) + с*т<, где ί i О fr=l Из граничных условий получаем два соотношения (б{)">ад) + с(б{г*=д{(б{), (6i+i)mi Si («♦«) + с (6i+1)™ = Д{+1 (δί+1), откуда #((б() = бч(б1+1), (4.32) где Я, (i) = Si (t) - A£L , Gi (t) = -4- St (t) (t - Ri+1 (t))mK t I Если бм = 1» то (4.32) позволяет рекуррентно вычислять пороги, отправляясь от i = Μ — 1. 4.3.2. Пусть функция потерь имеет вид О, если найдется il = i,l — i,...,m, ί О, i0)-{lt в остальных случаях. Ясно, что минимизация средних потерь эквивалентна максимизации вероятности остановки на варианте, наилучшем хотя бы по одному из критериев. Пусть ρ (к) равно числу единиц среди А1, ... . . ., Ат. Функция ожидаемых потерь в задаче <Yn, q (Xn)> имеет вид QZ(k) = (l-n/N)*M, поэтому пороги dk зависят только от ρ (к). Положим bi = d^i если ρ (к) = Ζ. Оптимальное правило представляется в виде ( Ν, если это множество пусто, однако при N -* оо существенным оказывается только порог Ь^· Поскольку условие равноценности критериев выполнено, то 0.31) на [δχ, 1] превращается в уравнение (v(t)/tmY =т/Г, t>(l) = 1, 158
поэтому 1 2_(ί_Γ), если «χΐ/Λ^Η V (t) = . 1 _ (l/7ra)i/<™-D, i<(l/jn)i/(m-Df в силу того, что Ri (t) = 1 — t и δχ = (i/m)1^'1^. Таким образом, Ь^/iV -* δχ и вероятность выбора варианта^ лучшего хотя бы по одному из критериев, асимптотически равна (i/m)1^m"1h Асимптотически оптимальным оказывается простое пороговое правило: «пропустить приблизительно N (l/m)1^"1"1) вариантов, а затем остановиться на первом же варианте, который является относительно лучшим хотя бы по одному из критериев»» Таблица 9 N 2 0,750 4 0,724 6 0,642 8 0,610 10 0,586 20 0,544 30 0,529 40 0,522 Следует сравнить этот результат с формулами (3.77) и (3.78), относящимися к задаче Гусейн-Заде. Числа т и г играют одинаковую роль — в обоих случаях это число вариантов, которые нас устраивают больше всего (с учетом того, что при R -* оо вариант, лучший сразу по двум критериям, существует с бесконечно малой вероятностью). Однако здесь имеется и существенное различие: в задаче Гусейн-Заде число (Ι/γ)1^7"-1* дает лишь грубую оценку снизу вероятности остановки на одном из г лучших вариантов (как мы видели в п. 3.5 при г -* оо эта вероятность с экспоненциальной скоростью стремится к 1), а в рассматриваемой задаче большего достигнуть нельзя. Число (l/r)1^7""1) еще появится в более общем контексте. В табл. 9 приведены численные значения оптимальной вероятности остановки на варианте, наилучшем хотя бы по одному и» критериев, при т = 2 и конечных N. 4.3.3. Рассмотрим функцию потерь q (i) = min (i1, . . ., im). Таким образом, потери равны наименьшему абсолютному рангу выбранного варианта. В этом случае Rk (t) = Ar/ί, поэтому прямое вычисление (4.32) приводит к соотношению Ji—(i ι 2(iw + l) \- 6fc+1 —Г + «(т*-1д + 2)/ что вместе с 6к | 1 дает 2 (mi + 1) \-i/(*»i+i) = ТТ/1+ 2(mt + l) V ■ ^[1^i(mi-m+2)) Минимальные средние потери ν находятся из уравнения i?! (δχ) = υ (δ,) = 1/βχ,
откуда ,=n(i+i(y+!!2r)1/w i=al \ Hmi — m + *) I Мы получили обобщение формул примера 4 из п. 3.3.4. Замечание. В обоих примерах ν (t) -* 1 при τη, -* оо. Возникает вопрос — а имеют ли ранговые задачи предельные формы по числу критериев? Рассмотрим «задачу с N вариантами и бесконечным числом критериев». Модельное пространство для этого имеется вполне подходящее — это счетное число экземпляров единичного отрезка, на каждый из которых бросается по N точек, символизирующих ранжирование по соответствующему критерию. Теперь,если потери определяются сравнениями лишь по конечному числу критериев, то ничего нового не получается. Если же потери определяются «полным» вектором абсолютных рангов, то вадача становится тривиальной, поскольку все интересующие нас события являются «хвостовыми» и, следовательно, по закону Колмогорова имеют вероятность 0 или 1. То же самое относится и к предельному переходу <Y*, q (Xlt)>m -+<Уи ql (Х*)>°°. 4.4. Остановка на парето-оптимальном варианте АЛЛ. В оставшейся части книги будут рассматриваться только задачи максимизации вероятностей определенных событий, поэтому мы возвращаемся к терминологии первой главы —эффект выбора будем описывать термином «выигрыш». Проанализируем те предположения, которые приводят в одно- критериальных задачах к определению выигрышей монотонной функцией абсолютного ранга выбранного варианта. Вотэтипред- положения: 1) эффект выбора зависит только от сравнения вариантов, из которых выбор может быть сделан; 2) эффект выбора тем выше, чем лучше выбранный вариант. Если все варианты можно линейно упорядочить по качеству (например, путем измерения или числовой оценки), то набор абсолютных рангов (Хи . . ., Xn) содержит всю информацию о сравнениях вариантов. Пусть τ — способ выбора (правило остановки), предположение!) приводит к тому, что при τ = η эффект выбора зависит только от (Хп; Хи . . ., Χχ), а поскольку (опять в силу 1)) эффект не зависит от порядка появления вариантов, то существенной оказывается только пара (Хп; Ν). Если число обследуемых вариантов фиксировано заранее, то эффект зависит только от абсолютного ранга выбранного варианта. Таким образом, предположение 1) позволяет в качестве исхода одного полного просмотра рассматривать одно из чисел 1, . . ., N. Предположение 2) приводит к тому, что исход i является более желательным, нежели исход /, если i < /. Всякое правило остановки порождает некоторое распределение вероятностей на множестве исходов {1,. . ., Ν}χ 160
и при определенных предположениях о структуре предпочтений на множестве распределений, согласно теории ожидаемой полезности фон Неймана—Моргенштерна, существует такая монотонная функция q (i), что эффект выбора описывается средним значением Mq (Хт). Теперь посмотрим, к чему приводят предположения 1) и 2), когда варианты сравниваются по нескольким, скажем т, критериям. Всю информацию о сравнениях вариантов опять-таки содержит набор векторных абсолютных рангов, поэтому эффект выбора опять должен зависеть только от (Хп; Х2, . . ., Хп). Пусть т = 2, тогда устранение произвола в порядке появления вариантов приводит к паре (Xn; L1###i )) * где векторы абсолютных рангов упорядочены по величине абсолютного ранга по первому критерию. Таким образом, множество возможных исходов значительно увеличивается, и теория ожидаемой полезности предлагает описывать эффект выбора средним значением Щ (Χτ; 0*ι» · · ·» Ы) некоторой функции. Предположение 2) приводит к условию монотонности: если Xr= (k1 ik), Х8 = (η, in), и!4>- Хг, то q (Xr; (iv ..., iN)) > q (Xs; (£lf ..., iN)). Если число критериев больше двух, то функция выигрыша должна зависеть уже от нескольких перестановок. Так, при т = 3 мы приходим к зависимости вида β х»; Тот случай, когда функция выигрыша зависит только от Xns соответствует предположению: Г) эффект выбора зависши только от сравнения выбранного варианта со всеми остальными, из которых выбор может быть сделан, которое в случае одного критерия равносильно 1). В трех предыдущих параграфах была построена достаточно полная асимптотическая теория для зависимости q (Xn), соответствующей 1'), когда наблюдению подлежат только результаты сравнения просмотренных вариантов, выражаемые последовательностью относительных рангов. Решающим обстоятельством здесь оказалось то, что в задаче остановки имеет место случай независимых наблюдений: относительные ранги \ъ . . ., Yyv независимы, и ожидаемый при выборе η-го варианта выигрыш Μ(?(Χη)|Υ1,...,Υη) = (?ίΤ(Υη) зависит только от Yn. Введение зависимости выигрыша от сравнения всех вариантов сильно усложняет задачу, так как в общем случае ожидаемый выигрыш зависит от всех наблюденных относительных рангов. По- */г6 Заказ Μ 3752 161
строение единой асимптотической теории для всех видов зависимостей здесь не представляется возможным в связи с тем, что (безотносительно к задачам остановки) асимптотические распределения многих довольно простых функций от перестановки (тем более — от нескольких перестановок) в настоящее время неизвестны. Мы рассмотрим только один вид зависимости, который естественно возникает в контексте многокритериальной оптимизации. 4.4.2. Пусть N вариантов сравниваются между собой по двум независимым критериям1 т. е. все значения пары строк Xl · · · XN/ равновероятны. Мы будем обращаться с векторами абсолютных рангов как с элементами множеств, подразумевая под этимх что Хп — это и есть «сам вариант». Скажем, что n-й вариант является парето-оптимальным среди всех N вариантов (обозначается Χη €Ξ С^ {Xlt . . ., Xjv})> если для любого i = 1% . . ., N xn>-xi=^xn=xi. Таким образом, вариант парето-оптимален, если никакой другой вариант не улучшает его сразу по обоим критериям (напомним^ что чем меньше ранги, тем лучше вариант). Аналогично определяется парето-оптимальность в любом подмножестве множества в JV вариантов, т. е. для любого подмножества {пи . . .4 пк} (Z {1, . . ·! N). Следующий результат хорошо известен в многокритериальной оптимизации. Лемма 4.9. Для любого JV = 1,2,..., uw = 2 Ν Μ card C& (Xv ..., ΧΝ) = V — · Доказательство. Упорядочив варианты по первому критериЮа мы получим с равными вероятностями любую из перестановок /1...ЛГ\ \ii...iN) ' Определим Yjv как ранг гп среди ?lf . . ., in, случайные величины Υ и · · ·ι Υ ν обладают обычными свойствами относительных рангов. В следующем рассуждении под и-м вариантом понимается пара (и, in). Первый вариант всегда является парето-оптимальнымг поскольку он наилучший по первому критерию. Второй вариант может быть улучшен только первым вариантом (все остальные хуже его по первому критерию), причем это не происходит только если i2 <C in т. е. Уа = 1. Третий вариант может быть улучшен 162
только первым или вторым, поскольку все остальные хуже его по первому критерию. Указанное событие не осуществляется только в случае Y3 = 1. Продолжая в том же духе, мы видим, что п-й вариант является парето-оптимальным тогда и только тогда, когда Υη = 1. Следовательно, Ν Ν Μ card С#> {Xv ..., ΧΝ) = Μ (£ /(yn=ii) = £ -Jr . Лемма доказана. Из леммы вытекает, что при большом числе вариантов среднее число парето-оптимальных вариантов имеет порядок In N (дисперсия также имеет порядок In N). 4.4*3. Обратимся к задаче остановки. Пусть τ — произвольное правило остановки, измеримое относительно σ-алгебр f n = = 53 (Ylf . . ., Υη), η = 1, . . ., N. Положим выигрыш равным 1, если выбранный вариант Χτ оказывается парето-оптимаНЬным среди всех N вариантов, и 0 — в противном случае. Ясно, что такая структура выигрышей удовлетворяет условиям 1) и 2) в начале параграфа; Средний выигрыш равен вероятности P{XTeO{Xi,...,Xiv}} выбора парето-оптимального варианта. Мы хотим найти оптимальное правило τ^ и максимальный средний выигрыш Vs. Определим функцию ожидаемого на и-м шаге выигрыша (?5г=Р{Хпе^{Х1,..., xN}\ fn) Покажем, что событие {Хп €= С& {Χι»»...»Хп)} является наблюдаемым, т. е. принадлежит fn. Для этого следует выразить его через Υχ,. . ., Υη, но явно сделать это довольно сложно, поэтому введем текущий ране Yn>fc и-го варианта в момент к !> и, полагая Yn,ic равным числу членов последовательности Χι, . . ., Х]с, не превосходящих Xln, I = 1,2 (с этим понятием мы уже встречались в доказательстве леммы 2.1 и в замечании в конце п. 3.3). Ясно, что Ул, ?7 = Υ„, Υη. Ν = Χη, Ύη>η^ V Υη, η и наборы (Υχ. η , . , ., Υ,ι,η) и (Υχ, . . ., Υη) находятся во взаимооднозначном соответствии. В этих терминах Хп е С&> {Χχ,..., Хп} <н> Υη> п <=: С&> {Υχ. п,..., Υη> η), (4.33) поэтому можно сказать, что текущие ранги в момент η играют ту же роль, что и абсолютные ранги, но в отличие от последних являются наблюдаемыми. Следовательно, на и-ом шаге можно определить, какие из вариантов являются парето-оптимальными в уже наблюденной совокупности. По аналогии с классическим случаем, назовем вариант относительно лучшим, если Υη,пЕС\&{ΐχ, nt... » ιη, м}· 6* 163
Если п-й вариант не является относительно лучшим, то в силу очевидной импликации Xn&C<>{Xv ..., Xj^XngECj^Xi,... ,XN) он не может оказаться парето-оптимальным среди всех N вариантов. Продолжая аналогию в терминологии, назовем вариант Ιη Ε С^· {Хь . . ., ΧΝ} абсолютно лучшим («абсолютный» — не значит «единственный»). Итак, если вариант не является относительно лучшим, то он не может оказаться абсолютно лучшим, поэтому ожидаемый при выборе тг-го варианта выигрыш в этом случае равен 0. Рассмотрим теперь случай, когда n-й вариант является относительно лучшим и найдем Q% в этом случае. Для этого введем марковскую цепь трансформаций текущего ранга 1П = In, n""* *n, ti+i""* · . .—► In, Ν = Χη· (^·34) На каждом шаге к = 1, . . ., N может осуществиться одна из четырех'возможностей Ynf к — Υπ, к Υη, к + ei Yn.lt +«2 с такими вероятностями переходов: ^((^.^«-(ι-τ^Χι-τίτ)· Рк((Ч)ЛиП^)) = (1-1^)ф, Μ(Μ).(« + ΐ./ + 1))-τί (4.35) A + l Λ + i ' Самая нижняя стрелка в (4.35) отвечает появлению в момент к варианта, лучшего чем п-й вариант, сразу по двум критериям. Следовательно, ни один из вариантов Хп+ъ · · ·» Х# не улучшает Хп по обоим критериям, если в (4.34) нет ни одного перехода по нижней стрелке. Нетрудно понять, что все траектории (4.34) с фиксированным началом и концом равновероятны. Действительно, пусть Yn = (i, ;), Xn = (i + $i, J + h)> Т0ГДа среди вариантов Xn+1 , . . ., Xn имеется sx вариантов, лучших Хп по первому критерию, и s2 вариантов, лучших Хп по второму критерию, причем моменты появления этих st вариантов перестановочны и не зависят от (также перестановочных) моментов появления указанных s2 вариантов. Переход по нижней трелке ни сразу не осуществится, если первые s± вариантов и вторые s2 появляются в различные мо- 164
менты. Отсюда следует, что вероятность события при условии Yn = (i, /) задается формулой 0<.+8,<ΛΓ-η (^^J (.+ Si_1)V где последний сомножитель — триномиальный коэффициент. Итак, доказано, что Qn = gn (Yn) / {Xn e <V (Xi, ...ЛИ (4.36) (еще раз подчеркнем, что в силу (4.23) событие в фигурных скобках наблюдаемо). Совокупность последовательных наборов текущих рангов (Yb п, . . ., Υη,η) образует неоднородную марковскую цепь, переходные вероятности которой легко пересчитываются через распределение относительных рангов. Выигрыш при остановке в каком-либо состоянии определяется формулой (4.36). Поскольку число шагов конечно, то оптимальное правило может быть в принципе найдено методом обратной индукции. Таблица 10 N νΝ 2 0,750 3 0,750 4 0,741 5 0,730 β 0,720 7 0,725 δ 0,727 9 0,726 Результаты вычислений νΝ на компьютере представлены в табл. 10. Оптимальное правило описать трудно, так как никакой очевидной закономерности в строении остановочных множеств нет. При больших N даже компьютер не помогает, так как фазовое пространство цепи велико. Так, наборы текущих рангов (Υι, η»· · м Yn, η) принимают по (п\) 2 значений; упорядочение наблюденных вариантов по первому критерию (очевидно, не влияющее на (4.36)) редуцирует фазовое пространство до ~ Ν\ состояний. Наконец, можно не рассматривать те состояния, в которых (4.36) равно нулю, т. е. построить марковскую цепь, связанную исключительно с относительно лучшими вариантами (так мы и делали в первой главе), это приведет к числу состояний порядка 2Ν, но уже к сложным переходным вероятностям. Оставив попытки точного решения задачи, мы найдем удивительно простое асимптотически оптимальное правило остановки. Основной результат следующий: при N -* оо сколь угодно близкая к 1 вероятность остановки на парето-оптимальном варианте может быть достигнута за счет пороговых правил — «пропустить фиксированную часть вариантов, а затем остановиться на первом же относительно лучшем варианте (если такой вообще появится)»· 165
4.4.4. Назовем правило остановки ( min {n>d|Xn'=C^{X1,..., Xj}, Td= 1 дг (4.37) [ Ν, если это множество пусто х ' пороговым с порогом d. Прежде всего, это действительно правило остановки, так как событие {Χη ΕΞ С& {Χχ, . . ., Хп}) принадлежит σ-алгебре fn. Определим К (d, Ν) как число вариантов с номерами d, . . ., N по порядку просмотра, не улучшаемых первыми d — 1 вариантами; L (d, Ν) — как число вариантов с номерами d, . . ,, iV, Парето- оптимальных среди всех N вариантов. Формально, К (d, Ν) = card {Χη Ι η > d, Xn = C* {Χχ,..., X^, Xn}}, L (d, N) = card {Χ,, | η > d, Xn e Ο {Χι>...» Xn}}. Следующая лемма, выражающая вероятность удачного выбора пороговым правилом через эти случайные величины, является основной. Лемма 4.10. Для любого d = 1, . . ., N P{XTd Е^{ХЬ ... ,Х*}} = [ ^MLd¥. {K(dtN)>0} Доказательство. Рассмотрим событие {L (d, Ν) = = Ζ, К (d, N) = к]. Пусть индексы {it, . . ., ik} С {d, . . ., η} таковы, что ίχ < . . . < ik и X;r = C^ {Χχ,..., X^v Xir}, " r = 1,..., k. (4.38) Покажем, что xd = ίχ. Пусть d < и < ίχ, тогда Хп ξΕ б^э {Χχ» ... 9 Xd-1» Xn/> по определению парето-оптимальностиэто означает, что найдется ρ ^ d — 1 такое, что Хп >- Хр, поэтому Хп ф, С& (Хг, . . ., Хп), и, следовательно, rd Φ п. Таким образом, варианты с номерами d, . . ., ίχ — 1 правилом тд пропускаются. С другой стороны, соотношение Xt >- Хп при η = d, . . ., it — 1 выполняться не может в силу транзитивности частичного порядка >-, так как в противном случае мы имели бы Xt >- Хр, что противоречит (4.38). Пусть индексы {/χ, . . ., jt} таковы, что /χ < . . . < /Ί и Xj8 6Ξ Сдо {Χχ, . . . , Xjvb S = 1, . . . , I. Из импликации Χη <Ξ С^> {Χχ,...» Xiv} =^ Χη ΞΞ C& {Χι» · · · > Xd-ii Χη} вытекает, что {/χ, . . ., ]ι) d {ίχ, . . ., ί*}, причем соотношение XTd S C^> {Χχ,..., Xn) равносильно равенству/χ = *ι· Случайные величины Хд, . . .,Х# перестановочны, и событие {L (d, Ν) = lt К (d, N) = к} инва- 166
риантно относительно перестановок, поэтому VQLb<=C+{X19...,XN}\L(d,N)=*l,K(d,N)=.k}** -Ρ{/ι-ίι} = 4"· Лемма доказана. Теперь· мы хотим оценить снизу стоящий в лемме интеграл. Из неравенства L (d, Ν) <^ К (d, N) и неравенства Коши-Буня- ковского [19] получаем 2dP> <W Ρ L(d,N) , Г (Ljd.N) V W>0) {K(d,N)>0) ^ (M(L(rf,/V)/{/ii(tf,/V)>0}))» _ (ML(rf,/V))* ^ μ (λ:2 (rf,/V) / {/: (rf, λτ)>0}) ~ ш?(<*,д') · Положим Xn=/ {Xn £= ^ (Xi» · · ·»Xiv}}t Xn = -^ (Xn S £* {Xi' · · · » Xd-1» Xn)}· Легко видеть, что Ив перестановочностиXd, . . ., Xjv вытекает, что все χ„ одинаково "распределены, и аналогично, все χη одинаково распределены. Следовательно, ML (rf, N) = {Ν — d + 1) ΜχΛ = = (#—<*+ l)P{Xd<=iV<Xi Xw}}*= β ΛΓ-^ + 1 Μ card С*. {Хх Xw). (4.39) Аналогично, MK(d,N)=*(N — d -f l)P{XddC*{Xi,... ,Xd}} = β ΛΓ-^ + 1 Μ card С* {Χχ,...,Xd>. (4.40) Далее, MAT* (d, iV) = (tf - d + 1) (Λ' - d) Μ (χ^+1) + (tf - d) ΜχΛ « = (Λ7 — d + 1) (N — d) Ρ {(Xd <= C& {Χχ,..., Xd}) Λ Λ (Xd+l €= C* (Xl« · · · » Xd-1· Xli+l))) + + ——■— Μ card C& {Xlt... t Xd). Рассмотрим событие {(Xd e c* {Xlt..., Xd» Λ (X*« <= c* {Xlt..., x**, Xd«})>. Пусть yi d+i = i, yj+i, d+i = / и для определенности i < /. Посколь- 167
ку d-й вариант лучше (d + 1)-го по первому критерию, постольку соотношение Xd )>- Xd+i места не имеет и, следовательно, Xd ^ ΕΞ С& {Χχ, . . ., Xd+i}. Если Xd+i Е= С& {Xd, Xd+i}, то ранг (d + 1)-го варианта по второму критерию среди вариантов, текущий ранг которых (на (d + 1)-м шаге) по первому критерию не превосходит ;, равен 1. Ранг d-το варианта по второму критерию среди вариантов, текущий ранг которых (на (d + 1)-м шаге) по первому критерию не превосходит i, также равен 1. Условная вероятность этого события равна 1/i/. Рассмотрим другой случай — Xd+i > Х^. В этом случае ранг (d + 1)-го варианта по второму критерию среди вариантов, текущий ранг которых по первому критерию не превосходит;, равен 2. Аналогичный ранг d-ro варианта равен 1. Условная вероятность этого события равна 1/(/ (/ — 1)). Следовательно, ρ {(Xd εξ f* {Xlf..., xd)) д(х^+1 e c& {Xlf..., χ,,.!, xd+J})} = = d(d + \) 2j [t + i a -1))= г, j=l i<j d-H dfl d+i d(d+i) ((2jT") ~Σ~ + 2Στ) i=l i=l j=l Теперь из (4.39), (4.40) и леммы 4.9 получаем ■((£4-;-Σ++»£4-) -("-',;;^«У.-?-г-Ул+*У.4-)+ + d L· i Пусть N iid стремятся к бесконечности, но так1 что d/N —> δ < 1, тогда воспользовавшись аппроксимациями d-t-l d получаем ML (d, ЛГ) ~ -~ί- In Л/, MA:2 (d, /V) ~ (-^^)2 In2 d и, следовательно, (ML {d, N))* d2 In2 /V MK*(d, N) ~ TV2 lnad 168
Это доказывает, что ] im Ρ {XTd (= C& {Xlf... f X„}} > δ2. d/N-*6 По произволу δ, можно выбрать такую последовательность d (N), чтобы вероятность остановки на парето-оптимальном варианте стремилась к 1 при N —> оо. 4.4.5. Таким образом, класс пороговых правил остановки оказывается асимптотически оптимальным по отношению к любому более широкому классу. Это обстоятельство принципиально отличает эту задачу от всех рассматривавшихся ранее — переход к правилам с «полной информацией» в однокритериальных задачах увеличивает выигрыш. В случае большего числа критериев, т ^> 2, можно следить за сравнениями вариантов только по каким-нибудь двум заранее фиксированным критериям, так как вариант, являющийся парето- оптимальным по двум критериям, является парето-оптимальным по всем. По-видимому, асимптотически оптимальными оказываются также пороговые правила относительно всех критериев (т. е. «пропустить часть и остановиться на относительно лучшем по всем критериям»), однако, наш способ доказательства на случай т > 2 прямо не обобщается. Еще на некоторые обстоятельства следует обратить внимание. Доля пропускаемых оптимальным пороговым правилом вариантов стремится к 1, в отличие, например, от классической задачи. Оптимальная вероятность удачного выбора с ростом N не может монотонно убывать, так как ее предел равен 1. Задача остановки на парето-оптимальном варианте не имеет нетривиальной предельной формы, поскольку все ожидаемые выигрыши в предельной задаче должны быть тождественно равными 1. Разумеется, это не исключает возможности выделения «главной части» сходимости, но в любом случае это эффект «второго порядка». Этим подтверждается выдвинутый в начале п. 4.4 тезис об отсутствии единообразного описания предельных форм задач наилучшего выбора для зависимостей (выигрыша от сравнений вариантов) общего вида. Тривиальное обобщение пороговых правил: «пропустить часть, а затем выбрать первые г относительно лучших вариантов» приводит к возможности со сколь угодно близкой к 1 вероятностью при больших N выбирать любое наперед заданное число г парето- оптимальных вариантов. 7 Заказ Ni 3752 169
4.5. Пороговые правила остановки 4.5.1. Приведем сводку некоторых полученных ранее результатов о пороговых правилах остановки. Здесь N — число вариантов, d* — оптимальное значение порога, ср^ (d) — вероятность удачного выбора пороговым правилом %&: 1) классическая задача — d*/N -» е'1, φΝ (d*) -» e'1, 2) задача Гусейн-Заде — d*/iV-> (1/г)^-1), φ* (d*)-> (l/r)1^1), 3) задача выбора варианта, наилучшего хотя бы по одному из т критериев (см. п. 4.3) — d*/N-> (i/m)^m^\ q>N (d*) -> (l/m)1*™-», 4) задача остановки на парето-оптимальном варианте (т = = 2) -d*/#-*l, φ" (d*)-> 1. В задачах 2) и 3) числа одни и те же, хотя т иг имеют разный смысл, 1) получается путем формального предельного перехода при г—> 1, а 4) получается при г —> оо. Однотипность результатов говорит о существовании какой-то достаточно общей схемы. Эти задачи имеют одинаковую содержательную постановку: в процессе просмотра N вариантов требуется остановиться на лучшем в каком-то смысле варианте. Все они возникают в контексте ранговых моделей. Однако, хотя в содержательной постановке термин «вариант» присутствует, при формальном рассмотрении «сам вариант» остается «за кадром», так как вся информация о нем исчерпывается абсолютным рангом. Неудобство этой схемы мы наиболее остро почувствовали в предыдущем разделе когда с векторными абсолютными рангами пришлось обращаться так, как будто это были элементы некоторого множества. Далее множество обследуемых вариантов будет рассматриваться как выборка из генеральной совокупности, и будет формализовано понятие «лучший» вариант, что даст возможность сформулировать задачу остановки на лучшем варианте и получить некоторые общие результаты о пороговых правилах. 4.5.2. Пусть (9t, Л) — некоторое измеримое пространствог все одноэлементные подмножества которого принадлежат Л. Будем называть (St, Л) пространством вариантов, а элементы α ΕΞ 9t— вариантами. Предположим, что А 1э. . .,AN — последовательность случайных элементов со значениями в (3(, Л), определенных на некотором вероятностном пространстве (Ω, f, Ρ). На совместное распределение А 1э . . ., ΑΝ наложим единственное требование перестановочности: для всех BiE ti, . . ., В χ Gi и любой перестановки (*!, . . ., in) р (Л (Ап е вп)) = Ρ (Л (Ап е= вп)}. п=1 п=1 Реализации Ах = а1э . . ., An = «лг будем интерпретировать как последовательность наблюдаемых в моменты 1, . . ., N вариантов. Заметим, что возможность рассмотрения одного и того же варианта в различные моменты не исключается. Условие перестановочности означает, что ознакомление с вариантами происходит в случайном порядке. 170
Рассматриваемые далее конечные множества являются реализациями всех или некоторых из А 1э. . ., Α ν- При этом допускается, что некоторые из элементов множеств могут совпадать. Обозначение {αχ, . . ., ап} означает, что порядок элементов является несущественным в том смысле, что для любой перестановки {аь . . . Перейдем к формализации понятия «лучший вариант». Пусть задана последовательность с1, . . .,cN отображений сп: 5tn -*Z)n, которые ставят в соответствие каждому упорядоченному набору (ях, . . ., ап) гс-компонентный булевский вектор ε = (ε1, . . ., εη), таких, что для любого ε ΕΞ Dn его прообраз принадлежит Л ® .. . (х) Λ (см. сно π 1.3.3), и для любой перестановки > ^ 1 η сп{аъ . . . ,αη) = (ε1, . .. ,en)=¥cn(ah,.. . ,αίη) = (ε4 . . ., β*η). Положим С = (с1, . . ., cN) и назовем С функцией выбора. Если с11 (аь . . ., ап) = (ε1, . . ., εη) и β*: = 1, то назовем вариант ак лучшим в множестве {аг, . . ., ап) (обозначается ап ΕΞ С {аъ . . . . . ., αη}). Легко видеть, что если at является лучшим в множестве {аи . . . . . ., αη}, то из a,i = uj и условия перестановочности следует, что dj также является лучшим. Пусть τ — правило остановки, измеримое относительно σ-ал- гебр 33 (Аи . . ., Ап)у η = 1, . . ., Ν, число Ρ {Ατ е С {Аг, . . . . . ., Ап}) есть вероятность остановки на лучшем варианте. Назовем вариант Ап относительно лучшим, если Ап е= ΕΞ С {Аг, . . ., Лп}, и абсолютно лучшим, если Лп ΕΞ С {А 1? . . . ..., Л^у}. Правило остановки / min{/i>d|ilneC{ill,...fi4n}}l Td= л^ (4.41) Ι Λ, если это множество пусто ν ' называется пороговым с порогом d. По определению, td пропускает А1у . . ., i4d-i и останавливается на первом же относительно лучшем варианте, если только такой существует. Вероятность остановки на лучшем варианте обозначим φΝ (d). Мы хотим оценить максимальное значение φΝ (d), т. е. эффективность класса пороговых правил остановки. Здесь приходится сделать терминологическое отступление. В литературе по принятию решений (теории игр, последовательном анализе, статистике, многокритериальной оптимизации, теории коллективного выбора и в некоторых других областях) термин «выбор» используется в трех совершенно различных смыслах, и мы с этим уже столкнулись. Под «выбором» может пониматься выборка (извлечение из какой-то совокупности), стратегия (например, правило остановки), функция выбора (принцип оптимальности). Например, «выбор без возвращения» в зависимости от контекста может означать как извлечение без помещения на прежнее место, так и задачу остановки без возврата к отвергнутым вариан- 7* 171
там. Английские термины: соответственно, sampling, selection^ choice. Далее мы будем говорить «выборка», «правило остановки», «функция выбора». Приведем примеры задач остановки на лучшем варианте. Пример 1. Классическая задача. Здесь имеются дискретная и непрерывная модели. В дискретной модели % состоит иа конечного числа элементов и линейно упорядочено, (Аг, ... . . ., An) — равновозможная выборка без возвращения, С (В) состоит из единственного элемента, имеющего единичный ранг в В. В непрерывной модели 9t = R, А = 53, (А1у . . ., An) — независимые реализации случайной величины А с непрерывной функцией распределения Fa, С (В) состоит из максимальной точки в В. Непрерывность FA вместе с теоремой Фубини гарантируют невозможность совпадений вариантов. Пример 2. Просмотр с повторениями. Дискретная модель такова: 91 линейно упорядочено и конечно, (Аг, . . ., An) — равновозможная выборка с возвращением, С (В) — наименьшие элементы в В. В силу линейной упорядоченности 9(, С (В) есть повторение одного элемента. Возможны некоторые модификации этой схемы, лишь бы сохранялась перестановочность вариантов А1У . . ., AN- Непрерывную модель правильнее назвать континуальной: Аг, . . ., An независимы, и FA может иметь разрывы. Пример 3. Остановка на варианте, наилучшем хотя бы по одному из критериев. В дискретной модели пространство вариантов есть прямое произведение 91 = 9ίχ χ ... X 9im выборочных пространств, каждое из которых конечно и линейно упорядочено, (Аи . . ., An) представляет собой т независимых безвозвратных выборок (Αϊ, . . ., Α /ν), которые естественно ранжируются, причем ранги символизируют сравнение по т критериям. Лучшие варианты — это те, которые имеют единичный ранг хотя бы по одному из критериев. В непрерывной модели 9i = Rw, Л — борелевские подмножества, (Аи · · ·, ^4jv) — независимые реализации случайной величины А с функцией распределения т FA(*i,...,*w)=n *\и> где Fi — непрерывные одномерные функции распределения. Координаты точки интерпретируются как оценки по т независимым критериям, С (В) состоит из вариантов, имеющих максимальную оценку хотя бы по одному из критериев. В общей теории выбора такое С называется совокупно-экстремальной функцией выбора. Пример 4. Задача Гусейн-Заде. Непрерывная и дискретная модели те же, что и в примере 1, С (В) состоит из вариантов, имеющих абсолютный ранг не выше г. 172
Пример 5. Выбор по Парето. Непрерывная и дискретная модели те же, что и в примере 3, С (В) состоит из вариантов, не улучшаемых сразу по всем критериям. Пример 6. Частичный порядок. В дискретной модели 9f конечно и частично упорядочено, элементы 9ί изображаются в виде ориентированного транзитивного графа: а и Ъ соединяются стрелкой с началом в а, если а^Ъ. Лучшие варианты a EEC (В) — это те, которые не соединены стрелкой с концом в α и началом в другой точке из В. Такая функция выбора называется графо- доминантной. Наблюдения (Аи . . ., Лд) — перестановочная выборка из 5ί. Непрерывная модель та же, что и в примере 3, в Rm задан выпуклый конус К, С (В) состоит из тех вариантов, для которых (а + К)Г)В = {а}. Число примеров легко увеличивается, но эти являются для нас основными. 4.5.3. Эффективность пороговых правил будет оцениваться не для Есех функций выбора, а для некоторых классов. Необходимость ограничений обусловливается тем, что между множеством абсолютно лучших вариантов и относительно лучшими вариантами должна существовать какая-то связь, которая дала бы весомые гарантии того, что относительно лучший вариант с достаточно большой вероятностью оказывается абсолютна лучшим. Говорят, что функция выбора обладает свойством наследования, если для любого множества {аи . . ., αη+1} (Ζ 9ί и любого η ах^С {аъ . . ., ап+1} =4^6 С {ах, . . ., ап}, (4.42) свойством отбрасывания, если аг^ЁС{аь ..., ап+1} =$>С{ах,... , ап+1} = С{ах,. . ., ап}. (4.43) Свойство наследования означает, что если вариант является лучшим в большей совокупности, то он остается лучшим и в меньшей совокупности. Свойство отбрасывания означает, что от удаления вариантов, которые не являются лучшими, множество лучших вариантов не изменяется. В приведенных выше примерах функции выбора этими свойствами обладают, т. е. ограничения (4.42) и (4.43) не очень жесткие. Из (4.42) вытекает, что всякий абсолютно лучший вариант является также и относительно лучшим, т. е. для лкбого η = 1,... ..., N AnElC{A1,...,AN}^An(EEC{Ab...,An}. (4.44) В следующем рассуждении индекс η может принимать значения а,..., N. Назовем вариант Ап претендентом, если Ап €= ЕЕ С {Аг, . . ., i4d-i, An}. Выясним, какое существует взаимоотношение между претендентами, абсолютно лучшими и относительно лучшими вариантами. Если выполняется (4.43), то и 173
абсолютно лучшие и относительно лучшие варианты являются претендентами. Покажем, что если выполнены условия (4.42) и (4.43), то первый по порядку просмотра претендент является относительно лучшим вариантом. Действительно, пусть Ап — первый претендент. Поскольку он первый, то варианты Ап, . . ., Αη-ι претендентами не являются, т. е. АкфС {А1У..., Ad_v Ак}, к = d,.. ., η — 1. Из (4.42) вытекает, что Ак φ С {Аи . . ., Ап}у а из (4.43) получаем, последовательно отбрасывая Ad, . . ., Лп_ь что С {Αι, . . . , Ап} = С {Αι, . . . , Ad-ι, Ап}, но Ап принадлежит С {Аг, . . ., Α&-ι, Ап}у поэтому он является относительно лучшим. Из определения (4.41) теперь вытекает, что при выполнении (4.42) и (4.43) пороговое правило Td останавливается на первом же претенденте, если такой вообще существует. Положим К (d, Ν) равным числу претендентов, L (d, N) — равным числу абсолютно лучших вариантов с номерами d, . . ., N. Повторяя рассуждение в лемме 4.10, получаем следующее утверждение. Теорема 4.4. Если функция выбора С обладает свойствами наследования и отбрасывания, то для всех d = 1, . . ., N {K(d,N)>0) Пример. Классическая задача. Напомним, что все варианты различны, поэтому L (d, N) может принимать только значения 0 или 1. Событие {К (df Ν) = к) происходит тогда и только тогда, когда лучший из вариантов Аг, . . ., Ad-i имеет абсолютный ранг к -(- 1, а варианты с абсолютными рангами меньше к + 1 попадают в последние (N — d + 1) вариантов. Следовательно, ЛГ-1 k=i N / ' \ / где ί \ ) = 0, если i <[ /. Сравнивая со старой формулой (2.11), мы получаем комбинаторное тождество. Ясно видно различие между претендентами и относительно лучшими вариантами. Пусть N = 3, d = 2 и перестановка из абсолютных рангов есть (3 2 1), тогда претенденты — это А2 и А3, а относительно лучший вариант с номером больше (d — 1) — только А2- Производить вычисления с помощью теоремы 4.4 очень трудно. Явное нахождение совместного распределения L (d, N) и К (d, Ν) уже в задаче Гусейн-Заде доставляет много хлопот, поэтому хотелось бы иметь какую-нибудь формулу типа (2.11), чтобы легко 174
находить асимптотики. Такая формула действительно существует. Лемма 4.11. Если функция выбора С обладает свойствами наследования и отбрасывания, и для некоторых г <^ т Μ card С {Αι, . . ., ΑΝ} = г, card С {Аи . . ., Ап} <^ т для всех η = 1, . . ., Ν, то для всех d = т + 1» · · ·, N справедливо неравенство Доказательство. Рассмотрим пороговое правило τ*. Если вариант Ап является абсолютно лучшим и η ^ d, то в силу (4.44) имеем xd ^ п. Следовательно, {Лп G С {4ι, . . ., AN}, xd = η) = {Αη е С {Аг, ... . . ., An}, td > η — 1}. Отсюда получается такое выражение 9N(rf) = P{ixdEC{4..o4}} = N = Σ P{^deC{4 4},тй=л} = n=d Ν = Σ Р(4еС{4..о4ь^>«-1} = n=d Ν m = Σ 2 P{4,e=C{4i,...,4vb<rd>n — 1, n=d Jr=0 card С {Λ,.. .,^n-i} = £}. Поскольку Td останавливается на первом (после Ad-i) относительно лучшем варианте, то событие {xd }> η — 1} означает, что среди Ad, . . ., Ап-\ нет относительно лучших вариантов. По свойству наследования получаем А{ е£ С {Аи .. ., An-J, i = d,..., η — 1, а поочередное отбрасывание этих вариантов дает С {А» ..., Ап^} = С {А» ..., Ad^) d {Аг,.. ., А^г). Обратно, пусть все лучшие в {Аг, . . ., Αη-ι} варианты содержатся в {Аи . . ., i4d-i}, тогда по свойству отбрасывания С {Аг, . . ., Αι) (Ζ {Аг, . . ., i4d-i}, поэтому варианты Ad, . . . . . ., Αη-ι не являются относительно лучшими и Td их пропускает. Таким образом, доказано совпадение событий {xd> η — 1} = {С {Αν ..., Ап_}} с {4ι,. . . , ^d-x}}. (4.45) 175
Разложим событие {ЛеС {Av .. ., AN}, card С {Av . . ., Лп-1} = к} на несовместные события S (ίι, ...,У = ЯЕС {Л, ..., ΑΝ), С {Αν . .., Ап-г) = = {^ύ» ...» ^ifr}}' где «!<...< ifc и {ilf . . ., ij CI {1, . . ., η — 1}. Из (4.45) следует, что событие {Ап е С {Αν ..., 4у}, rd > η — 1, card С {Аг,..., Л^} = к} является объединением тех S (iu . . ., ik), для которых {ilf . . . . . ., ifc} d {1, . . ., d — 1}. По перестановочности Аг, . . ., Л^ получаем (случай к = 0 не исключается) iV m cardC{4lt ..., Ап.г) = к) )п_{[ > N т >£j^P{Ane=C{A1,...,AN}, (Г) n=2 k=0 т N cardC^, ... , Ап_1} = к) с. =рй»ес,л ^»ЕС;')/(";') = =^Г;')/(";')· Лемма доказана. Условия леммы не являются независимыми. Так, из условий McardC {Ац . . ., AN} = г, cardC{ill9 . . ., 4n} < m и свойства наследования при г ^п <^ N вытекает, что г ^ т. Если вместо введенных ограничений на число лучших вариантов наложить более сильное — card С {Аи . . ., Ап} = г при всех η = г, . . ., Ν, то тем же способом мы получим N ♦"«-tCt^vc:*). 176
т. е. равенство достигается (в частности, в задаче Гусейн-3аде)# Положим N *"№=tC7')XV("7')· Следующая лемма описывает два аналитических свойства этой функции. Лемма 4.12. Пусть dr равно наименьшему d, доставляющему максимум $ (d), тогда Wr {dr ) < ψΓ (ar), dN [ MY lim^=lim<^)= \'1 l/r(r-l) , если г>1, если r= 1. Доказательство. Воспользуемся вероятностной интерпретацией i$ (d) как φΝ (d) в задаче Гусейн-Заде и в классической задаче. Рассмотрим задачу остановки на одном из г лучших вариантов, в которой наблюдаемыми случайными величинами являются индикаторы Zn = I\Yn<: r\» η = 1,..., Ν» т. е. про каждый вариант в момент его появления известно только, является он относительно лучшим или нет, а сам относительный ранг ненаблюдаем. Из независимости относительных рангов вытекает независимость Zlf . . ., Ζλγ· Положим Qn равным ожидаемому выигрышу. Легко видеть, что ^ = P{Xn<r|Z1,...,ZiV} = P{Xn<r|Zn} = -^Zr, Следовательно, имеет место случай независимых наблюдений, и обычное рассуждение доказывает оптимальность порогового правила. Теперь вложим задачу с N вариантами в аналогичную задачу с N + 1 вариантами (см. лемму 3.2) и получим, что в задаче с N + 1 вариантами выигрыш не больше. Это доказывает монотонность. Вторая часть есть следствие (3.78) и известных результатов в классической задаче. Лемма доказана. Следующая теорема дает искомую оценку эффективности класса пороговых правил остановки, d* — оптимальное значение порога. Теорема 4.5. Если функция выбора обладает свойствами наследования и отбрасывания и для некоторых г <^ т McardC^x, . . ., An} = г, 177
card С {Αλ, . . ., Αη] < т для всех ^ = 1, . . ., TV, mo / г / 1 \ι/<™-ι) ^ Л — — , ecAumj>l, \ т \ τη J » ^ \ если тл = г = 1. ф*(Й*) > Доказательство. По лемме 4.11 φΝ (d) > —i|>m(d), остается воспользоваться леммой 4.12 и заметить, что неравенство строгое, поскольку a|)m {d) принимает только рациональные значения, а предельное значение максимума по d иррационально. Теорема доказана. Некоторые значения (i/m)l^m'1)) приведены в табл. 11, при т —► оо имеется монотонная сходимость к 1 со скоростью порядка (In m)/m. Таблица т ц m)i/(m-l) т (1/т)1^тг'1) И 2 0,500 10 0,774 3 0,577 20 0,854 4 0,630 30 0,889 5 0,669 40 0,910 6 0,699 50 0,923 7 0,723 100 0,955 8 0,743 9 0,760 4. Вернемся к нашим примерам. Примеры 1и 4. В классической задаче и в задаче Гу- сейн-Заде условия теоремы 4.5 выполнены в наиболее чистом виде, поскольку г = т при N ^ г и, более того, card С {Аи ... . . ., Ап} = г при η ;> г, т. е. число лучших вариантов неизменно. Оценка асимптотически точна (по Ν). Пример 2. Просмотр с повторениями. Предположим, что имеется несколько, скажем 10, вариантов, которые строго ранжированы по качеству. Теперь отдублируем наилучший вариант 3 раза, а второй по качеству — 5 раз, и предположим, что мы вперемешку наблюдаем получившиеся 18 вариантов с целью остановиться на одном из дублей наилучшего, причем в процессе просмотра можно только сравнивать уже поступившие варианты. Класс пороговых правил оценивает вероятность успеха как 3/5 (1/5)V< ^ 0,40. Более общая схема: пусть наилучший вариант дублируется г раз, а все остальные — т ^ г, тогда наша оценка остается верной, поскольку получающаяся функция выбора обладает свойствами наследования и отбрасывания. В действительности такая схема эквивалентна некоторой графодоминантной функции выбора, для которой граф частичного порядка разложен на «этажи» и стрелки идут с любого верхнего этажа в любую вершину более нижнего. Номер этажа — это аналог абсолютного ранга (этажи^ нумеруются сверху вниз). Получающаяся картина примерно изображена на рис. 4, где двойные стрелки означают, что любая 178
верхняя вершина лучше любой нижней, а вершины на одном этаже одинаково хороши. Пример 3. Совокупно-экстремальный выбор. Здесь т есть число критериев, условия теоремы 4.5 выполняются асимптотически при N —> оо, в том смысле, что при d —> оо вероятность появления на временном промежутке Id, Ν] варианта, относительно лучшего хотя бы по паре критериев, имеет порядок N \ —j- —> 0 (обратите внимание на то, что Сможет не иметь порядок n=d Ν). Таким образом, число лучших вариантов асимптотически совпадает с числом критериев почти на всем периоде наблюдения, поэтому О О класс пороговых правил имеет цену, || асимптотически равную (l/m)1^™-1). χ у Пример 5. Выбор по Парето. >|г Условия теоремы не выполняются, о r^ r^ n О так как С (В) может как состоять О О (J vj U из одного варианта, так и совпадать с В. Тем не менее, результат χ I/ п. 4.4.4 сравниваемый с теоремой 4.5 >^ указывает на то, что множество аб- q солютно лучших вариантов не силь- ц но «растворяется» среди лучших к моменту п, когда η имеет поря- ^χΚ док N. Прежде чем перейти к следую- ОООООООО щему примеру, укажем на то, что Рис# 4 ни выбор по Гусейн-Заде, ни совокупно-экстремальный, нельзя задать схемой выбора максимальных вершин графа, т. е. графо- доминантной функцией выбора. Дело в том, что графодоминант- ные функции выбора обладают так называемым свойством согласованности: С (Вг) Г) С (В2) CZ С (2?i(J B2). Действительно, если в вершину а не входит ни одной стрелки в подграфе В± и то же в В2, то и в их объединении нет варианта, соединенного с а стрелкой с концом в а. Для выбора по Гусейн-Заде это свойство не выполняется: если а имеет ранг 2 в Вх и ранг 2 в 2?2, то отсюда не следует, что и в объединении он имеет ранг 2. Значит, при г = 2 вариант а является лучшим как в Вг, так и в 52, а в их объединении лучшим не является. Аналогично, для совокупно-экстремального выбора: а может быть лучшим по первому критерию в 51? по второму — в i?2» а в их объединении может ни одним из этих свойств не обладать. То же самое относится и к схеме выбора с повторениями, когда мы признаем лучшими в В вариантами те варианты, которые в разбиении В по этажам лежат на нескольких, скажем к^> 1, верхних этажах. Пример 6. Частичный порядок (дискретная модель). 179
f(d*)>J/Z f(<L*)>1/4 f(d*)>l/V3 г"0*)>Ш~в& Рис. 5 Пусть 9t — ориентированный транзитивный граф с N вершинами, С (В) — максимальные вершины подграфа В. Для простоты предположим, что все варианты из 91 наблюдаются, т. е. i,Ai, . . ., An) — равновозможная бесповторная перестановка элементов 9t. Шириной графа называется максимальное число несравнимых вершин, пусть оно равно т, тогда card С (В) <; т, если элементы В различны. Пусть г — число максимальных вершин в St. Эти самые г и т и есть указанные в теореме 4.5 числа. На рис. 5 изображены графы, для которых оценка теоремы 4.5 имеется в «чистом виде», а на рис. 6 изображены графы, для которых справедливы очевидные асимптотические обобщения (стрелки направлены сверху вниз, изображаются только транзитивные остовы). Пример 7. Обобщенный выбор по Гусейн-Заде. Предпо- ложлм, что имеется т независимых критериев, и лучшими считаются варианты, имеющие или ранг не больше г1 по первому критерию, или ранг не больше г2 по второму критерию, . . ., или ранг не больше гт по т-му критерию. Полагая г = г1 + . . . + Гт т используя те же, что и в примере 3, аргументы, получаем оценку (1/г)1/0-1>. Пример 8. Предположим, что все варианты линейно упорядочены, как в классической задаче. Пусть г и га, г < га, произвольны, С {а1? . . ., ап} состоит из вариантов, имеющих ранг Л80
,vw f(d*)-+i/z lim (pN(d*)>1/JT Рис. 6 не выше яг, если /г <^ iV, и не выше г, если η = N. Легко проверяется, что эта функция выбора обладает свойством наследования и не обладает свойством отбрасывания, и φ^ (d) = — ψ™ (d). Этот пример показывает, что общий случай сильно отличается от задачи Гусейн-Заде и классической в следующем смысле. Пусть ζη = ι μη е с {А19 ..., Ап}} η = ι, . .., ν. В задаче Гусейн-Заде и в классической задаче наблюдение Yu.. . . . ., YN дает ненамного больший эффект по сравнению с наблюдением только Ζχ, . . ., Zjv (в классической задаче вообще не дает). Вместе с тем, в примере 8, когда тиг велики, но г/т мало, наблюдение относительных рангов дает почти единичную вероятность успеха, а наблюдение Zx, . . ., Zn — бесконечно малую. Случайные величины Zu . . ., Zn при наиболее интересных функциях выбора (например, для выбора по Парето) не являются независимыми, но если они независимы, то некоторое пороговое 181
правило является оптимальным в классе правил, основанных на наблюдении Zu . . ., Zn- Этот факт вытекает из того, что для всех функций выбора, обладающих свойствами наследования средняя доля лучших вариантов не возрастает с ростом числа вариантов. Действительно, в силу (4.42), положив card С {А1У . . . . . ., Ап) = #п, имеем -Tf^ = V{A1^C{Av.. <PMi<=C{;4lf...f;4n» = Ожидаемый выигрыш равен (по независимости) Q% = V{An<=C{Av . . . ,AN}\ZV . .. ,Zn} = = V{AnezC{A1,...,AN}\Zn} = ^!£^-Zn. η Следовательно, имеет место случай независимых наблюдений (в задаче остановки стохастической последовательности {Q%, 33 (ZL, . . ., Zn)})y и обычное рассуждение вместе с указанным неравенством доказывает оптимальность некоторого порогового правила. Можно также сказать, что моменты появления относительно лучших вариантов образуют марковскую цепь (в общем случае это не так), в задаче остановки которой имеет место монотонный случай. В заключение отметим, что теорема 4.4 верна и для случайного числа вариантов, т. е. когда имеется бесконечная последовательность А и А2, . . ., из которых наблюдаются Аъ . . ., An, где N — случайно и не зависит от Аи А2, . . .. Теорема 4.5 также легко обобщается. 4.6. Остановка на недоминируемом варианте. Задача с полной информацией 4.6.1. Оценка оптимального значения порога для функций выбора общего вида представляет очень сложную задачу, поэтому естественно попытаться найти какой-нибудь другой класс правил остановки, который был бы вычислительно более приемлем· Однако, указать другой столь же универсальный класс трудно, поскольку непонятно, в каком виде можно было бы учитывать множественные взаимовлияния вариантов, которые, собственно, и определяют множество лучших вариантов. Ситуация значительно упрощается, если функция выбора является графодоми- нантной, в силу того, что множество лучших вариантов определяется путем парных сравнений. В этом параграфе рассматриваются только графодоминантные функции выбора. Обратимся к классическому случаю. В п. 2.4 рассматривалась следующая задача. Пусть Аи . . ., An — независимые случайные величины с одинаковым непрерывным распределением F. Пред- 182
полагая.распределение известным, и А±, . . ., An — наблюдаемыми, требуется остановиться на наибольшем значении А19 . .. . . . ., As. Оказалось, что оптимальным является правило, которое предписывает остановку на первом же относительном максимуме Ап = max {Аи . . ., Ап}, для которого 1 — F (Ап) < α*-η, где ctN-n = с/(Ν — η) + о (ί/(Ν — η)). Таким образом, нужно остановиться на варианте, который не хуже своих предшественников и с достаточно высокой вероятностью не хуже будущих вариантов. Мы распространим эту идею на достаточно широкий класс парных сравнений. Пример. Парето-оптимальность. Пусть 9t = R2, варианты А!,..., Α ν являются независимыми, равномерно распределенными в единичном квадрате случайными величинами. Реализация Ап = ап = (хп, уп) интерпретируется как оценка качества гс-го по порядку просмотра варианта по двум независимым критериям. Скажем, что at лучше α7·, если xt ^> Xj и у ι ^> ι/7·. Множество С&> {аи . . ., а^} есть совокупность неулучшаемых в множестве {аи . . ., а^} вариантов. Для каждого правила остановки τ, основанного на наблюдении А 1э А21.. ., Ρ {Ατ£Ξ С&> {Ац .. 4 . ., An}} есть вероятность остановки на Парето-оптимальном. варианте. Если вариант не является относительно лучшим, то он не может оказаться и абсолютно лучшим, поэтому выигрыш, ожидаемый при остановке на η-ом варианте равен QZ=V{An<=c*{Al,...,AN}\Al,...,An} = = ((1 - хп) (1 - уп))»-Ч {Ап Е= С* {А19. .. , Ап}}. Отсюда немедленно следует, что всю существенную информацию содержат оценки вариантов из множества С&> {Аг, . . ., Ап}. С относительно лучшими вариантами можно связать однородную марковскую цепь, одним состоянием которой являются оценки вариантов из С&> {Аи . . ., Лп}, оценка непосредственно наблюдаемого относительно лучшего варианта и его порядковый номер. Графически состояние можно представить лесенкой, изображенной на рис. 7, где кружками помечены оценки относительно лучших вариантов, звездочкой помечен непосредственно наблюдаемый относительно лучший вариант, а площадь заштрихованной области определяет вероятность того, что относительно лучший вариант окажется абсолютно лучшим. Покажем, что монотонный случай места не имеет. Действительно, из соображений непрерывности на верхней стороне квадрата найдется такая точка а, что при Ах = ат>становка на Аг является более выгодной, нежели остановка на следующем относительно лучшем варианте. С другой стороны, вариант А2 может оказаться относительно лучшим и попасть в область, заштрихованную на рис. 8 настолько малую, что выигрыш при остановке на 42 будет на порядок меньше выигрыша при остановке на Аи поэтому импликация g (ζ) > Tg (ζ) => g {ζ) > Tg (ζ'), при переходе из состояния ζ в ζ', места не имеет. Формализация не представляет трудности. 183
ι С ? 1 ч ψ§Ι§ι Рис. 7 Рис. 8 Далее вводится класс правил τα, являющихся моментами первого попадания Аъ А2, . . . в область (1 — χ)(ί — у) < а. Будет показано, что этот класс дает сколь угодно близкую к 1 вероятность остановки на парето-оптимальном варианте, когда число вариантов велико. 4.6.2. Предположим, что Аи . . ., А^ являются независимыми, одинаково распределенными случайными элементами со значениями в некотором фазовом пространстве (9ί, «/#). Пусть на 9t задано бинарное отношение Л (Z 91 X Si, которое является ^-измеримым, т. е. 31 Е=.А® А, и обладает свойствами иррефлексивности и транзитивности: Ή (оЯа), аЯЪ, ЬЯс =^> аЯс для всех fl, i, cG 3ί. Определим графодоминантную функцию выбора, полагая для всех (alf . . ., ап) е 9(η, η = 1, 2, . . ., С& {αλ, . . . • · ·» ап} равным множеству тех ак ΕΞ {ах, . . ., αη}, для которых ни для одного at €Ξ {aly . . ., αη} не выполняется соотношение Если а$Ъ, то мы говорим «а лучше Ь». Введем в рассмотрение функцию, определенную на 5f, Ваг^ (а) = Ρ {Α2ΜΑΧ \А1 = а} и ее функцию распределения θ (α) = Ρ {Ваг^ (AJ <J a}. Ясно, что Ваг^(·) может принимать значение только из отрезка [0, 1]. Кроме того, θ (a) J> α. Действительно, по транзитивности из ЪЛа вытекает Ваг^ (Ь) < Ваг^ (а). Рассмотрим однопараметрический класс правил остановки _ | min {η I Ваг^ (Ап) < a}, I Af, если это множество пусто, и положим φ* (α) = Ρ {АХа е CW {Лх, . . ., Л^}}. Следующая теорема дает асимптотическую оценку эффективности этого класса. Теорема 4.6. Если ι · θ (α) lim sup —i—'- =г а-*0 а 184
то . ι , если r= 1; е ϋ»Ρφ"(»)> (-ff^, «*г>1; I 1, если г = oo. Доказательство. Рассмотрим сначала случай 1 <Г <^ г <^ оо. Распределение момента первого попадания Ац А21 . . . в множество {Ваг^ (Ап) <! а} является геометрическим, поэтому из монотонности Ваг^(-) получаем φ*(ο) = Ρ{^εί?Λμι 4}} = = ^ Ρ {4ι S Ст {А±,..., Л^}, %а = п} = П=1 N = V(l —θ (α))Λ-ι jj (1 — Ваг^ (Л))*-" dP > n=l {Ваг^(А1)<а} JV > θ (α) ^Γ (1 — θ (а))»-1 (1 — α)"~η = 71=1 = θ (α) (1 - θ (α)) (1 - «)Ν J] (1".! (Γ?" = Π=1 * ' -бМ(1-вМ)("-':йЧ-,М)'-(1-»') · Полагая α = -^ —γ- при iV-»oo получаем lim sup φ* (α) > (l/r)1^1). При г = 1 аналогично получаем е"1. Наконец, при г = оо следует взять α таким, чтобы iV имело порядок (α θ (α))-1/». Теорема доказана. 4.6.3. Пример 1. Парето-оптимальность. Пусть Аи . . . . . ., An — независимые случайные величины со значениями в 3( = Rm, имеющие непрерывную функцию распределения т ί(»)=ΠΛ(4 i=l где χ = (re1, . . ., хт). Поскольку отношение Парето З5 инвариантно относительно монотонных преобразований Rm, то можно без ограничения общности считать F равномерным распределением в единичном кубе. Чтобы указать на зависимость от т, введем дополнительный верхний индекс. Ясно, что θ1 (α) = а. Дока- 185
экем по индукции формулу ТО—1 9m(a) = a S (lnl/i)V«. Поскольку BarS (χ) = (1 — χ1) ... (1 — χ""), το получаем 1 α 0m(a)= jj ... [ dx1... dzm= jj θ^α/ζ1) dxl + jj da;1^ m а О Π *1<а,я2>0 i=l 1 m—2 . 1 m—2 ; Г а \П (1пх/а)г , , f V^l (In ζ/α)1 , η ... а г=о а г=о 1=0 Вычисление отношения 9т (а)/а при w > 1 дает m HI—1 α-и) α 4-J l! ι=0 Следовательно, при N -+ οο по теореме 4.6 класс правил τα дает сколь угодно близкую к 1 вероятность остановки на парето- оптимальном варианте. Пример 2. Пусть Si = Rm, Аи . . ., Ллг — независимые, равномерно распределенные в шаре единичного радиуса случайные величины, К — выпуклый телесный конус. Положим аЯЪ, если α — Ъ ΕΞ Κ \ {0}. Пользуясь теоремой 4.6, нетрудно показать, что оптимальная вероятность остановки на недоминируемом варианте сколь угодно близка к 1, когда iV—> оо.
ЛИТЕРАТУРА 1. Айзерман Μ. Α., Малишевский А. В. Некоторые аспекты общей теории выбора лучших вариантов: Препр. Ив>та проблем управления АН СССР. М., 1980. 2. Аркин В. И., Пресман Э. Л., Сонин И. М. Оптимальный выбор в условиях неполноты информации.-— Экономика и матем. методы, 1975, т. 11, № 3. 3. Березовский Б. Α., Борзенко В. И., Кемпнер Л. М. Бинарные отношения в многокритериальной оптимизации. М.: Наука, 1981. 4. Блекуэлл Д., Гиршик М. А. Теория игр и статистических решений. М.: Изд-во иностр. лит., 1958. 5. Березовский Б. Л., Генинсон Б. Α., Рубчинский А. А. Задача об оптимальной остановке на частично упорядоченных объектах.— АиТ, 1980, № 11. 6. Березовский Б. Α., Гнедин А. В. Теория выбора и задача об оптимальной остановке на лучшем объекте.— АиТ, 1981, № 9. 7. Брейман Л. Задачи о правилах остановки.— В кн.: Прикладная комбинаторная математика. М.: Мир, 1968. 8. Вальд А. Последовательный анализ. М.: Физматгиз, 1960. 9. Гнеденко Б. В. Курс теории вероятностей. М.: Физматгиз, 1961. 10. Гнедин А. В. Многокритериальная задача об оптимальной остановке процесса выбора.— АиТ, 1981, № 7. 11. Гнедин А. В. Эффективная остановка на парето-оптимальном варианте.— АиТ, 1983, № з. 12. Гусейн-Заде С. М. Задача выбора и оптимальное правило остановки последовательности независимых испытаний.-— Теория вероятностей и ее применения, 1966, т. И, № 3. 13. Де Гроот М. Оптимальные статистические решения. М.: Мир, 1974. 14. Дынкин Е. Б. Оптимальный выбор момента остановки марковского процесса.— ДАН СССР, 1963, т. 150, № 2. 15. Дынкин Е. Б., Юшкевич А. А. Теоремы и задачи о процессах Маркова. М.: Наука, 1967. 16. Иванин В. М. Об одной оценке математического ожидания числа элементов множества Парето.— Кибернетика, 1975, № 3. 17. Закс Ш. Теория статистических выводов. М.: Мир, 1975. 18. Кован Р., Забжик Е. Задача об оптимальном выборе, связанная с пуас- соновским процессом.— Теория вероятностей и ее применения, 1978, т. 23, № 3. 19. Колмогоров А. #., Фомин С. В. Элементы теории функций и функционального анализа. М.: Наука, 1976. 20. Липцер Р. Ш., Ширяев А. Н. Статистика случайных процессов. М.: Наука, 1974. 21. Миркин Б. Г. Проблема группового выбора. М.: Наука, 1974. 22. Мостеллер Ф. Пятьдесят занимательных вероятностных задач с решениями. М.: Наука, 1975. 23. Фон Нейман Дж., Моргенштерн О. Теория игр и экономическое поведение. М.: Наука, 1970. 24. Николаев М. Л. Об одном обобщении задачи наилучшего выбора.— Теория вероятностей и ее применения, 1977, т. 22, № 1. 25. Петровский И. Г. Лекции по теории обыкновенных дифференциальных уравнений М.: Наука, 1970. 187
26. Пресман Э. Л., Сонин И. М. Игровые задачи оптимальной остановки» Существование и единственность точек равновесия.— В кн.: Вероятностные проблемы управления в экономике. М.: Наука, 1977. 27. Пресман Э. Л.у Сонин И. М. Задача наилучшего выбора при случайном числе объектов.— Теория вероятностей и ее применения, 1972, т. 17, № 4. 28. Пресман Э. Л.у Сонин И. М. Точки равновесия в обобщенной игровой задаче наилучшего выбора.— Теория вероятностей и ее применения, 1975, т. 20, № 4. 29. Роббинс /\, Сигмунд Д., Чао И. Теория оптимальных правил остановки. М.: Наука, 1977. 30. Сонин И. М. Игровые задачи, связанные с наилучшим выбором.— Кибернетика, 1976, № 2. 31. Справочник по специальным функциям. М.: Наука, 1979. 32. Феллер В. Введение в теорию вероятностей и ее приложения. М.: Мир, 1964, т. I; 1967, т. 2. 33. Шоломов Л. А. Обзор оценочных результатов в теории выбора.— Изв. АН СССР. ТК, 1983, № 1. 34. Ширяев А. Н. Вероятность. М.: Наука, 1980. 35. Ширяев А. Н. Статистический последовательный анализ. М.: Наука, 1969. 36. Abdel-Hamid A. R., Bather J. Α., Trustrum G. В. The secretary problem with an unknown number of candidates.— J. Appl. Probab., 1982, vol. 19, N 3, p. 619—630. 37. В arndorff-Nielsen 0., Sobel M. On the distribution of the number of admissible points in a vector random sample.— Теория вероятностей и ее применения, 1966, т. 11, вып. 4. 38. Campbell G. The maximum of a sequence with prior information.— Purdue Univ. Dep. Statist. Mimeograph Ser., 1977, N 435. 39. Campbell G. The secretary problem with the Dirichlet process.— Inst. Math. Statist. Bull., 1978, vol. 7, p. 290 (abstr.). 40. Campbell 6\, Samuels S. Choosing the best of the current crop. — Adv. Appl. Probab., 1981, vol. 13, N 3, p. 510-532. 41. С ay ley A. Mathematical problems and their solutions. Problem № 4528.— Educ. Times, 1874—1875, vol. 27, p. 189, 237. 42. Chernoff H. Rational selection of decision functions.— Econometrica, 1954, vol. 22, N 3. 43. Chow Y. £., Moriguti S., Robbins #., Samuels S. Optimum selection based on relative rank (the «secretary problem»).— Isr. J. Math., 1964, vol. 2, N 1, p. 81—90. 44. Corbin R. The secretary problem as a model of choice.— J. Math. Psychol., 1980, vol. 1, N 1, p. 1—29. 45. Frank Α., Samuels S. On an optimal stopping problem of Gusein—Zade.— Stochast. Process and Appl., 1980, vol. 10, N 3, p. 299—311. 46. Gardner M. Mathematicalj games.— Sci. Amer., 1960, vol. 202, N 1, p. 150-156; N 3, p. 172—182. 47. Gaver D. P. Random record models.— J. Appl. Probab., 1976, vol. 13, N 3, p. 538-547. 48. Gianini J. The infinite secretary problem as the limit of the finite problem.— Ann. Probab., 1977, vol. 5, N 4, p. 636—644. 49. Gianini /., Samuels S. The infinite secretary problem.— Ann. Probab., 1976, vol. 4, N 3, p. 418-432. 50. Gianini-Pettitt J. Optimal selection based on relative ranks with a random number of individuals.— Adv. Appl. Probab., 1979, vol. 11, p. 720—736. 51. Gilbert /., Mosteller F. Recognizing the maximum of a sequence.— J. Amer. Statist. Assoc, 1966, vol. 61, N 313, p. 35—73. 52. Glasser K. The d-choice secretary problem.— Cent. Nav. Anal. Profess. Pap., 1979, N 253. 53. Grant P. Secretary problems with inspection cost as a game.— Metrica, 1982. vol. 29, N 2, p. 87—93. 188
•54. Haggstrom G. Optimal sequential procedures when moje than one stop is required.—Ann. Math. Statist., 1967, vol. 38, N 6, p. 1618—1626. 55. Haggstrom G. Optimal stopping and experimental design.— Ann. Math. Statist., 1966, vol. 37, N 1, p. 7—29. 56. Henke M. Expectations and variances of stopping variables in sequential selection processes.— J. Appl. Probab., 1973, vol. 10, N 4, p. 786—806. 57. Henke M. Sequentialle Auhswahl probleme bei Unsicherheit. Meisenheim: Anton Hain Verb, 1970. 58. Irle A. On the best choice problem with random population size.— Ztschr. Oper. Res. Α., 1980, vol. 24, N 5, p. 177—190. 59. Kurano M., Yasuda ΛΓ., Nakagami J. Multi-variate stopping problem with a majority rule.— J. Oper. Res. Soc. Jap., 1980, vol. 23, N 3, p. 205— 223. 60. Lindley D. Dynamic programming and decision theory.— Appl. Statist., 1961, vol. 10, N 1, p. 39—52. 61. Lorentzen T. Towards a more realistic formulation of the secretary problem.— Purdue Univ. Dep. Statist. Mimeograph Ser., 1977, N 427. 62. Lorentzen T. Generalizing the secretary problem.— Adv. Appl. Probab., 1979, vol. 11, p. 384—396. 63. Lorentzen T. Optimal stopping with sampling cost: The secretary problem.— Ann. Probab., 1981, vol. 9, N 1, p. 167 — 172. 64. Mucci A. Differential equations and optimal choice problems.— Ann. Statist., 1973, vol. 1, N 1, p. 104—113. 65. Mucci i. On a class of secretary problems.— Ann. Proab., 1973, vol. 1, N 3, p. 417—427. 66. Petruccelli J. Best-choice problems involving uncertainty of selection and recall of observations.— J. Appl. Probab., 1981, vol. 18, N 2. 67. Petruccelli J. Full-information best-choice problems with recall of observations and uncertainty of selection depending on the observation.— Adv. Appl. Probab., 1982, vol. 14, N 2. 68. Petruccelli'J. On a best-choice problem with partial information.— Ann. Statist., 1980, vol. 8, p. 1171—1174. 69. Rasmussen W. A generalized choice problem.— J. Optim. Theory and Appl., 1975, vol. 15, N 3, p. 311—325. 70. Rasmussen W., Pliska S. Choosing the maximum from a sequence with a discount function.— Appl. Math, and Optim., 1976, vol. 2, p. 279—289. 71. Rasmussen W., Robbins H. The candidate problem with unknown population size.— J. Appl. Probab., 1975, vol. 12, N 4, p. 692—701. 72. Rubin H. The «secretary» problem.— Ann. Math. Statist., 1966, vol. 37, N 2, p. 544 (abstr.). 73. Rubin #., Samuels S. The .finite-memory secretary problem.— Ann. Probab., 1977, vol. 5, N 4, p. 627—635. 74. Sakaguchi M. Dowry problems and OLA policies.— Repts Statist. Appl. Res. Union Jap. Sci. and Eng., 1978, vol. 25, p. 124—128. 75. Sakaguchi M. A note on the dowry problem.— Repts Statist. Appl. Res. Union Jap. Sci. and Eng., 1973, vol. 20, N 1, p. 11 — 17. 76. Sakaguchi M. A generalized secretary problem with uncertain employment.— Math. Jap., 1978, vol. 23, p. 647—653. 77. Sakaguchi M. Non-zero-sum games related to the secretary problem.— J. Oper. Res. Soc. Jap., 1980, vol. 23, N 3, p. 287—293. 78. Sakaguchi M. Optimal stopping problems for randomly arriving offers.— Math. Jap., 1976, vol. 21, p. 201—217. 79. Sakaguchi M., Tamaki M. Optimal stopping problems associated with a nonhomogeneous Markov process.— Math. Jap., 1980, vol. 25, N 6. 80. Samuels S. On explicit formula for limiting optimal success probability in the full information best-choice problem.— Purdue Univ. Dep. Statist. Mimeograph Ser., 1989. 81. Samuels S. Minimax stopping rules when the uaderlying distribution is uniform.— J. Amer. Statist. Assoc, 1981, vol. 76, p. 188—197. 82. Schmitz I. Minimax strategies for discounted «secretary problems».— Oper. Res.-Verfahren, 1980, vol.30, N 1, p. 77—86. 189
83. Sen A. K. Collective choice and social welfare. Edinburgh: Oliver and Boyd, 1970. 84. Smith M. A secretary problem with uncertain employment.— J. Appl. Probab., 1975, vol. 12, N 3, p. 620—624. 85. Smith M., Deely J. A secretary problem with finite memory.— J. Amer. Statist. Assoc, 1975, vol. 70, p. 357—361. 86. Snell J. Application of martingale system theorems.— Trans. Amer* Math. Soc, 1955, vol. 73, N 2, p. 293—512. 87. Stadje W. Efficient stopping of a random series of partially ordered points.— Lect. Notes Econ. and Math. Syst., 1980, vol. 177, p. 430—447. 88. Stewart T. The secretary problem with unknown number of options.— Oper. Res., 1981, vol. 29, N 1. 89. Stewart T. Optimal selection from a random sequence with learning of the underlying distribution.— J. Amer. Statist. Assoc, 1978, vol. 73, N 364, p. 775—780. 90. Stewart T. Optimal selection from a random sequence with observation errors.— Nav. Res. Log. Quart., 1981, vol. 28, N 3, p. 393—406. 91. Tamaki M. Recognizing both the maximum and the second maximum of a sequence.— J. Appl. Probab., 1979, vol. 16, N 4, p. 803—812. 92. Tamaki M. OLA policy and the best-choice problem with random number of objects.— Math. Jap., 1979, vol. 24, p. 451—457. 93. Tamaki M. A secretary problem with double choices.— J. Oper. Res. Soc. Jap., 1979, vol. 22, p. 257—265. 94. Tamaki M. A secretary problem with ucertain employment when backward solicitation is permitted.— Math. Jap., 1979, vol. 24, p. 439—450. 95. Vanderbey R. The optimal choice of a subset of population.— Math. Oper Res., 1980, vol. 5, N 4, p. 481—486. 96. Yang M. Recognizing the maximum of a random sequence based on relative rank with backward solicitation.— J. Appl. Probab., 1974, vol. 11,. N 3, p. 504—512.
БИБЛИОГРАФИЧЕСКИЙ КОММЕНТАРИЙ Глава 1. Задача оптимальной остановки 1.1. Основания теории вероятностей излагаются в книгах Феллера [32], Ширяева [34], Гнеденко [9]. 1.2. Исторически первая задача оптимальной остановки была предложена А. Кэли [41] более ста лет назад. Формулировка Кэли приводится в книге Дынкина и Юшкевича [15]. Систематическое изучение задач оптимальной остановки началось значительно позднее и было связано с пионерными работами А. Вальда по последовательному анализу и статистическим решающим функциям [8]. Общая постановка задачи оптимальной остановки случайных процессов с дискретным временем была сформулирована в работе Снелла [86]. Изложение общей теории можно найти в, монографиях Роббинса, Сигмунда и Чао [29] и Де Гроота [13]. 1.3. Изучение задачи остановки марковского случайного процесса было начато в работе Дынкина [14]. Результаты исследований в этом направлении подытожены в монографии Ширяева [35]. Для первоначального знакомства можно порекомендовать вводную работу Бреймана [7]. 1.4. Задача с несколькими возможностями остановки была поставлена и изучена в работе Хаггстрема [54]. Глава 2. Выбор наилучшего варианта 2.1. Неизвестно, кто является автором классической задачи. Ф. Мостел- лер утверждает [51], что узнал о ней в 1955 году от Э. Глисона, который, в свою очередь, слышал о ней от кого-то другого. В начале 60-х годов задача быстро стала популярной и появилась под различными названиями в нескольких журналах в разделах головоломок (см., например, [46]). Вот, по- видимому, неполный список статей и монографий, в которых эта задача содержится: Дынкин и Юшкевич [15], Де Гроот [13], Джилберт и Мостеллер 151], Линдли [60], Ширяев [35], Мостеллер [22], Роббинс, Сигмунд и Чао [29]. 2.2. Задача со случайным числом вариантов впервые была изучена в работе Пресмана и Сонина [27], результаты этой работы изложены также в [2]. Впоследствии эта задача изучалась и другими авторами: Расмуссен и Роббинс [71], Тамаки [92], Ирле [58], Расмуссен [69]. Ирле [58], ссылаясь на неопубликованную работу Раше, использовал новый метод нахождения оптимальных правил в общей задаче остановки, модифицирующий хорошо известный в динамическом программировании метод последовательных приближений Ховарда и не требующий редукции к марковскому случаю. Наше изложение следует Пресману и Сонину, с той лишь разницей, что большее внимание уделяется асимптотической оптимальности в классе поро- 191
говых правил, в то время как Пресман и Сонин аппроксимируют уравнение g(«) = Tg(z). 2.3. Эта задача изучалась Кованом и Забжиком [18], которым мы и следуем с некоторыми упрощениями и добавлением предельного соотношения t> —* е~1 (отсюда можно вывести, что хт1т —» е — 1). Пороговое правило, для которого вероятность успеха стремится к е"1, было указано Гавером [47]. 2.4. Решение задачи с полной информацией было получено в работе Джил- берта и Мостеллера [51], но монотонность критических значений уп осталась формально необоснованной. Точная формула для предела vN получена Самуэльсом [80]. Сакагучи [74] получил результаты Джилберта и Мостеллера иным способом. 2.5. Задача с полной информацией и пуассоновскими моментами наблюдений изучалась Сакагучи в работе [78], в которой было найдено оптимальное правило. Сакагучи выписывает дифференциальное уравнение для частной производной цены продолжения по времени, но решения не приводит. Формула (2.46), полученная другим способом, есть решение уравнения Сакагучи. 2.6. Задача выбора наилучшего варианта с нескольких попыток была эвристически решена Джилбертом и Мостеллером [51]. Решение было формально обосновано в уже упоминавшейся работе Хаггстрема [54] и другим способом — в работах Сакагучи [75] и Тамаки [93]. В предлагаемом изложении идея метода Джилберта и Мостеллера рекуррентного вычисления предельных значений порогов используется в контексте системы дифференциальных уравнений для цен продолжения в предельной задаче. Формальное обоснование предельного перехода легко получается методами следующей главы. 2.7. Байесовская постановка задачи с частичной информацией предложена в работе Стюарта [89]. Стюарт рассматривал семейство равномерных распределений на отрезке с двумя неизвестными концами, давая им двустороннее распределение Парето. Доказательство минимаксности порогового правила из классической задачи в указанном классе распределений содержится в работе Самуэльса [81]. В предлагаемом изложении рассматривается семейство равномерных распределений с одним неизвестным концом и односторонним распределением Парето. Это приводит к тем же результатам, но несколько проще. Упоминаемый принцип инвариантности для конечных групп доказан в монографии Блекуэлла и Гиршика [4] (для общих задач статистических решений), и для задач оценки, но уже произвольных локально компактных групп — в монографии Закса [17]. Заметим, что прямое использование принципа инвариантности приводит к рандомизированным правилам, поэтому возможность перехода к нерандомизированным инвариантным правилам требует особого обоснования, которое в рассматриваемом случае удается провести именно благодаря работе Стюарта. 2.8. Упомянем также некоторые другие постановки. В недавней работе [36] число вариантов N рассматривается как неизвестный статистический параметр. Под правилом остановки понимается бесконечный вектор (/?!, р2> · · ·)ι который предписывает с вероятностью рп остановку, если первый относительно лучший вариант имеет номер п. Приводится кри- 192
терий допустимости правила остановки и некоторые обобщения результатов Пресмана и Сонина [27]. В работе Хенке [56] приводятся рекуррентные формулы для математиче - ских ожиданий и дисперсий оптимальных процедур последовательного выбора (в частности, правил остановки). Задачи с вероятностными ограничениями на доступность пропущенных вариантов изучались Смитом [84], Янгом [96], Петручелли [66, 67], Сакагучи [76], Тамаки [94]. Задачи со случайными моментами наблюдений (и неизвестным априори числом варпантов — иначе это просто рандомизация) изучались Сакагучи и Тамаки [79] и Стюартом [88]. Плата за наблюдения или дисконтированный выигрыш вводится в работах Сакагучи и Тамаки [79], Сакагучи [78], Расмуссена и Плиски [70], Гранта [53]. Игровые задачи наилучшего выбора изучались в цикле работ Аркина, Пресмана и Сонипа [2, 26, 28, 30], основные результаты здесь связаны с доказательством оптимальности или асимптотической оптимальности некоторого набора пороговых правил остановки (в смысле равновесия по Нэшу). В работе Сакагучи [77] несколько более подробно изучен частный случай задачи с двумя игроками. Другие игровые постановки изучались Джилбертом и Мостеллером [51], Грантом [53], Курано, Иосида и Накагами [59]. Вероятностные модели во многих игровых постановках совпадают с многокритериальными ранговыми моделями, изучаемыми в главе 4. Задачи выбора с нескольких попыток нескольких лучших вариантов изучались в работах Николаева [24] (аналогичные результаты получены Тамаки [91]), Глассера [52], Вандербея [95]. Значительное внимание в литературе уделено задачам с частичной информацией. Петручелли [68] нашел достаточные условия, которым должно удовлетворять семейство распределений, чтобы минимаксная вероятность успеха была асимптотически равна 0,58... из задачи с полной информацией (семейство всех нормальных распределений этим условиям удовлетворяет). Петручелли нашел также наилучшее инвариантное правило (следовательно, минимаксное) для семейства равномерных распределений на отрезке единичной длины с неизвестным центром, вероятность успеха в этом случае асимптотически равна 0,44... В работе Кэмпбела и Самуэльса [40] априорная информация представлена в виде «опытной выборки». Пусть общее число вариантов равно Μ + TV, но выбрать требуется вариант, который является наилучшим среди последних 7V, в предположении, что наблюдению подлежат только относительные ранги. Оказывается, что когда М/(М + N) —* t, то оптимальная вероятность удачного выбора стремится к ρ (£), где ρ (·) — некоторая непрерывная монотонная на [0,1] функция, причем ρ (0) = е-1, а р (1) = 0,58... из задачи с полной информацией. Другие постановки задачи с частичной информацией рассматривались в работах [38, 39]. 193
Глава 3. Ранговые задачи наилучшего выбора 3.1. Впервые ранговая задача с неклассической функцией потерь рассматривалась в работе Линдли [60] (задача минимизации среднего ранга). Изложение настоящего раздела в основном следует работам Муцци [64, 65]. 3.2. Идея использования рандомизации для постановки задачи с бесконечным числом вариантов принадлежит Рабину [72] и реализована в важной работе Джианини и Самуэльса [49], которой мы и следуем с незначительными изменениями. 3.3. Предельные соотношения в частных случаях изучались Линдли [60], Чао, Моригути, Роббинсом и Самуэльсом [43], Джилбертом и Мостелле- ром [51], Гусейн-Заде [12]. Аппроксимация цены продолжения решением дифференциального уравнения в общем случае была получена Муцци [64, 65] аналитическими методами. Вероятностное доказательство сходимости минимальных средних потерь νΝ ] ν принадлежит Джианини [48]. В целом предлагаемое изложение следует работе Джианини, отличие заключается в том, что доказывается более сильный результат о сходимости цен продолжений. Идея использования теоремы о вероятностях больших уклонений в сходной ситуации предложена Кэмпбелом и Самуэльсом [40]. 3.4. Конечность ν для всех функций потерь полиномиального роста доказана Муцци [65], им также получено рекуррентное уравнение для порогов. Качественное исследование основного дифференциального уравнения было проведено Джианини и Самуэльсом [49]. 3.5. Задача Гусейна-Заде впервые изучалась в работе [12] и в частном елучае г = 2 — в работе Джилберта и Мостеллера [51]. Асимптотические результаты, изложенные здесь, получены Франком и Самуэльсом [45]. 3.6. Наиболее существенные результаты получены в работе Рабина и Самуэльса [73]. 3.7. Другие постановки. Задача минимизации среднего ранга при случайном числе вариантов изучалась Джианини-Петит [50]. Корбин [44] рассматривал вероятностные ограничения на возможность возврата. Хенке [57] изучал задачу выбора нескольких вариантов, в которой минимизировалась сумма рангов. В трех работах Лоренцена [61-63] изучались задачи, в которых потери определяются не только абсолютным рангом выбранного варианта, но и моментом выбора. Аналогичная минимаксная постановка изучалась Шмицем [82]. Задача с конечной памятью, в которой можно сравнивать п-й вариант только с т предыдущими, рассматривалась Смитом и Дили [85]. Задача с ошибками наблюдений изучалась Стюартом [90]. Глава 4. Задачи с неклассической структурой! предпочтений Первые многокритериальные постановки предложены независимо Стадье [87] и Березовским, Генинсоном и Рубчинским [5]. 4.1-4.2. Обобщение результатов Муцци, Джианини и Самуэльса на многокритериальные задачи получено авторами. Схема частичного упорядочения этапов наблюдений близка к работе Хаггстрема [55]. 4.3. Задача максимизации вероятности остановки на варианте, наилучшем хотя бы по одному из критериев, изучалась в работе [10]. 194
4.4. Теория ожидаемой полезности была создана в фундаментальной монографии фон Неймана и Моргенштерна [23]. Вероятностные характеристики числа парето-оптимальных вариантов составили предмет изучения многих авторов [37, 16, 3]. Численные результаты и некоторые примеры в задаче остановки на па- рето-оптимальном варианте приводятся в [5]. Асимптотическая оптимальность пороговых правил доказана в работе [И]. 4.5. Функции выбора до недавнего времени изучались в основном в контексте коллективного выбора (см., например, монографии Сена [83] и Миркина [21]). Условия наследования и отбрасывания рассматривались Черновым [42] и Айзерманом и Малишевским [1]. Современное состояние области оценочных результатов в теории выбора отражено в обзоре Шоломова [33]. Постановка задачи и оценка эффективности класса пороговых правил приведены в [6]. 4.6. Излагаемые результаты получены совместно с ΙΟ. Μ. Барышниковым.
СОДЕРЖАНИЕ Введение 3· Глава 1. Задача оптимальной остановки 11 1.1. Предварительные сведения из теории вероятностей И 1.2. Задача оптимальной остановки 16 1.3. Оптимальная остановка марковских случайных последовательностей 24 1.4. Задача с двумя возможностями остановки 29 Глава 2. Выбор наилучшего варианта 34 2.1. Классическая задача наилучшего выбора 34 2.2. Задача наилучшего выбора при случайном числе вариантов ... 39" 2.3. Задача наилучшего выбора, связанная с пуассоновским процессом. Случай ранговой информации 49 2.4. Задача с полной информацией 55 2.5. Задача наилучшего выбора, связанная с пуассоновским процессом. Случай полной информации 60 2.6. Выбор с несколькими попытками 65 2.7. Задача с частичной информацией 72 Глава 3. Ранговые задачи наилучшего выбора 81 3.1. Задача с конечным числом вариантов 81 3.2. Задача с бесконечным числом вариантов 87 3.3. Предельные соотношения в задаче с конечным числом вариантов 102 3.4. Пороговые правила остановки и исследование уравнения для цены продолжения в задаче с бесконечным числом вариантов 119 3.5. Задача Гусейн-Заде 132 3.6. Задача с памятью единичного объема 137 Глава 4. Задачи с неклассической структурой предпочтений 143 4.1. Ранговая задача с конечным числом вариантов 143 4.2. Предельные соотношения 147 4.3. Случай равноценных критериев и некоторые примеры 157 4.4. Остановка на парето-оптимальном варианте 160 4.5. Пороговые правила остановки 170 4.6. Остановка на недоминируемом варианте. Случай полной информации 182 Литература 187 Библиографический комментарий 191
УДК 519.226 Березовский Б. Α., Гнедин А. В. Задача наилучшего выбора. М.: Наука, 1984. Монография содержит систематическое изложение класса задач принятия решении в условиях риска, называемых задачами наилучшего выбора, в иностранной литературе — задачами о секретаре. Наряду с классическими постановками, основанными на предположении о существовании единственного критерия сравнения вариантов, рассматриваются многокритериальные, учитывающие структуру предпочтений принимающего решение лица в том случае, когда варианты сравниваются по нескольким критериям. Для специалистов в области теории принятия решений и системного анализа. Табл. 11. Библиогр. 96 назв. Рецензенты: В. А. ЖОЖИКАШВИЛИ, А. Д. ЦВИРКУН 1502010000-267 0/ тг © Издательство «Наука»,
Борис Абрамович Березовский, Александр Васильевич Гнедин ЗАДАЧА НАИЛУЧШЕГО ВЫБОРА Утверждено к печати Ордена Ленина Институтом проблем управления Академии наук СССР Редактор Η. Η. Бирюкова Редактор издательства А. А. Боровая Художник И. В. Козик Художественный редактор Η. Η. Власик Технический редактор С. Г. Тихомирова Корректоры Н. И. Казарика, Л. В. Лукичева ИБ № 27877 Сдано в набор 25.01.84. Подписано к печати 10.05.84. Т-05588. Формат 60χ907ι· Бумага типографская № 2 Гарнитура обыкновенная новая Печать высокая. Усл. печ. л. 12 5 Усл. кр. отт. 12,75. Уч.-изд. л. 12,4. Тираж 3300 экз. Тип. зак. 3752 Цена 1 р. 30 к. Издательство «Наука» 117864 ГСП-7, Москва В-485, Профсоюзная ул., 90 2-я чипографгя издательства «Наука» 121099, Москва, Г-99, Шубинский пер., 10