Text
                    Кибернетический
сборник
НОВАЯ СЕРИЯ
ВЫПУСК
4
Сборник переводов
Под редакцией
А. А. ЛЯПУНОВА и О. Б. ЛУПАНОВА
ИЗДАТЕЛЬСТВО «МИР»
Москва 1967


УДК 519.95 Научный совет по кибернетике Академии наук СССР Четвертый выпуск новой серии кибернетических сборников состоит из двух разделов: математические вопросы и математическая лингвистика. В первом из них помещены статьи по теории кодирования, линейному программированию и теории алгоритмов с оценками. Несомненный интерес у читателей вызовет впервые публикуемая в этом сборнике статья на весьма актуальную тему о вычислительной сложности алгоритмов (Хартманиса и Стириза). В раздел «Математическая лингвистика» включена работа Н. Хомского и Дж. Миллера, завершающая собой цикл статей, в которых обсуждаются математические модели языка. Сборник рассчитан на научных работников, инженеров, аспирантов и студентов различных специальностей, занимающихся и интересующихся кибернетикой в ее математическом аспекте^ Редакция литературы по вопросам математических наук Инд. 2-2-3
Математические вопросы
Структура и свойства бинарных циклических алфавитов^) Дж. Мак-Вильяме Коды, которые могут использоваться для контроля ошибок в реальных системах передачи данных, ограничены природой передающей аппаратуры. Эти ограничения не связаны с главными функциями кода, хотя, конечно, они часто исключают большинство кодов, относительно которых в настоящее время что-либо известно. Например, код, который следует использовать для контроля ошибок и ретрансляции на линиях между центрами, коммутирующими данные, должен быть циклическим (или укороченным циклическим) кодом с 744 информационными позициями и 20 корректирующими позициями. Вычислительная проблема в этом случае локализуется на тех циклических кодах, которые имеют точно 20 корректирующих позиций и блоковую длину 764 или' больше, и. состоит в выборе такого кода, который является наиболее подходящим для контроля ошибок для конкретного канала. В данной статье дается процедура решения таких задач. В ней описывается, как определять циклические коды с фиксированной блоковой длиной и фиксированным числом корректирующих позиций, если, конечно, такие существуют, и даются некоторые методы нахождения числа кодовых слов каждого веса в данном коде. При известной статистике канала это позволяет оценить корректирующие свойства кода. Предлагаемая процедура основана на анализе алгебраической структуры циклических кодов, который проводится в разд. П. Разд. I содержит поэтапное описание процедуры без математического обоснования. Можно надеяться, что теория, приводимая в разд. П, окажется полезной в других приложениях. ВВЕДЕНИЕ В данной статье слово «алфавит» означает систематический код —код, в котором каждое кодовое слово содержит определенное фиксированное число k информационных позиций, значения которых являются произвольными, и фиксированное число п— k корректирующих позиций. Каждая цифра, стоящая в корректирующей позиции, является суммой значений, которые принимаются в определенном подмножестве информационных позиций. Число п называется блоковой длиной алфавита. Индивидуальные члены алфавита называются буквами. пь к^^м ^^^^ ^ ^ ^"^s ♦^•' 'The Structure and properties of binary cyclic al- pnaDets, Bell Syst. Techn. Journ., 44, № 2 (1965), 303—332.
Дж. МаК'Вильямо Хорошо известно [1], что буквы алфавита с блоковой длиной п образуют подпространство векторного пространства всех возможных строк из п бинарных символов. Это большое пространство обозначается через V^y где V — поле {О, 1}. Число k информационных позиций является также размерностью подпространства, занимаемого алфавитом [1]. Циклический алфа^ вит обладает тем дополнительным свойством, что если он содержит букву а, то он содержит также все векторы из V^y которые являются циклическими подстановками а. В силу нескольких веских причин применение циклических алфавитов для контроля ошибок пользуется широкой популярностью. Во-первых, циклические алфавиты имеют простые правила кодирования, допускающие относительно дешевую реализацию. Во-вторых, «лучшие» известные алфавиты являются циклическими ^). В-третьих, свойство цикличности приводит к определенной алгебраической структуре алфавитов, которая может быть использована для предсказания их корректирующих свойств и для отыскания алфавитов с соответствующими свойг< ствами. Алфавит', который может быть использован в системе передачи данных, должен удовлетворять определенным требованиям. Сюда относятся определенные ограничения на величины пики одно естественное требование, заключающееся в том, что алфавит может быть использован для контроля ошибок. Эти ограничения не могут быть полностью произвольными: для данной пары чисел пик возможна, что или вообще не существует циклических алфавитов, или не существует циклического алфа: вита с желаемыми корректирующими свойствами. Расстояние Хэмминга между двумя векторами равно числу координат, в которых эти векторы различны. Расстояние между Vi и V2 равно, таким образом, минимальному числу изменений, которые надо произвести в Vi для того, чтобы перевести его в V2. Обычная стратегия при выборе алфавита сводится к тому, чтобы по возможности дальше (в терминах расстояния по Хэм- мингу) располагать его точки. Если это выполнено, то потребуется относительно большое число ошибок для того, чтобы перевести одну букву алфавита в другую букву того же самого алфавита. Вес вектора в пространстве V^ равен его расстоянию от начала координат и, следовательно, равен числу содержащихся в нем единиц. Пусть а с весом s будет буквой алфавитаИ. Если р —другая буква 91, то а+ р —также буква 91, not скольку 9[ является векторным подпространством; a-f р нахо- ^) Очень вероятно, что причиной этого является то, что никакой другой класс алфавитов так систематически не изучался,
Бинарные циклические алфавиты дится на расстоянии s от р. Пусть A{s) обозначает число букв с весом S в алфавите 21. Тогда A(s) равно числу букв в алфавите 21. находящихся на расстоянии s от некоторой произволь^ ной буквы из 21. Множество чисел Л(0), Л(1), ..., А{п) называется спектром алфавита 21. Спектр алфавита в сочетании со статистикой канала может быть использован для получения оценок корректи' рующих возможностей алфавита [2]. Алфавит, используемый для обнаружения ошибок, не сможет обнаружить тип ошибки, который сам является буквой ал* фавита. Если Л(1')=0, то алфавит позволяет обнаруживать все Сп типов i-кратных ошибок на блоковой длине п. Если А{1)Ф0, то алфавит не позволяет обнаружить Л (i) типов ошибок из Сл возможных. Обычно для получения хорошего качества телефонных линий, как это следует из анализа имеющихся данных [2], требуется, чтобы Л(1) и Л (2) равнялись нулю. Для больших значений i было бы хорошо, если бы буквы веса i не были бы такими же, как типы ошибок, которые обычно классифицируются как «пакеты». Это предположение приводит к следую^ щему не точно формулируемому требованию: ненулевые пози^ ции в буквах малого веса должны располагаться по возможности дальше друг от друга. Циклические алфавиты в определенной степени удовлетворяют этому требованию, так как их буквы наименьшего веса охватывают ненулевыми символами по меньшей мере n—k+l подряд идущих позиций. Так как для целей контроля ошибок может действительно понадобиться выбрать некоторые специальные алфавиты и так как пока не известно, каким именно требованиям должны удовлетворять эти алфавиты, то желательно иметь возможность получать некоторую детальную информацию об имеющихся алфавитах. В данной работе описывается процедура, которая с помощью ускоренных вычислений позволяет выделить циклические алфавиты, имеющие заключенные в некоторых границах значения п и й, а также найти спектры этих алфавитов. Составлена большая библиотека вычислительных программ, полезных в данной процедуре. Статья написана по следующему плану: Раздел I содержит поэтапное описание процедуры выбора циклических алфавитов и определения их спектров. Раздел II содержит математическое обоснование процедур, приведенных в разд. I, и является по существу достаточно полным описанием структуры циклических алфавитов. Для того чтобы следовать рецептам, приведенным в разд. I, не обязательно читать разд. II. Однако в некоторых труднцх
10 Дж. МаК'Вильямс случаях — здесь подразумеваются случаи, в которых требуются большие затраты машинного времени, — материал разд. II может указать путь преодоления этих трудностей. I. СВОЙСТВА ЦИКЛИЧЕСКИХ АЛФАВИТОВ В этом разделе мы в общих чертах описываем процедуру решения следующей проблемы. Для заданной блоковой длины п и заданного числа т корректирующих позиций бинарного циклического алфавита, лежащих в границах требуется найти алфавит (или алфавиты), имеющий наибольшее минимальное кодовое расстояние. В работе всюду предполагается, что п является нечетным числом. Многие из результатов, излагаемых в данном разделе и доказываемых в разд. II, являются неправильными для четных значений п. Пусть ^п означает кольцо полиномов по модулю х'^—1 над бинарным полем. 5И^ состоит из всех полиномов степени не больше п—\ с коэффициентами из бинарного поля. Сложение полиномов осуществляется как обычно, а для умножения двух полиномов надо перемножить их обычным способом и затем осуществить редукцию степеней х по модулю п. Циклические алфавиты с блоковой длиной п можно рассматривать как множества Щ таких полиномов из 9?^, которые делятся (по модулю л:^—1) на фиксированный полином а{х). Полином а{х) может (и должен) быть взят среди множителей хп—ij тогда число корректирующих позиций алфавита % совпадает со степенью а{х). Полином а{х) называется порождающим множителем 21. Будем записывать: % = Ш^^- а {х). Пусть 0) принимает в качестве своих значений одно из чисел О, 1, ..., п—1. Обозначим через 22 (п) подстановку co~>2(o(modn). Подстановка 22(ai) разбивает множество чисел О, 1, ..., п—1 на непересекающиеся циклы, например в табл. 1 приведены циклы 22(63). Пусть fo{x), fi{x), ..., ft^i{x) будут неприводимыми множителями х^—1. Так как п нечетно, то все эти множители различны. Пусть £ — первообразный корень п-й степени из единицы. Циклы 22(л) и полиномы fi{x) связаны между собой следующим образом: нулями fi{x) в соответствующем^) расши- *) Например, в поле Галуа порядка 2', состоящего из корней уравнения У^*—Уу где ^ —длина цикла подстановки 22(/г)', содержащего 1. Доказательство этого «хорошо известного» соответствия дается в разд. II.
Винарные циклические алфавиты 11 рении бинарного поля являются С'^», С'^з, ,,.,^'"й,где {ги Гз, ... ..., Ги) —цикл 22(п); каждый цикл представляет, таким образом, нули одного из полиномов fi{x). Число неприводимых множителей л:^—1 совпадает, конечно, с числом циклов подстановки S2(n). Будем говорить, что полином fi{x) с корнями S'^i, ...,С^* ассоциирован с циклом (ri, ..., г^). Пусть S означает множество циклов подстановки 22(п). Пусть fi^{x)j fi^{x)y ..., fi (jc)— множество неприводимых множителей х'^—1, ассоциированных с циклами множества S. Пусть a{x) = f^^{x).f^^{x)... ft^{x) есть порождающий множитель алфавита 91. Будем говорить, что циклический алфавит 2l = 9t„'a(.^) ассоциирован с множеством S. Пусть 1 <Г1<Г2< ... <п — список делителей п ^). Сопоставим каждому циклу подстановки 22(^) показатель ei^njri, определяемый тем свойством, что г^ является наибольшим делите-* лем числа п, на который делится каждый член данного цикла. Большая часть информации о циклических алфавитах с блоковой длиной п может быть получена путем обозрения циклов подстановки 22 (п). Таблица 1 Циклы подстановки 2)2 (63) 1 3 5 7 9 11 13 15 21 23 27 31 0 2 6 10 14 18 22 19 30 42 29 45 47 Циклы 4 12 17 28 36 25 26 39 43 54 55 8 24 20 35 37 38 51 46 59 16 33 34 49 44 41 57 53 61 32 48 40 56 50 52 60 58 62 Показатель 63 21 63 9 7 63 63 21 3 63 7 63 1 О Введенное здесь обозначение г» для делителей п не следует путать с предыдущим использованием этого обозначения для членов циклов. — Прим, перев.
12 Дж. Мак-Вильяме Предложение I. Пусть tjo, iii, ..., r\t^i будут циклима подстановки ЕгСп), и пусть nii — длина цикла Ц{. Число ^) циклических алфавитов с блоковой длиной п равно 2К Алфавит, ассоциированный с множеством S циклов, имеет ш= ^ nii корректирующих позиций. Предложение П. Пусть е будет наименьшим обидим кратным показателей циклов, входящих в S. Если еКп, то алфавит, ассоциированный с S, имеет минимальное расстояние, равное 2. Если е = п, то минимальное расстояние алфавита равно по меньшей мере 3. Предложение П1 (граница Бозе — Чоулхури). Если циклы множества S содержат числа 1, 2, ..., d—1, то минимальное расстояние алфавита, ассоциированного с S, не меньше d. Необходимо отметить, что минимальное расстояние может быть и часто бывает больше, чем нижняя граница, определяемая предложениями П и П1. Можно, конечно, прийти к заключению, что не существует удовлетворительных циклических кодов с блоковой длиной п. Основной целью предложений I и П является исключение из рассмотрений таких бесполезных значений д. Предположим, однако, что данное значение п таково, что существует алфавит с требуемым числом корректирующих позиций и минимальным расстоянием, равным по меньшей мере 3. Тогда полезно установить взаимно однозначное соответствие между циклами подстановки 22 (/г) и неприводимыми множителями х^—1. Показатель полинома f{x) определяется как наименьшее число е, для которого f{x) делит х^—1. Найдем неприводимые множители многочленов х'^ — Р) и х^^—1 {ei = h/ai) для каждого делителя а{ числа п. Некоторые из неприводимых множителей многочлена х^—1 принадлежат показателю е^ они появляются среди неприводимых множителей x^t — i ц могут быть определены с помощью проверки. Любой неприводимый множитель х^—1, принадлежащий показателю /г, может быть выбран в качестве ассоциированного с циклом, содержащим единицу, подстановки 22 (^). Пусть fi{x) является таким полиномом, тогда t, — нуль fi(x). Если г *) Это число включает три «тривиальных» алфавита: алфавит, совпадающий со всем Шп1 алфавит, состоящий только из нуля, и алфавит, содержащий только нуль и вектор веса л. 2) Это, действительно, сделано для всех нечетных значений л < 1023,
Бинарные циклические алфавиты 13 является собственным делителем п, то г — наименьший член цикла с показателем е = п1г. Полином, ассоциированный с этим циклом, также имеет показатель е. Пусть gu g2, . •., gs будут неприводимыми множителями х'^—1, принадлежащими показателю е. Выбирая fi{x) ассоциированным с циклом, содержащим единицу, мы неявным образом делаем выбор, согласно которому полином ^г(^) ассоциирован с циклом, содержащим г. Этот выбор может быть сделан явным следующим образом. Предложение IV. Многочлен gi(х^) делится нацело на fi{x) тогда и только тогда, когда он ассоциирован с циклом, codepMaWfUM г^). Мы можем теперь приписать каждому делителю п числа п неприводимый множитель fi{x) многочлена д:^—1, принадлежащий показателю ei^njri. Для этого не надо тем не менее просматривать каждый из циклов подстановки 22(п), ассоциированных с неприводимыми множителями х'^—1. Основная работа может быть проделана по-другому. Прежде чем описывать эту процедуру, мы ее проиллюстрируем. Предположим, что пит заключены в следующих границах: 52<^а1-<64 и т==9. Найдено, что 2i (53) имеет два цикла длин 1, б^; Ег (55) имеет пять циклов длин 1,4, 10, 20, 20; 22 (57) имеет пять циклов длин 1, 2, 18, 18, 18; Ез (59) имеет два цикла длин 1, 58; Ег (61) имеет два цикла длин 1, 60; 22 (63) имеет тринадцать циклов длин 1, 2, 3, 6. Согласно предложению I, единственно возможной блоковой длиной является 63, поскольку длины циклов для других значе-^ НИИ п не могут в сумме дать девять. Делителями 63 являются 3,7,9,21. Циклы подстановки 22(63) и их показатели приведены в табл. 1. Девять корректирующих позиций могут быть получены, если взять один цикл длины 6 и один цикл длины 3 или цикл длины 6, цикл длины 2 и цикл длины 1. Согласно предложению П, наименьшее общее кратное показателей циклов должно быть, 63. Следовательно, цикл длины 6 должен иметь показатель 63 или 9^). Граница Бозе — Чоудхури не дает дополнительной информации: минимальное расстояние, равное ') Этот элегантный и экономящий время способ был предложен Р. Л. Грэхемом (R. L. Graham). ^) Это обстоятельство было пропущено, поскольку автор не заметила это во-время.
14 Дж. Мак-Вильямс Трем, обеспечивается предложением II, и мы не можем подобрать комбинацию циклов, содержащих числа 1, 2 и 3 и имеющих только девять корректирующих позиций. Следовательно, надо просчитать спектры 18 различных алфавитов. (Ниже будет показано, что это не является необходимым.) Предположим, что т=12. Тогда выбор первого и второго циклов в соответствии с предложением III обеспечивает нам минимальное расстояние, равное по меньшей мере пяти^). Таблица 2 Неприводимые множители многочлена х^^ — 1 /l /2 /з /4 /б /б /7 Л Л /ю /и fn /l3 Множитель 714 414 700 554 534 634 444 664 724 604 600 540 640 Показатель 63 63 3 63 21 63 ^ 9 63 21 63 1 7 7 Ассоциированный цикл 1, 2, 4, 8, 16, 32 21, 42 3, 6, 12, 24, 33, 48 7, 14, 28, 35, 49, 56 - 9, 18, 36 Полиномы записаны в восьмеричной системе так, что при переводе цифр в двоичную систему единицы означают позиции с ненулевыми коэффициентами. Члены полиномов располагаются в возрастающем порядке их степеней, например 714=:111001100г=1 + л:4-л:2 + л:5+;гв. Таблица 2 содержит список неприводимых множителей многочлена л:^^—1 и их показатели. Свяжем первый полином (714) с первым циклом. Тогда один из полиномов с показателем 21 будет ассоциирован со вторым циклом. В соответствии с предложением IV правильным выбором является 534. Полноты ради мы используем также предложение IV для установления соответствия между полиномом 640 и циклом, начинающимся с 9. VI Математически не доказано, что другой выбор не может привести к большему минимальному расстоянию. Для полной уверенности необходимо вычислить спектры всех алфавитов с 12 корректирующими позициями и показателем 63,
Бинарные циклические алфавиты 15 Единственным полиномам с показателями 9 и 3 соответствуют, естественно, циклы, начинающиеся с 7 и 21. Для объяснения последующих шагов необходимо ввести некоторые дальнейшие определения. Пусть q будет числом, взаимно простым с п. Отображение Oq : х^ ~> х^^ (показатель степени берется по модулю п) является автоморфизмом в 31„. Действие Oq на циклический алфавит переводит его в эквивалентный [1] циклический алфавит: 31а^=21^ причем 3[ и 31' имеют одинаковые спектры. Число подстановок Gq, различно действующих на 31, относительно мало; если qi и q2 лежат в одном и том же цикле подстановки 22(п), то 31а,. = 31а,,. (В частности, если q лежит в цикле, содержащем 1, то Sla, = 3l.) Из каждого цикла S2(ai), содержащего числа, взаимно простые с п, выберем по одному q. Для az = 63 мы выберем числа, лежащие в основе табл. 1. Такой выбор обладает вычислительными преимуществами, поскольку 52^25 (mod 63); 5^^62(mod 63); 5^=58 (mod 63), 5^=38 (mod 63). Каждый циклический алфавит 3[ содержит единственный полином с{х), идемпотент 21, который обладает следующим полезным свойством: 31а, = 31' тогда и только тогда, когда c{x)aq = c^{x). Для целей вычислений лучше знать идемпотент % чем порождающий множитель 3[. Обозначим через 1+9г(А:) идемпотент алфавита ^nfi(x), где fi(x) —неприводимый множитель многочлена х'^—1. Полиномы 9г(А:), i = 0, 1, ... ..., t—1, называются примитивными идемпотентами кольца Ш^ и обладают следующими полезными свойствами: (i) вг(А:) могут быть легко вычислены; в частности, это проделано для всех нечетных п<^1023. (Метод, с помощью которого это было сделано, описывается в следующем разделе.) (ii) Идемпотент алфавита с порождающим множителем fiS^)fiM^'-fi,{^) равен 1 + е/Л^) + в/Лх)+ ... +Qtri^). (iii) Автоморфизмы Oq приводят к перестановкам идемпо- тентов Qi{x) между собой. Алфавит с идемпотентом Qi{x) является минимальным алфавитом в Шп (т. е. он не имеет ненулевых подалфавитов). Его порождающий множитель равен (л:^—l)/fi{x). Алфавит споро ждающим многочленом fiix) является максимальным алфавитом в 3?я и имеет идемпотент 1+Ji(a:).
le Дж. МаК'Вильяме По своей природе циклический алфавит % определяется ско-^ рее суммой примитивных идемпотентов JR^j, чем произведением неприводимых множителей полинома х'^—1. Предложение V. Если fi(х) и f^{х) — неприводимые множители многочлена х^—1, принадлежащие одному и тому же показателю, то Qi{x)ag=Q2{x) для некоторого автоморфизма Og кольца ^п- Следовательно, минимальные алфавиты, порожденные многочленами 6i(-v) и 02(л:), эквивалентны, и максимальные алфавиты, порожденные многочленами 1 + 0i(a:) и 1 + д2{х)у также эквивалентны. Наоборот, если два минимальных (максимальных) алфавита имеют тот же самый спектр, то они эквивалентны относительно одного из автоморфизмов Og. Предложение VI. Алфавит с идемпотентом (1 + 9^1 + 4- • • • +9^) эквивалентен алфавиту с идемпотентом (1 + 9£^а^+ Предложение VII. Пусть 1 +вг(х) является идемпотентом, ассоциированным с циклом подстановки 22(az), содержащим 1. Пусть и и V — числа, взаимно простые спи такие, что uv^\{modn). Тогда \+Qi{x)au является идемпотентом, ассоциированным с циклом 22 (^), содержащим v. Иллюстрацию опять проведем для случая я = 63. Табл. 3 содержит список примитивных идемпотентов $Нез- Этот список параллелен списку табл. 2. В табл. 2 f-й множитель fi{x) является порождающим множителем алфавита с идемпотентом 1+в{{х)у где вг(А^) является /-М примитивным идемпотентом табл. 3. Соответствие между некоторыми Эг^л:) и циклами Иг (63) перенесено из табл. 2. Автоморфизм 05 приводит к следующей подстановке множен ства примитивных идемпотентов кольца ^Iq^: (9i, 9io, Ss» ^6, 02, %){%, 09)(0i2, ^id) {%){%) i^u)' Другие автоморфизмы, как уже говорилось, приводят-4с сте-« пеням этой подстановки. Например, (Тв2=с^5* Д^^т (вх, ве)(0,о, 02) (вз, 04) (05, 9,) (0,2, 9,з) (0з) (9^) (©п). Рассмотрим алфавит с девятью корректирующими позиция^ ми, ассоциированный с циклами (1, 2, 4, 8, 16, 32) и (9, 18, 36). По табл. 2 порождающим множителем этого алфавита является./i (л:) fi3 (л:), а его идемпотентом — (1+01+^01з). Идемпо- тенты, которые могут быть получены из этого идемпотента с по-
Бинарные циклические алфавиты 17 Таблица 3 ei 62 ез 64 Об Об 67 68 69 бю би ^12 ^13 Примитивные идемпотенты кольца 321026251170 010305172162 333333333333 044160277124 012231301223 375343166036 044044044044 331327363052 323I120323I1 375263355116 777777777777 456271345627 723516472351 156307227 0 267315277 333333333 317353233 130122313 225150213 044044044 375016044 203231120 136243020 777777777 134562713 - 647235164 ^69 Ассоциированные циклы в соответствии с табл. 2 1, 2, 4, 8, 16, 32 21, 42 - 3, 6, 12, 24, 33, 48 7, 14, 28, 35, 49, 56 0 9, 18, 36 В соответствии со свойством VI 11, 22, 25, 37, 44, 50 5, 10, 17, 20, 34, 40 31, 47, 55, 56, 61, 62 1 22, 29, 43, 46. 53, 58 15, 30, 39. 51, 57, 60 13, 19, 26, 38, 41, 52 27, 45, 54 - ') Используя соотношение 94'a5=9i, легко проверить, что здесь произошла опечатка и идемпотентом 6i является многочлен 321026251170 156307277, вес которого действительно равен 32,—Прим, перев. МОЩЬЮ автоморфизма сГб и его степеней, равны 1 + ^10 + ^12» 1 + ^8 + ^13» 1 + 9б + ^12» 1 + 92+913, l + 94+9i2. Порождающие множители соответствующих алфавитов (включая исходный алфавит) имеют вид fi • fis, fio • fi2, fe • fi3, fe • fi2, /2 • fi3i /4 • fi2- В соответствии с предложением VI все эти (шесть) алфавиты эквивалентны. Аналогично алфавит, ассоциированный с циклами (1, 2, 4, 8, 16, 32) и (27, 45, 54), имеет идемпотент 1+61 + 612, и ему эквивалентны алфавиты с идемпотентами l + 9io+9i3, 1 + 98+9,2, 1+ 96 + 6,3, 1 + 62+6,2, 1 + 64+018 Третья возможность при девяти корректирующих позициях связана с циклами (1, 2, 4, 16, 32), (21, 42), (0). Ассоциированный идемпотент равен 1+61 + 63 + 611, и эквивалентные алфавиты определяются идемпотентами i + eio+вз+ви, 1+б8+бз+е,„ 1 + ве+бз+ен, 1 + е2+ез+вп, 1 + в4+ез+вп. 2 Зак. 47f
18 Дж, МаК'Вильямс Следовательно, среди 18 алфавитов с девятью корректирующими позициями и минимальным расстоянием не меньше 3 в действительности имеются самое большее три различных спектра. Выше мы показали, что алфавит с 12 корректирующими по-» зициями, ассоциированный с циклами (1, 2, 4, 8, 16, 32) и (3, 6, 12, 24, 33, 48), имеет минимальное расстояние, по меньшей мере равное 5. Идемпотент этого алфавита равен l+Bi + Bs. Имеется по меньшей мере^) пять эквивалентных алфавитов, которые определяются идемпотентами i + eio+e9> 1 + 98+65» i + Oe+e^, i+ 92+85, 1+ 94+89. Оказалось, что один из этих алфавитов исследовать легче, чем выбранный исходный алфавит. Взаимно однозначное соответствие между циклами подста^ новки 22(63) и примитивными идемпотентами кольца SR^a "о*^" ностью описывается предложением VII и выписано в табл. 4. Например, 5X38 = 190= 1 (mod 63) (38 = 55(mod 63)); следовательно, 9i • cTg == 9io соответствует циклу (13, 19, 26, 38, 41, 52). Теперь необходимо рассмотреть проблему непосредственного вычисления спектра циклического алфавита. Для малых алфавитов это может быть выполнено путем непосредственного просчета без слишком больших затрат вычислительного времени. На IBM-7090 алфавит с блоковой длиной 765 и 22^ буквами был проанализирован (побуквенно) за 0,32 час. Этот алфавит имеет 745 корректирующих позиций. Типичной, однако, является задача вычисления спектра алфавита с 2^^5 словами и 20 корректирующими позициями. Непосредственный просчет такой задачи требует около миллиона вычислительных часов. К счастью, имеется способ решения этой дилеммы. Пусть а{х) степени т будет множителем х'^—1, и пусть b{x) = (x^ — \)Ja{x). Алфавиты % = Шп'а{х) и S=:SR„ •6(а:) называются дуальными или ортогональными 2). Пусть A{s) и B{s) означают ^) Вполне возможно, что алфавиты, не входящие в этот список, также имеют такой же спектр и, возможно, эквивалентны первому алфавиту относительно подстановки, не являющейся автоморфизмом кольца Шп- 2); Это определение дуального алфавита не является обычным (общепринятым). Обычный дуальный к Ж алфавит эквивалентен S3 и, следовательно, имеет тот же спектр. Более полно это различие будет объяснено в разд. II.
Таблица 4 Спектры малых алфавитов кольца Шв^ 01 + 912 (29 букв) В(0) =1 В (28) = 189 В (32) = 252 В (36) = 7 В (40) = 63 9i + 9i3 (29 букв) В{0) =1 В (28) = 252 В (32) = 63 В (36) = 196 в1 + 9з + 911 (29 букв) В{0) =1 jB (25) = 3 В (26) = 63 В (29) = 126 В (31) = 63 Б (32) = 63 В (34) = 126 В (37) = 63 В (42) = 3 В (63) = 1 9i + 95 (2»2 букв) 5(0) =1 Б (24) = 210 В (28) = 1512 В (32) = 1071 В (36) = 1176 В (40) = 126 2»
20 Дж. Мак-Вильяме соответственно числа букв веса 5 в алфавитах 91 и 33, Предположим, что 91 с m корректирующими позициями является большим алфавитом, спектр которого мы хотим найти; 23 содержит 2^ букв, и его спектр может быть найден непосредственным вычислением или более тонкими методами. Тогда A{s) может быть найдено из В{$) следующим образом [3]. Предложение VHI. Величины A{s) и B{s) связаны выражением 2"^ ^ A{s)z' =^ B{s){\+zf-' {\ —z)\ Опишем теперь методы, которые иногда бывают полезными при вычислении спектров малых циклических алфавитов. Пусть а будет буквой циклического алфавита 91, и пусть аТ является буквой, полученной из а путем -.одной циклической перестановки вправо. Например, для п = 7 мы должны иметь а = (0110111), аГ = (1011011), аР = (1101101) и т. д. Все буквы аР принадлежат 91. Множество (всех) различных букв аГ^ при фиксированном а назовем циклом в 91; а является представителем этого цикла; число л (а) различных букв в цикле называется периодом а или длиной цикла, Зная длину каждого цикла в 91 и вес одной буквы из каждого цикла, можно сразу вычислить спектр 91, Если % и Ъ—дуальные алфавиты и \+с{х)—идемпотент 9[, то с{х) является идемпотентом 2J. Алфавит Эй^ с идем- потентом 9г(А:) дуален максимальному алфавиту, порождаемому неприводимым множителем fi{x). Алфавит 9№г называется минимальным алфавитом. Алфавит с порождающим множителем fi{^)'fji^) имеет идемпотент l+Qi{x)+Qj{x), а дуальный ему алфавит является об1^динением Ш^ и Mj и имеет идемпотент 9г (х) + 0j(х). Процедура состоит в нахождении циклических представителей для Mi и последующего получения из них циклических представителей для Ш^ [} Mj, Это делается в соответствии со следующим предложением. Предложение IX. Кйждый цикл Tti (за исключением цикла, содержащего-нулевую букву) имеет длину jc(9t); кроме того, n{Qi) является показателем ei неприводимого полинома fi (х). Например, для д=63 SRj имеет один цикл длины 63. Этот цикл содержит букву, соответствующую многочлену Qi{x), вес которого равен 32. Спектр Mi определяется равенствами
Бинарные циклические алфавиты 21 S(0) = 1 и В(32)=63. Спектр максимального алфавита Stgj-fi (а:) определяется соотношением 63 26 2 Л (5)z' = {\+ zf^+ 63 (1 + zf' (1 — г)32. 5 = 0 Аналогично ЗИ^з имеет один цикл длины 7, который содержит букву веса 36, соответствующую многочлену 9i2(a:). Спектр 3^12 задается равенствами 5(0) = 1 и В (36) =7, и дуальный алфавит ^63'fi2(^) имеет спектр A{s), определяемый соотношением 63 2з2^(5)г" = (1+;г)бз+7(1+г)27(1—г)зб. Заметим, что равенство 8Л (2) = С1з+ 7 [CIj — 27 . 36 + СУ = 2016 соответствует утверждению предложения II о том, что этот частный алфавит может содержать буквы веса 2. Алфавит 9Р?5 содержит три цикла длины 21. Можно проверить вручную, что Qby Q5+Q5T и Q^ + QbT^ лежат в различных циклах. Их веса соответственно равны 24, 36 и 36 и спектр Ш^ имеет вид В (0)=1, В (24) =21, В (36) =42. Эта техника является полезной только тогда, когда 9№; содержит относительно малое число различных циклов. В противном случае процесс отыскания циклических представителей становится чрезвычайно трудоемким ^). Если циклические представители Ш^ и ЭКу известны, то можно построить циклические представители алфавита 9№^ U 3№у (с идемпотентом Qi + Qj) в соответствии со следующим предложением. Предложение X. Пусть mi, тг, ..., т^^ являются циклическими представителями 3№^ периода ei, и пусть пи Пг, ..., п^ являются циклическими представителями 9№у периода е^. Пусть Huh означают соответственно наименьшее оби^ее кратное и наибольший обилий делитель ei и ej. Тогда циклическими представителями Ш^ и 9Иу являются mi, тг, ..., т^, Пи п^^ ..., Лр, а также nti + njT^ для всех пар (f, /) а v=0, 1, ..., h—1, причем период nii+njT'^ равен Я. Например, для д=63 в алфавите Зй^ U 9№i2 имеются один циклический представитель 6i (периода 63), один циклический ') в работе [8] предложен легко машинизируемый способ отыскания циклических представителей в 2R^ — Прим, перев^
22 Дж. МаК'Вильямс представитель 0i2 (периода 7) и семь циклических представителей 9i + ei2p, v = 0, 1, ..., 6, периода 63. Алфавит 2«iU 2)^13 строится аналогичным образом. Спектр алфавита надо строить путем добавления буквы веса 63, соответствующей 011, к объединению ЗК^иЗйз (циклические представители: 01, 9з, 01+.03, 01+ 03?"). Спектры этих трех и дуальных им алфавитов приведены в табл. 4 и 5. Дуальные алфавиты являются теми тремя неэквивалентными алфавитами с блоковой длиной 63 и девятью корректирующими позициями, которые надо было отыскать. В алфавите 9Wi U SRg имеются следующие циклические представители: 01 (периода 63), 05, 05 + 05?", 05 + 057"^ (периода 21) и 01+ 05^ 01+(05 + 05Г)Л 01+(05 + 05Р)Л v = 0, 1, ..., 20 (периода 63). Спектры этого алфавита и ему дуального приведены в табл. 4 и 5. Дуальный алфавит, как и было предсказано, имеет минимальное расстояние, равное 5. Дадим теперь итоговое описание процедуры: 1) Выписываем список циклов подстановки 22(az) для каждого допустимого значения п и проверяем, для каких сумм длин различных циклов можно получить нужное число корректирующих позиций. Отбрасываем те значения п, для которых это невозможно. 2) Вычисляем показатель каждого цикла 22(/t). Пусть S является множеством циклов пригодных длин. Находим наименьшее общее кратное показателей циклов из 5. Отбрасываем те множества 5, для которых это число меньше чем п. 3) Устанавливаем теперь соответствие между циклами из S и примитивными идемпотентами Шп. Это делается в два этапа. Выписываем списки неприводимых множителей многочленов х^—1 и /^ — 1, ei = nlri для всех собственных делителей Гг числа п. Пусть /о(а:), fi{x), ..., f<_i(A:)—неприводимые множители х^ — 1. Неприводимые множители х^^ —1 должны быть среди fi{x). Начиная с наименьшего значения е^ припишем каждому многочлену fi{x) его показатель путем сравнения списков. Поставим некоторый многочлен fi{x) с показателем п в соответствие циклу, начинающемуся с 1, и, используя предложение IV, найдем полином с показателем е{, соответствующий циклу, начинающемуся с Г{, 4) Выпишем параллельный список примитивных идемпотен- тов кольца Шп и перенесем в него циклы в соответствии с найденным порядком сопоставления. В каждом цикле подстановки 22(/г), содержащем числа, взаимно простые с az, отметим число (/ и найдем результат применения подстановки Oq к множеству
Таблица 5 Спектральные вероятности ^) больших алфавитов кольца fRes l + 8i + 8i2 (9 корректирующих позиций) а (0) == 1 = а (63) а (1) == а (2) = а (3) = О а (4)== 0,21153 ХЮ"^ а (5) = 0,20973 X 10"^ а (6) = 0,19243 ХЮ-^ а (7)== 0,19571 ХЮ"^ а (8) = 0,19526 X Ю"^ a{s) = a{n — s) а (s) = 2~^ для других значений 5 ^ l + 8i + 8i3 (9 корректирующих позиций) а{0) =1 = а(63) а{\) ==а(2) = 0 a(3) =а(4) = 0,15865 ХЮ''^ а (5) =а(6) =0,20077X10"^ а (7) =а(8) =0,19451X10"^ а {9) =а (10) = 0,19544 X Ю'^ а (11) = а (12) = 0,19528 X 10""^ a{s) =а{п — S) a{s) =2"^ для других значений 5 1+81 + 83 + 811 (9 корректирующих позиций) аф) =1 а{\) =а(2) = а(3) = 0 а (4) =0,19634X10"^ а (6) =0,19626X10 ^ а (8) = 0,19502 ХЮ'^ а (1) = О для всех нечетных значений / а (2/) = 2"^ для других значений / 1 + 81 + 85 (12 корректирующих позиций) а{0) =1 а(63) = 1 а{\) =а{2) =а(3) = а(4) = 0 а (5) =а(6) =0,26889X10 ^ а {7) =а(8) =0,24119X10""' а (9) = а (10) = 0,24461X10"' а{П) = а (12) = 0,24404 X Ю"' а (13) = а (14) = 0,24416 X Ю"' a{s) =а{п — s) _.. a{s) =2"^^ для других значений 5 ') Спектральные вероятности а (s) определяются как A{s)/C^; числа A{s) часто бьиаю! слишком большими для вычислительных устройств.
24 Дж. МаК'Вильямс примитивных идемпотентов. Используя предложение VII, установим полное соответствие между циклами и примитивными идемпотентами. 5) Пусть 5i, 52, ..., 5у будут циклами допустимого множества S, fi{x), f2{x)y ..., /v(a:)—соответствующими неприводимыми множителями многочлена х'^—1 h9i(a:), ЭгСл:),..., 9v(a:) — соответствующими примитивными идемпотентами. Тогда искомый алфавит порождается множителем f{x)=fi{x)'f2{x) ... ... fvW- Порождающий идемпотент ортогонального алфавита равен Q{x) = Q,{x) + Q,{x)+ ... +%{х). По результатам действия автоморфизма Oq на идемпотент 9 (л:) разделим допустимые алфавиты на автоморфные классы. Алфавиты из одного и того же автоморфного класса имеют одинаковые спектры. 6) Часто ортогональный алфавит Шп*в{х) намного меньше, чем исходный алфавит Шп*!{х). В этом случае лучше вычислять спектр Шп'д{х) и затем получать спектр 9t„'f{x) на основе предложения VIII. Если 9(л:) является суммой двух или трех примитивных идемпотентов, то его спектр может быть построен способом, описанным в предложении X. Короче говоря, алфавит может строиться с помощью векторов, соответствующих полиномам 6(а:), xQ(x), ..., x'^Q(x) [m —степень f{x)], а его спектр вычисляется. II. ДОКАЗАТЕЛЬСТВА В этом разделе мы даем доказательство предложений разд. I. Пусть V — бинарное поле, а V'^ — множество всех возможных строк из п бинарных символов; У^ есть п-мерное векторное пространство над У, и пусть Шп будет, как и ранее, множеством полиномов, взятых по модулю х'^ — 1 над V. Ш„ является коммутативным кольцом. Между V'^ и Шп можно установить следующее взаимно однозначное соответствие ao+aiA:+ ... +a„^iA:'^-i :^ ао, а^, ..., a^^j. Это соответствие, очевидно, инвариантно относительно сложений ив ШпИ в V^, Подмножество 31 полиномов из Ш^ называется идеалом, если (i) gug2^^^gi+g2e'!l\ (ii) g^%=^rg^ 21 для любого r(:9tn.
Бинарные циклические алфавиты 25 Согласно свойству (i), идеал в Ш^п соответствует линейному подпространству в У^. Согласно свойству (ii), при г==х это подпространство инвариантно относительно циклического сдвига координат и, следовательно, является циклическим алфавитом в V". Наоборот, всякий циклический алфавит в V^^' является идеалом в Шп. Как идеал, так и алфавит мы будем обозначать одной и той же буквой 21. Лемма 2.0. Идеал 91 кольца Шп состоит из всех кратных {в Шп) некоторого полинома а{х), который делит л:^ —П). Полином а{х) является единственным полиномом наименьшей степени в %. Доказательство этой леммы можно найти в монографии Питерсона ([4], разд. 6.4). Полином а{х) будет называться порождаюи{им множителем 9t. Полином Ь(х) = {х^—1)1 а{х) будет называться взаимным (обратным) множителем 91. Это предположение всюду в дальнейшем выполняется: идеал, обозначаемый через 91, имеет порождающий множитель, обозначаемый через а{х), и взаимный множитель, обозначаемый через Ь{х). Степень а{х) будет обозначаться через т, а степень Ь{х)—через k, так что, конечно, m + k = n. Лемма 2.1. Размерность % как векторного пространства в У" равна k, а число корректирующих позиций алфавита 91 равно т. Для доказательства см. теорему 6.11 работы [4]. Число различных алфавитов в Шп равно числу различных делителей многочлена х'^—1, а размерность алфавита 91 равна степени взаимного множителя. Однако, если п — нечетное число (а это мы всюду предполагаем), можно определить допустимые размерности при блоковой длине п, не решая существенно более сложную задачу нахождения множителей х'^—1. Пусть (О принимает в качестве своих значений одно из чисел О, 1, ..., Az—1. Обозначим через 22(az) отображение (о->2о) (modn). В силу нечетности п Ii^in) является подстановкой чисел О, 1, ..., п— 1. Подстановка I^zin) на числах О, 1, ..., п—1 распадается на циклы (циклы Ег (63) приведены в табл. 1). Нахождение этих циклов является достаточно простым делом. ') а(х) делит х^ — 1 в кольце V[x] всех полиномов над V. Говорить, что что-то делит д:" — 1 в di^t бессмысленно.
26 Дж. МаК'Вильямс Соотношение между этими циклами и множителями многочлена х'^ — 1 над V является хорошо известной частью теории Галуа. Здесь оно детально описывается только в силу трудности отыскания четкой справки. Лемма 2.2. Пусть S будет подмножеством чисел О, 1, ... ..., п—1. S инвариантно относительно 22{п) тогда и только тогда, когда оно является объединением циклов подстановки 22 (п). Доказательство. Если S является таким объединением, то оно инвариантно относительно 22(п), поскольку каждый частный цикл инвариантен. Предположим, что S инвариантно относительно 22 (п) и г принадлежит S. Тогда для любого значения v число 2^ • г также принадлежит S. Множество S содержит вместе с г все циклы, содержащие г. Таким образом, S является объединением циклов подстановки 22(п). Лемма 2.3. Пусть S инвариантно относительно 22 (^), ti пусть Sx — множество всех сумм вида r^-\-rs^-\- ... +^^^, ^5,6*5» ГзгФ rs.. Тогда S^ инвариантно относительно 22(п). Доказательство. Нам необходимо показать только, что 22(п) отображает Sx в себя; тогда отображение должно быть взаимно однозначным. Пустьг^^+ ^53+ ••• +^5^€^т, Гз^фГз:, применяя 22(п), мы получаем число 2rs^'\-2rs^-\- ... +2г^^, которое опять принадлежит S^. Следовательно, лемма доказана. Пусть (l, 2, 2^ ..., 2"^'~^) будет циклом 22(п), содержащим 1. 2^"*^ 1 (mod/г) или п делится на 2"^'—1. Положим N==2^'—1. Каждый корень степени п из единицы является также корнем степени Л^ из единицы. Пусть У(2^0 будет полем Галуа корней степени Л^ из единицы над исходным полем V. Многочлен х^ — 1 распадается над V{2^') на линейные множители вида X — ^^ где ^ — первообразный корень степени п из единицы, (g не является первообразным корнем Л^-й степени из единицы, за исключением случая N = n.) Автоморфизмы V(2^') над V описываются отображением а~>а2 и его степенями, rjxea^V (2'"')'» кроме того, а=а2 тогда и только тогда, когда a^V [5]. Явная связь между циклами 22 (п) и' множителями х^^-1 состоит в следующем.
Бинарные циклические алфавиты 27 Лемма 2.4»). Пусть S = {ri, гг, ..., Гш} будет множеством всех чисел, инвариантных относительно Ъг[п), причем Г1ФГу Полином f (а^) = II (^ — S'^O является множителем полинома i х^ — 1 над V, и его коэффициенты лежат в У. Пусть f {х) == (х — С'О {х — t!') ..,{х — 1'гп) будет разложением над V(2'"') полинома f{x), который делит х^—1 над V. Множество {ги г^, ..., r^i} инвариантно относительно 22(д). Доказательство. Пусть S = {ri, Г2, ..., г^} будет множеством различных чисел, инвариантных относительно Е2(д). (x) = (jc —S^i)(jc —S^2)...(^ —СЧ делит х^-1 над1/(2'"0» так как каждый линейный множитель делит х'^ — 1 и Г1Фг^, Пусть а„_^ будет коэффициентом при х'^-'^ в полиноме f{x), an-t является г-й симметрической функцией от ^^, ^^, ..., С'''^, или Согласно лемме 2.3, 2г.+2г^ + ... +2rs {а.-гУ= S С'^"^^-^'''^ = а„ ■f Таким образом, коэффициенты полинома \{х) лежат в 1/, и f (л:) делит л:^ — 1 над У. Предположим, что \[х) делит л:^ —1 над У. Нулями f{x) в 1/(2^*) являются S'^S S'^^ ..., ^Х где g —первообразный ко^ рень степени п из единицы, а ri, Г2, ..., Гт — числа по модулю п. Так как в соответствии с леммой 2.3 все симметрические функции от 1^\ ^^у ..., ^^ лежат в У, то f{x) инвариантен относительно преобразования ^--►С^, и, следовательно, это преобразование приводит к перестановке нулей f{x). Таким образом, множество ги ^2, ..., ^т инвариантно относительно S2(ai). Наименьшие множества, инвариантные относительно Ъг{п), называются индивидуальными циклами E2(ai). В соответствии с изложенным каждый такой цикл определяется нулями неприводимого множителя многочлена х'^—1, и каждый неприводимый множитель [(л:) соответствует циклу S2(n). *) Напомним, что мы работаем в V{x\ а не в Ып.
28 Дж. Мак-Вильямс Доказательство предложения I Число циклов подстановки 22(ai) равно /, и в соответствии с вышесказанным t является также числом неприводимых множителей а:^—1. Эти неприводимые множители все различны ((л:^— 1) в случае нечетного п не имеет кратных корней над V) и могут быть скомбинированы умножением в 2' различных множителей полинома л:^ — 1. Кроме того, таким способом получаются все возможные множители л:^ — 1. Следовательно, всего существует 2* циклических алфавитов с блоковой длиной п. Пусть a{x)=fi{x) fz{x) .'., f^{x) будет порождающим множителем циклического алфавита 91. Пусть т^ будет степенью многочлена fi{x); Шг является длиной цикла подстановки ЕгС^), соответствующего многочлену fi{x). Согласно лемме 2.1, число V корректирующих позиций алфавита 91 равно m=^mi. Показатель полинома а(х) определяется как наименьшее число е, такое, что а{х) делит х^— 1. Пусть а{х) = {х-1Щх -t'2),,,{x-tH где ^ — первообразный корень степени п из единицы и {ги ^2, ..., Гш} является множеством циклов подстановки 22(^г). Тогда показатель а{х) равен такому наименьшему значению е, что ($''0^=1, или ert^l (mod/г), /=1,.2, ..., т. е = п1а, где а — наибольший общий делитель чисел Ги г^, ./. ..., г^ и п. Если а{х)—неприводимый множитель л:^ —1 [ги Гг, ..., Гт образуют индивидуальный цикл подстановки S2(n)], величина а является наибольшим делителем п, делящим каждый член цикла {г1, Г2, ..., Тггх^' Величина е = п1а называется показателем цикла, так же как и показателем полинома а{х). Показатель объединения циклов или показатель произведения полиномов равен наименьшему общему кратному их индивидуальных показателей. Доказательство предложения 11 Идеал 91 с порождающим множителем а{х) содержит многочлен х^—1 (=д:^+1), где е — показатель а{х). Если ^ = п, этот полином является нулевым в 91; если е<п, то он соответствует букве веса 2 в алфавите 91. Если 91 содержит букву веса 2, то идеал % содержит (при соответствующей циклической подстановке) полином л:^ — I {е<п), делящийся на а{х). Тогда показатель а{х) меньше чем п.
Бинарные циклические алфавиты 29 Предложение III лежит в основе теоремы Бозе — Чоудхури; доказательство может быть найдено в теореме 9.1 монографии [4]. В установлении точного соответствия между циклами подстановки 22(п) и неприводимыми множителями полинома хп — 1 имеется определенная свобода выбора. Это объясняется тем, что имеется несколько примитивных п-х корней из единицы: если ^ — один из этих корней, то Z^ — также один из них для любого V взаимно простого с п. Сопоставим некоторый неприводимый полином с показателем п циклу (1, 2, 22, ..., 2^-^). Выбор этого полинома имеет смысл делать, используя некоторую стороннюю информацию, поскольку алфавиты, порождаемые неприводимыми полиномами с одним и тем же показателем, неразличимы для наших целей. Действительно, как будет показано ниже, они эквивалентны [1]. Выбор полинома,соответствующего циклу (1,2, 2^...,2^-i), неявно фиксирует точное соответствие между циклами подстановки ЕгС^г) и неприводимыми множителями полинома л:^—1. Задача состоит в том, чтобы сделать это соответствие явным, предпочтительно используя для этого операции над числами в исходном поле V: Эта задача решается в два этапа, первый из которых описывается предложением IV. Доказательство предложения IV Пусть fi{x) будет полиномом, поставленным в соответствие циклу (1, 2, ..., 2^-^). Над полем V(2^) fi(x) распадается в произведение {х — t,) (х — g^) ... (л: — gsm-ij Пусть г будет делителем числа п, а {gi(л:)} —множеством неприводимых множителей полинома л:^ — 1, принадлежащих показателю е = п1г. Один из полиномов gi{x) имеет ^^ в качестве своего нуля над У (2^) и соответствует циклу, содержащему г. Этот полином gi{x) может быть определен в соответствии со следующей леммой. Лемма 2.5. gi(x^) делится на fi{x) над V тогда и только тогда, когда ^^ является нулем gi{x) над 1/(2^). Доказательство. Пусть g{х) — некоторый полином, принадлежащий показателю е. Так как g{x) делит х^—1 над I/, то g{x^) делит а:^^— 1=х^ — 1. Следовательно, g{x^) является произведением неприводимых множителей полинома х^—1. Пусть ао, ai, ..., «s-i будет циклом, ассоциированным с g{x), так что типичным множителем полинома g{x^) является (л:^ —^«0. Цикл ро, Pi, ..., Pm-i ассоциирован с g(A;^) тогда и
30 Дж. Мак-Вильямс только тогда, когда rPj = cLt[{^y = t,^^] при соответствующем выборе /, /. Предположим теперь, что gi{x'') делится над V на /i(a:). Тогда цикл (1, 2, ..., 2^-^) ассоциирован с giix"") и ^^ = ^"^ для некоторого L Следовательно, ^^ является нулем полинома g^(л:). Предположим затем, что ^^ является нулем полинома gi{x). Тогда с gi{x) ассоциирован цикл (г, 2г, ..., 2«-V). 0*!евидно, что (1, 2, ..., 2^-1) является циклом, ассоциированным с giix''), nfiix) лелит giix"-). Необходимо отметить, что в доказательстве этой теоремы дается способ нахождения множителей полинома g{x^), который является полезным и для других приложений. Автоморфизмы и идемпотенты кольца Ш^^ Пусть q — число, взаимно простое с д, и пусть Од — отображение кольца Шп в себя, определяемое соотношением h{x) -^h{x^), где показатель степени редуцируется по модулю п. Ясно, что соответствие Oq сохраняет в Шп операции сложения и умножения и является взаимно однозначным, так как^/ взаимно просто с п; из л:'^ =^^^ следует, что iq^q (modAi), откуда в свою очередь следует, что i^ (modn), Oq является автоморфизмом кольца 91^, и 51 огд опять является идеалом. В пространстве 1/^ ог^ приводит к перестановке номеров координат, описываемой соотношением (iy-^q(i>{niodn) [22(^1) является частным случаем огг]. Таким образом, Gq переводит алфавиты в 1/^ в эквивалентные алфавиты, и в частности циклические алфавиты в эквивалентные циклические алфавиты. Автоморфизмы Gq ЯВЛЯЮТСЯ полезным аппаратом исследования, поскольку их действие на идеалы кольца Шп вычисляется легко. Лемма 2.6^). Каждый идеал ^кольца Шп содержит единственный полином с{х) со следующими свойствами: (i) c{x)=[c{x)f, с{х) является идемпотентом-, (ii) % = Шп-с{х), с{х) порождаете; (iii) с{х) является единицей в 51; (iv) с{х) * Gq является идемпотентом 31а^. Доказательство. Пусть а{х) и b{х) будут соответственно порождающим и взаимным множителями 51. Так как п — нечетное число, то они взаимно просты. Следовательно, ^)) Другими словами, Шп является коммутативным полупростым кольцом. Оно является, конечнр, и групповой алгеброй циклической группы ^порядка п над 1^; из нечетности п вытекает, что алгебра является полупростой [6].
Бинарные циклические алфавиты 31 существуют такие полиномы hi{x) и h2{x), что a(x)hi{x) +] + b{x)h2{x) = l и hi{x), h2{x) взаимно просты соответственно с Ь{х) и а{х). Покажем, что полином с{х) =hi{x)a{x) является идемпотентом идеала 91. (О [c{x)Y + c{x)h2{x)b{x)=c{x). Второе слагаемое в левой части этого равенства равно нулю, так как содержит множитель х^ — 1. Следовательно, с{х) —идемпотент. (ii) Порождающий множитель идеала Шп*с{х) является наибольшим общим множителем полиномов с{х) и (л:^—1). В соответствии с построением с{х) он равен а{х). Следовательно, Ot„ • с(х)= %. (iii) Если а{х)^%, то, согласно (ii), а{х) =а'(х) - с{х). Тогда в соответствии с (i) а{х) * с{х) =а'{x)[c{x)f = a'{x) X Хс{х)==а{х). Следовательно, с{х) является единицей идеала 91, причем с{х) является единственной единицей, так как коммутативное кольцо 91 не может содержать двух единиц. (iv) c{x)aq является единственным идемпотентом идеала Ш„ • с{х) Од == 9[а^, поскольку Oq — автоморфизм кольца 3?„. Теперь с каждым идеалом 9[ мы свяжем полином с{х), порождающий идемпотент 91. С л е дств ие 2.7. 91а^ = 91 тогда и только тогда, когда с{х)од = с{х). Следствие 2.8. Stag =91 для каждого идеала % кольца Ш„; эквивалентно, каждый циклический алфавит в V^ инвариантен относительно перестановки ЕгС^г). Два вектора (ао, ai, ..., an-i) и (Ро, Рь •.., Pn-i) называются ортогональными, если 2а^-Р/ = 0 (умножение и сложение в поле V). /«о Ортогональное дополнение (дуальный алфавит) 91-^ к 91 со^ стоит из тех векторов в V'^, которые ортогональны к каждому вектору в 2t. Для наших целей удобнее говорить, что циклические алфавиты 91 и 23 ортогональны, если 23 порождается по-* линомом b {х) = {х'^ — 1) /а (л:). Это вытекает из следующей леммы. Лемма 2.9. 91-'^ эквивалентен идеалу, порожденному полиномом Ь{х), и может быть получен из него отображением Хт:>Х''К Доказательство этой леммы можно найти в монографии Пи-* Херсона ([4], 6.12),
32 Дж. МаК'Вильямс Лемма 2.10. Еели с{х)—идемпотент идеала % то 1+с{хЩ является идемпотентом идеала 2} = 9i^ • b{x). | Доказательство. Согласно лемме 2.6, идемпотент идеа| ла 95 равен | h2{x) й (х) = 1 + Ai (х) а (л:) == 1 + с{ху \ Так как мы условились называть 21 и 93 ортогональными] идеалами, то мы можем также называть с{х) и 1+с{х) opToroil нальными идемпотентами. Это естественно, поскольку, согласн(?{ давно установившимся традициям, в теории алгебр два идем-; потента называются ортогональными, если их произведение; равно нулю [6]. [с{х){1+'с{х))^с{х)+с{х)=0.] Мы примем эта соглашение. Необходимо отметить, что ортогональность идеален* совсем не то же самое, что ортогональность идемпотентов, Идемпотенты Ci{x) и С2{х) ортогональны, если Ci{x) -С2{х) =0, Идеалы, порождаемые этими идемпотентами, не ортогональны, за исключением случая, когда к тому же Ci{x) +С2{х) = 1. Лемма 2.11. (i) Полином Ci{х) • Сг{х) является идемпотентом идеала %{]%2' {^'^)' Полином Ci{x)+C2{x)+Ci{x) * С2{х) является идемпотентом идеала 5liU %- Доказательство. (i) %i [] % порождается наименьшим общим кратным а(х) полиномов ai(л:) и а2{х). Поэтому а{х) является наибольшим общим множителем полиномов Ci{x) * С2{х) и х'^ — 1. Следовательно, полином Ci{x)'C2{x) является идемпотентом идеала 9tn*a{x), (ii) Положим d{x)=Ci{x)+C2{x)+Ci(x)C2{x). Тогда- Ci{x)d{x)=Ci{x) и C2{x)d{x)=C2{x). Таким образом, d{x) является идемпотентом, и идеал Э^п • ^(а:) содержит 5li и Щ. Пусть 91 —некоторый идеал, содержащий % и 512, и Г1усть с{х)—идемпотент 91. Так как с{х) является единицей в 91, то Ci{x)c{x)=Ci{x), t=l, 2. То£да d{x) 'c{x)=d{x) и ^n-d{x) содержится в каждом идеале 91. Следовательно, Ш^ • d{x) = %i[i %. Идеал кольца называется минимальным, если он не содержит никаких подидеалов, кроме (0). Минимальный идеал в Щ2 будет обозначаться через $W/, его порождающий множитель — через mi{x), его взаимный множитель — через /г(-^) и его порождающий идемпотент — через Qi{x), Идемпотент минимального идеала называется примитивным идемпотентом. Лемма 2.12. (i) Tli является минимальным идеалом тогда и только тогда, когда fi{x) является неприводимым множителем полинома x'^—L
Бинарные циклические алфавиты 33 (И) Wftif\Ttj = Oy если 1Ф]'; размерность 9№;U3№y равна сумме размерностей Щ а Зйу. (iii) Любой идеал % является объединением минимальных идеалов, входящих в % В частности, Шп является объединением всех его минимальных идеалов. Доказательство. (i) Следует из леммы 2.1, так как размерность минимального идеала по возможности минимальна. (ii) Порождающий множитель идеала, ортогонального к Щ(]^j, является наибольшим общим множителем полиномов fi{x) и fj{x), который равен 1. Следовательно, ЯК^пЗйу эквивалентно Шй" и равно 0. Вторая часть утверждения немедленно вытекает из первой. (iii) Пусть Ь(х) будет взаимным множителем идеала Щ, и пусть b{x)=^fi{x) *f2{x) ,,,fy^(x), где (в силу нечетности п) fi{x)—различные неприводимые множители многочлена х^—1. Идеал 51 содержит полиномы (х^—l)lfi(x) и, следовательно, содержит минимальные идеалы Ш^ i=l, 2, ..., v, а также их объединение Ш^ЦЩИ ••• U9№^- Согласно (ii), размерность этого объединения равна сумме степеней полиномов fi(x), f2{x)y ..., fvix), котор|ая в соответствии с леммой 2.1 является размерностью 21. Таким образом, 21 = 9№i и ЗИз и ••• уЗИ^- Заметим, что эта теорема не верна для четных п,^ Пусть 9о, 9i, ..., Qt-i будет множеством примитивных идем- потентов кольца SR^. Следствие 2.13. (i) е^-е, = 0, i¥=/. (ii) Каждый идемпотент в 9tn может быть представлен в форме еде e>i принадлежат V. В частности, Доказательство. (i) Следует из лемм 2.12(ii) и 2.1 l(i). (ii) Так как любой идеал в Шп является объединением минимальных идеалов, то любой идемпотент может быть получен из 6г повторным применением утверждения (ii) леммы 2.11.
34 Дж. МаК'Вильямс Произведения членов исчезают согласно свойству (i) данного, следствия. В частности, 9?„.l = SR„.(Se,). Лемма 2.14 ^). Если \Xi и \Х2 принадлежат минимальному^ идеалу 2№ и iuii'iui2==0, то либо \i\ = 0, либо |i2 = 0. Доказательство. Предположим, что iui2=?^0. Рассмотрим множество Л элементов т из 2№, таких, что m«jji2=0. Если ^1, /ПгёЛ, то mi + m2€A; если тбЛ и im^St^, то mji^A. Следовательно, Л является подидеалом в 5Ш и в силу минимальности Ш либо равно нулю, либо совпадает со всем Ш. Пусть Q будет идемпотентом в 9И. Тогда 0iui2 = iui2=7^O. Следовательно, 06 Л и АФЖ Таким образом, имеем Л=0 и, следовательно, [11 = 0. Ясно, что очень важно найти явные формы для примитивных идемпотентов 9г(А:). Действительно, если эта задача трудна, то все предыдущие теоретические результаты имеют малую прак* тическую ценность. Однако эта задача легко разрешима и, в частности, выполнена для всех нечетных значений п вплоть до 1023. Метод, который при этом использовался, принадлежит Прэнджу [7] и описывается ниже. Пусть г={г1, Г2, ...,- Гт} — ЦИКЛ подстановки S2(n), и пусть х\г означает полином х^^-\-х^^-{- ... -\-х^гп. Полином Цг является идемпотентом, так как возведение его в квадрат является простой перестановкой степеней х. Лемма 2.14. Полином п-1 является идемпотентом тогда и только тогда, когда он может быть записан как сумма полиномов г|г. Доказательство. Ясно, что любая сумма полиномов Цг является идемпотентом. «Необходимая» часть леммы следует из леммы 2.2. Лемма 2.15. Число примитивных идемпотентов кольца 91^ равно числу циклов подстановки SaC^)- ^) Можно также сделать ссылку на хорошо известную теорему [4, 5] о том, что минимальный идеал Ш изоморфен полю Галуа V[y]/f{yl4
Бинарные циклические алфавиты 35 Доказательство. Пусть 5 будет числом примитивных идемпотентов. Согласно. 2.12(iiii), число идеалов в йп равно 2^. Следовательно, 5 является также числом циклов подстановки Любой идемпотент может быть представлен как линейная комбинация полиномов г\г (которые находятся легко) или как линейная комбинация примитивных идемпотентов 0j. Идемпо- тенты 9у обладают дополнительным свойством взаимной ортогональности. Каждый т]г, в частности, является суммой подмножества 0j. Задача состоит в расщеплении г\г на его компоненты. Будем считать, что S и Т — непустые множества индексов О, 1, ... S ^— 1, причем 8ФТ. Тогда Произведение двух идемпотентов будет содержать меньше примитивных идемпотентов, чем каждый множитель. Пусть / будет числом примитивных идемпотентов. Тогда /^1 t-i 1= 2вуг и если 1= Ц^у, где Ij — ортогональные идемпотенты, то gj с точностью до порядка нумерации те же, что и 0j. Мы используем этот факт для установления следующего алгоритма. Предположим, что имеются некоторым образом расположенные от 1 до т<^ взаимно ортогональные идемпотенты, 1= 2Ь ^/ = ^/. li'lj=0, 1ф;\ Пусть g — идемпотент; положим lj = ljl + lj{l+l) = ln + lj2^ У = 0, 1, ..., t-1. gji и gj2 являются идемпотентами, причем эти новые идемпотенты взаимно ортогональны. Если расщепление является действительным (может случиться, что lj = l или gj=l+X и тогда расщепление не произойдет), то результат приводит к расположению более чем т взаимно ортогональных идемпотентов. В начале алгоритма мы положим 1=t]i+(l+iii), а остальные 'i]j зарезервируем в качестве подходящих кандидатов в g. Вычисление закончится тогда, когда в разложение будут вхо-* дить t компонент. Так как т]г являются также и базисом для Шд, то эта процедура будет длиться до тех пор, пока не исчер* паются все Цг-
36 Дж. Мак-Вильяме Примитивный идемпотент Qi{x) является порождающим идемпотентом минимального идеала Шi\ ортогональный идемпотент \+Qi{x) является порождающим идемпотентом максимального идеала ^г\ порождающий множитель fi{x) идеала Ф/ является неприводимым множителем многочлена х'^—1 и наибольшим общим множителем полиномов \+^г{^) и л:"—1. Таким образом, мы можем составить параллельные списки примитивных идемпотентов и неприводимых множителей полинома х'^ — 1, имеющие отношение к разд. I. Вернемся теперь к автоморфизмам Oq кольца Шп. Множество автоморфизмов Oq является абелевой группой относительно операции умножения ог^, • Oq^ == Oq^q^, определяемой обычным образом. Она изоморфна (мультипликативной) группе чисел по модулю п, взаимно простых с п. Так как огг и его степени не изменяют идемпотентов кольца SRn, то в соответствии с нашими целями мы можем вынести эту подгруппу за скобки. Практически мы выбираем одно q из каждого цикла 22 (п), содержащего числа, взаимно простые с п. Эти q (и соответственно Oq) образуют значительно меньшую абелеву группу, структура которой может быть найдена «вручную» так, как это проиллюстрировано для п = 63. Имеет смысл найти множество порождающих для этой группы. Тогда можно будет просчитывать только результат воздействия порождающих на множество примитивных идемпотентов кольца SR^, поскольку это дает возможность легко просчитать результат воздействия любого автоморфизма на любой идеал. Таким образом, предложение VI доказано. Доказательство предложения VII Пусть fi{x) будет неприводимым множителем полинома х'^—1, ассоциированным с циклом (1, 2, ..., 2^-^). Пусть v — число, взаимно простое с п, и мы хотим определить полином fr(A^), ассоциированный с циклом (t;, 2у, ..., 2^-^t;). Так как v взаимно просто с п, то имеются два цикла с одинаковой длиной. Полином fi{x) является наибольшим общим множителем полиномов l-f-9i(A:) и {х'^—1). Таким образом, полином 1г1^01(лс) делится на ПОЛИНОМ (л: — ?) (л: — ^2) ... [х — С )• Пусть w —та* кое взаимно простое с п число, что uv^{{moAn). Тогда [1 + 01 {х)] ог„ = 1 + 9i {^"') делится на который в свою очередь делится на {x-t:){x-e)...{x-i'"''').
Бинарные циклические алфавиты 37 Таким образом, fr{x) делится на [l+9i(A:)]oru над 1/(2^), и так как коэффициенты обоих полиномов лежат в I/, то fr(x) делится на [l+,9i(A:)]oru и над V. Следовательно, fr{x) является наибольшим обш;им множителем полиномов [1+9i(A:)]oru и (x^'—l). Спектр циклических алфавитов Пусть а{х) и Ь(х) будут соответственно порождающим и взаимным множителями идеала 21 в 9t„. Пусть Ь{х) принадлежит показателю е, где п = еа, а>1. Пусть 21'будет идеалом в Ше^) со взаимным полиномом Ь{х). Лемма 2Л6. Каждая буква из % состоит из а повторений буквы из 21'. Доказательство. Пусть а'{х) = (х^—l)lb{x) будет порождающим полиномом 21'. Тогда а-1 Пусть Г {х) а' (х) = 2 ^i^^ (умножение в SR^) будет буквой %'. В соответствии с умножением в SR„ 21 содержит Следовательно, каждая буква из 21' может быть продолжена до буквы из 21, которая состоит из а повторений исходной буквы из 21'. Очевидно, что различные буквы из 21' приводят к раз^ личным буквам из 21. Так как размерности 21 и 21' обе равны степени Ь{х), то таким способом получается весь идеал %. Следствие 2.17. Пусть спектр 21' равен A'{i), i = 0, 1, ..., е. Спектр 21 задается равенствами A{ai)=A^(i), i = 0, 1, ..., ^. Например, пусть п=15 и Ь{х)=^1+х+х^. Полином Ь(х) принадлежит показателю 3 ^'W = -T7^=l + -^*» а{х) = {\+х^-^х^+х'+х^^){1+х). О Ше —КОЛЬЦО полиномов по модулю (х^—1).
38 Дж. Мак-Вильямс Ниже приведена таблица идеалов 21 и 21': 0 12 0 12 3 4 5 6 7 8 9 10 11 12 13 14 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 I 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0 1 1 1 0 1 0 1 0 1 0 1 I 0 0 0 1 1 0 1 0 1 0 1 1 0 0 0 1 1 Пусть Т обозначает циклическую перестановку (о->(о + + l(modn) чисел О, 1, ..., п—1. Т будет также обозначать отображение h{x) ->xh{x) (степень по модулю п) кольца Ш^ в себя. Ясно, что Т'^ является тождественным отображением. Если а 6 21, то полиномы (или векторы) аГ, аР, ..., аГ^-^ также принадлежат 21. Буквы из 21 разбиваются на некоторое число непересекающихся циклов, и для построения 21 достаточно знать по одной букве из каждого цикла. В действительности построение всей картины идеала 21 таким способом редко оказывается полезным. Мы ограничимся нахождением спектра 21. Множество а, аГ, ..., аТ'^~^ не всегда содержит п различных букв. Обозначим через я (а) число различных букв в этом множестве; я (а) называется периодом а. Множество а, аГ, ..., аГ^^«^-' является полным циклом в 21, и длина этого цикла равна я (а). Пусть г{х) 6 9tn, пусть а(х) —наибольший общий множитель полиномов г{х) и (л:^—1), и пусть Ь{х) = {х'^—1)1а{х). Лемма 2.18. Период г(х) равен показателю, которому принадлежит b {х). Доказательство. Предположим, что Ь{х) принадлежит показателю е, и положим а^{х)=={х^—1)/6(а:), r{x)=^h{x)' а{х), где h{x) взаимно прост с х'^ — Х. Тогда г{х){х^—1) = = /г (л:) • а (х) • 6 (л:) • а' (л:) = /г (л:) • а' {х) (л:^ — 1) = 0. Следователь- но, л:^ • г (л:) = г (л:), и период г [х) •< е. Предположим, что период г{х) равен е\ Тогда е'^п и г{х) {х^'— 1) =0. В V[x\ h{x) -aix) {х''—\) =i{x) {х^^ — 1) = = i{x) -а{х) -b{x), где i(л:)—полином в УМ. Полиномы Ь(х) и h{x) взаимно просты, так как Ь{х) является множителем х'^ — 1. Таким образом, Ь(х) делит х^' — 1 и е'^е. Доказательство предложения IX Пусть я(6г) является периодом 9^, а я(т)—периодом m 6 9in • вг. Тогда тх^ ^^ = т^^х^ ^'^ = т6^ = т. Следовательно,
Бинарные циклические алфавиты 39 K{m)<n{Qi), Также 0=т(х'^'^)+1) =mQi{x^(^)+l) == = т6гЭг(А:^^^+1). Согласно лемме 2.13, так как тЭг^О, мы должны иметь 9^(а:=^(^)+1) =0. Таким образом, я(6г) <д(т), так что я(Эг)=я;(т). Согласно 2.18, я{Эг) является показателем неприводимого полинома fi{x). Если п = 2^—1, то неприводимый полином /(л:), принадле^ жащий показателю п, имеет степень т и, если не считать нулевого цикла, минимальный идеал периода п состоит только из одного цикла. Максимальный идеал с порождающим множителем f{x) является кодом Хэмминга (плотноупакованным кодом с минимальным расстоянием, равным 3 [3]). Если п не имеет такого вида, то минимальный идеал периода п содержит более чем один цикл, и тогда необходимо находить несколько циклических представителей. Никаких сокращенных способов выполнения этой процедуры не предложено; частные случаи, которые изучались, были решены непосредственным образом^). Если циклические представители циклов Э^Э^ и ЩЭу найдены, то циклические представители для 91(вг + Э;) могут быть найдены с помощью следующих лемм. Пусть//гбЭге^, ne^Qj. Лемма 2Л9. тТ^-{-пТ^ = тТ^'+пТ^' тогда и только тогда, когда тТ^ = тТ^ и nV = nV . Доказательство. Вышеуказанное равенство может быть переписано в виде тТ'' — тТ''' = пГ — пГ'. Левая половина принадлежит ШЭг, а правая — 9i9j. Пересечение этих идеалов равно нулю. Пусть п{т) и п{п) будут соответственно периодами тип, и пусть Ник будут соответственно наименьшим общим кратным и наибольшим общим делителем этих чисел. Лемма 2.20 (доказательство предложения X), п{т)п{п) элементов тТ^+^пТ^ распадаются на h циклов периода Н. Векторы тТ^+п, |1=0, 1, ..., h — 1, лежат в различных циклах и могут быть выбраны в качестве циклических представителей. Доказательство. Пусть К будет периодом вектора тТ^+пТ"^. Тогда (mr^+ пГ) Т^ = тТ^'+пГ, ^) См. примечание на стр, 21. — Прим. перев^
40 Дж. Мак-Вильяме И, согласно 2.19, {v+A.)=v(modn(n)) и (jx4-X)=|i(mod jt(m)). Таким образом, Х делится как на я(т), так и на я(п), т. е. 'k=qH, где ^ — число, не меньшее единицы. Векторы тТ^+п и тТ^ -f п лежат в одном и том же цикле тогда и только тогда, когда {тТ''+п)Т^ = тТ'''+п или когда (|i + p)^|i'(modn(m)) и p^O(modn(n)). Ир, и я(т) делятся на к. Следовательно, сравнение ([i—[i')^р(mod п(т)) означает, что [i—[i^ делится на /г. Таким образом, h векторов тТ^+'Пу |1 = 0, 1, ..., /г—1, должны лежать в различных циклах. Таким образом, имеемся по меньшей мере h различных циклов, и период каждого из них не меньше Я. Так как всего имеется только п{т) ' n{n)=hH различных элементов, то возможно суш.ествование только h циклов периода Я. Вернемся теперь к предложению V, которое раньше было опущено. Перефразируем это предложение следующим образом: Теорема 2.21. Пусть Ш^ и Эйз— минимальные идеалы в Шп. Следующие три утверждения эквивалентны: (i) Ш^ и Эйз имеют один и тот оюе спектра (ii) a^i и Эйз имеют одну и ту же размерность и период. (iii) Существует такой автоморфизм а^ кольца 91„, что Доказательство. Покажем, что(1) =ф(ii) =ф(iii) =ф(i)* Пусть А {s) — число букв веса 5 в 2)?^. Покажем, что период Tti равен наибольшему общему множителю чисел A{s), s>0. Предположим сначала, что период Ш1 равен п. Пусть 2*^ будет общим числом букв в 9К^. Ортогональное дополнение Tti не может содержать букв с весом 1, поскольку оно является нетривиальным циклическим алфавитом. Согласно предложению VHI, мы получаем 2Л(5)=2'/-1, 5=1 ^sA{s)=2^r'n. £-1 Согласно первому равенству, &i = &2, так что размерности Шх и 9Й2 равны. Так как каждый цикл из ЗИ^, исключая цикл,
Бинарные циклические алфавиты, 41 СОСТОЯЩИЙ из нулевой буквы, имеет длину п, то п делит каждое число A{s) для 5>0. Согласно второму равенству, любой об^ щий множитель чисел A{s) является степенью двойки. В силу первого равенства такого множителя не существует. Предположим теперь, что период 9К/ равен et и п/^^ = аг>1. Согласно леммам 2.16 и 2.17, в %^ существует такой макси* мальный идеал Эй/с периодом ei и спектром A^{s), что спектр 9ГО/ определяется равенствами A{aiS)=A^(s). Согласно первой части доказательства, е{ является наибольшим общим множителем чисел A^{s), 5>0. Следовательно, ei является наибольшим общим множителем чисел A{aiS), aiS>0. (ii) гф (iii). Предположим сначала, что рериод SO^i и 3^2 равен п. Пусть Шх соответствует циклу (1, 2, 2^, ..., 2^-*) подстановки 22(п) и 2)?2 соответствует циклу (у, 2у, ..., 2'^-^v), V должно быть взаимно просто с п, так как неприводимый полином, ассоциированный с STOg, принадлежит показателю п. Выбе^ рем и, взаимно простое спи такое, что uv^l{modn). Так же как в доказательстве предложения VH, можно показать, что 3№ia„==:aK2. Предположим теперь, что 9К/ имеют показатель е, i=l, 2, где .п1е = г>1. Пусть Tti и Зйз ассоциированы с циклами (г, 2г, ..., 2'^'"V) и (5, 25, ..., 2"^'~^s). Длины этих циклов равны, поскольку Tt^ и SKg имеют одинаковую размерность. Аналогично доказательству леммы 2.5 получаем, что s==qr, где q взаимно просуо с п. Обращаясь опять к доказательству предложения Vn, получаем 3№ior^ = 9№2. (iii)z^(i). Если Ш^ и 9№2 эквивалентны, то они, очевидно, имеют один и тот же спектр. Таким образом, мы показали, что минимальные и максимальные циклические алфавиты кольца 91;^, имеющие один и тот же спектр, эквивалентны. Неизвестно, справедливо ли это утверждение для других циклических алфавитов. Однако найдено много случаев, когда для циклических алфавитов с одним и тем же спектром определенно не существует ни одного автоморфизма Oq, переводящего их друг в друга. Заключение До настоящего времени большинство теоретических работ по бинарным циклическим алфавитам концентрировалось на алфавитах с блоковой длиной вида п = 2^—1. Такие числа при увеличении п становятся достаточно редкими. С другой стороны, алфавиты с большой блоковой длиной являются важными для
42 Дж. МаК'Вильямс их действенного использования в телефонных линиях, причем в этих применениях блоковая длина, хотя и должна быть большой, по-видимому, ограничена некоторым узким диапазоном. Поэтому представляется целесообразным разработка экономичных процедур для отыскания алфавитов с указанными свойствами, если, конечно, такие существуют. Объем приведенной в данной статье информации о структуре полиномов кольца Ш^ не так велик, однако она имеет существенные практические применения. ЛИТЕРАТУРА 1. Slepian D., А Class of Binary Signaling Alphabets, В. 5. Г Л, 35 "<1956 Jan.), 203. (Русский перевод: Слеп ян Д., Класс бинарных сигнальных алфавитов, сб. «Теория передачи информации», 1958, ИЛ.) 2. Elliott Е. О., Estimates of Error Rates for Codes on Burst Noise Channels, B. S. T. /., 42 (1963 Sept.), 1977. 3. M a с W i 11 i a m s J., A Theofem on the Distribution of Weights in a Systematic Code, B. S. T. J., 42 (1963 Jan.), 79. 4. Peterson W. W., Error Correcting Codes, John Wiley and Sons, Inc., New York, 1961. (Русский перевод: Питерсон У., Коды, исправляю1цие ошибки, «Мир», 1964.| 5. Van de Waerden В. L., Modern Algebra, Julius Springer, Berlin, 1937. (Русский перевод: Ван дер Варден, Современная алгебра, ч. I, ГИТТЛ, 1947.) 6. С U г t i S С. W., Reiner I., Representation Theory of Finite Groups and Associative Algebras, John Wiley and Sons, Inc., New York, 1962. 7. P r a n g e E., An Algorithm for Factoring x"^ — 1 over a Finite Field, Air Force Cambridge Research Center, AFCRC-TN-59-775. 8. Goethals J.-M„ IEEE Trans, on Inf. Theory, 12, № 3 (1966), 401—402.
Параллельное упорядочивание и проблемы линии сборки^) г. с. Ху Рассматривается новая задача упорядочивания, в которой требуется, чтобы п работ с заданными ограничениями взаимного порядка были выполнены людьми одинаковой работоспособности. Предполагается, что каждый человек способен выполнить любую из п работ. В статье рассматриваются следующие два вопроса: 1) Как организовать расписание работ, требующее минимального числа исполнителей, так, чтобы все работы были выполнены в пределах предписанного интервала времени Т? 2) Если имеются т исполнителей, как организовать расписание работ, при котором все работы завершаются за минимальное время? Многие задачи организации расписаний (или упорядочивания) могут быть сформулированы следующим образом. Заданы п работ; известно, сколько времени требуется для выполнения каждой работы; указаны некоторые технологические ограничения, накладываемые на возможный порядок выполнения работ. Сформулируем две часто возникающие проблемы: 1. Предполагается, что все работы должны быть завершены за время Т. Организовать расписание, требующее минимального числа исполнителей. (Предполагается, что все исполни*» тели обладают одинаковой работоспособностью и каждый ис^ полнитель может выполнить любую из п работ.) 2. Имеется т исполнителей. Организовать расписание, при котором все работы завершаются в течение минимального интервала времени. Обе проблемы сформулированы в работе [1]. Здесь мы рассматриваем упрощенный вариант обеих проблем, а именно предполагаем, что 1) для выполнения каждой работы требуются одинаковые интервалы времени и 2) каждый исполнитель может приступить к выполнению новой работы сразу же после того, как он завершит какую-либо работу. Оценки снизу для кратчайшего времени и для минимального числа исполнителей получены при произвольных ограничениях порядка выполнения работ. Для случая, когда ограничения порядка описываются в О Ни Т. С, Parallel sequencing and assembly line problems, Operations Research, 9, № 6 (1961), 841—848.
44 Т. С. Ху виде дерева (как это имеет место в задаче о линии сборки), получен способ вычисления минимального числа исполнителей, нужных для завершения всех работ за предписанное время, и найден очень простой алгоритм составления расписания, который обеспечивает при заданном числе исполнителей завершение всех работ в самый короткий срок. Мы используем термин «параллельное упорядочивание», так как задача состоит в том, чтобы разместить п работ в несколько последовательностей, которые начинаются одновременно. В этом Рис. 1. заключается отличие этой задачи от класса задач, решенных Джонсоном, в которых требуется п работ разместить в одной последовательности [2]. Пусть Ni (при 1=1, 2, ..., п) —те п работ, которые должны быть выполнены при заданных технологических ограничениях порядка выполнения. (Например, отверстие в детали нужно просверлить раньше, чем нарезать резьбу; в вычислениях может оказаться необходимым некоторые математические члены вычислить раньше, чем другие члены.) Пусть для выполнения каждой работы требуется одна единица времени. Все ограничения порядка могут быть описаны ориентированным графом G, который содержит п вершин, представляюш,их работы; ориентированные дуги графа G представляют ограничения порядка. Конечно, для того чтобы работы, представляемые графом G, могли быть действительно выполнены, необходимо, чтобы в графе не было циклов, образованных ориентированными дугами (т. е. контуров). В других отношениях граф G совершенно произволен. На рис. 1 изображен такой граф. Этот граф означает, например, что работа Л^ю должна предшествовать работе Л^5 (т. е. должна быть выполнена до начала работы Л/5); работы Л^б, ^7 и Ns должны предшествовать работе Л^г; работа Л/ц долж-
Параллельное упорядочивание и проблемы линии сборки 45 на предшествовать работам N^ и A^g, а между работами Л^з, Л^з и Л^5 нет никаких ограничений порядка их выполнения. Будем употреблять обозначение Ni>Njy если работа Ni должна предшествовать работе Nj\ Ni^Nj, если между работами Ni и Nj нет ограничений порядка их выполнения. Заметим, что из соотношений Ni>Nj>H A^j>A^fe следует, что Л^г>Л^л» тогда как из соотношений Ni^Nj и Nj^Nu не следует соотношение Ni^Nk\ другими словами, работы Л^г образуют частично упорядоченное множество. Будем называть вершину Л^^ конечной вершиной графа G, если в графе G не существует такой вершины Ni, что Nk>Ni. Например, на рис. 1 вершина A^i является конечной. Несмотря на то что граф G может содержать более чем одну конечную вершину, мы покажем в дальнейшем, что предположение единственности конечной вершины не приводит к какой-либо потере общности. Поэтому далее мы будем предполагать, что граф G содержит только одну конечную вершину. Вершина Nj называется начальной вершиной графа, если не существует вершины Л^^, такой, что Ni>Nj. Например, на рис. 1 вершины Niu A^i2, Л^1з и Л^ю являются начальными. Если работа Л^1з выполнена, то вершины Л^з и Nq становятся начальными. В процессе размещения исполнителей по работам вершины, соответствующие выполненным работам, могут считаться удаленными из графа. Вершина Nj называется текущей начальной вершиной, если в текущем графе нет вершины Л^^, такой, что Ni>Nj. Путем в графе G является последовательность ориентированных дуг, которые представляют ограничения порядка между вершинами на этом пути. Длина пути равна числу дуг на нем. Например, путь из Л^ю в A^i имеет длину 2, а два пути из Л^1з в Л^1 имеют соответственно длины 2 и 3. ПРОЦЕСС ПРИСВОЕНИЯ МЕТОК И НИЖНИЕ ГРАНИЦЫ В дальнейшем, говоря о присвоении метки вершине графа, мы будем подразумевать присвоение этой вершине некоторого численного значения. Всем вершинам графа G присваиваются метки следующим образом. Вершина Л^г метится числом аг = А:г + 1, если Xi — длина самого длинного пути из Ni в конечную вершину графа G. Конечная вершина получает метку 1. На рис. 2 изображен тот же граф, что и на рис. 1, причем все числа в кружочках, соответствующих вершинам графа, являются метками этих вершин. Процесс присвоения метки эквивалентен отысканию длиннейшего пути из некоторой вершины в конечную вершину графа G,
46 Т. С. Ху Процесс присвоения меток может быть выполнен очень быстро, если начать с конечной вершины и двигаться назад. Метим числом 2 все вершины, которые соединены с конечной вершиной одной дугой, и т. д. Если вершина может получить более чем одну метку, то метим эту вершину максимально возможным числом ^). Пусть р(а) — число вершин Л^г с метками аг = а. Например, на рис. 2 имеем р(1)=:1, /7(2) =4, р(3)=5 и р(4)=3. Пусть 5(a) —число начальных вершин графа с метка- Рис. 2. ми ai=a. Например, на рис. 2 5(1) =0, 5(2) =0, 5(3) = 1 и 5(4) =3. Будем обозначать через А значение maxaj. На рис. 2 Л=4. Предположим, что мы начинаем в момент времени /=0. Считаем, что вершины, соответствуюш^ие выполненным работам, удалены из графа. Текущий граф будет изменяться во времени. Когда мы имеем дело с определенным текущим графом, полагаем, что pt{a), St (а) и At — это описанные выше величины р(а), 5(a) и Л применительно к данному текущему графу. Индекс t используется для указания того, что до момента получения данного текущего графа прошло t единиц времени. Обо-* значения р<(а), 5<(а) и At имеют смысл только тогда, когда *)) Тот же процесс присвоения меток может быть выполнен значительно быстрее, если воспользоваться алгоритмом, описанным в статье Г. М. Адель- сона-Вельского и Ф. М. Филлер «Программа вычисления сетевых графиков» (Ж. вычисл. матем. и матем. физ,, 5^ № 1 (1965)), или алгоритмом, описанным в статье И. Б. Задыхайло «Экономный алгоритм выделения критических путей в ориентированном графе без контуров» {Экономика и математические методы, 1, вып. 3 (1965)). — Яр«л(. перев.
Параллельное упорядочивание и проблемы линии сборки 47 текущий граф известен или когда известен определенный про^ цесс удаления вершин. Пусть Го — кратчайшее время завершения всех работ, представленных на графе, и пусть Tt — кратчайшее возможное время завершения всех работ, представленных на текущем графе, который получен через t единиц времени. Тогда независимо от числа исполнителей, которые могут быть привлечены к выполнению работ, для текущего графа с известным значением At очевидно, что Tt>A. (la) В частности, имеем То>А. (16) Далее мы исследуем неравенство, которое поможет нам пО' лучить нижние оценки для числа необходимых исполнителей, а также для минимального срока выполнения всех работ. Пусть (А + с)—предписанный срок, причем с — неотрицательное це^ лое число, и пусть y — положительное целое число. Пусть max Y (У + С) ^p{A+\-J)\ = -r^^p{A+\-J). (у^ + с) ^^^ Лемма 1. Если выполняется условие У<'(^^Р(^+^-Л^ (2) то невозможно завершить все работы с использованием у исполнителей за А -Н^ единиц времени. Доказательство. Общее число вершин, удаленных из графа за / единиц времени, при участии у исполнителей не может превышать значения yt. Пусть /=y* + ^- Тогда общее число удаленных вершин не должно превышать значения i/(Y* + ^); согласно предположению (2), это значение меньше, чем Y* 2р(Л + 1—У)- Поэтому существует хотя бы одна вершина У-1 с меткой ai^-^-Hl—Y*» такая,'что соответствующая ей работа не выполняется за ^=y* + ^ единиц времени. Согласно соотношению (1а), необходимо по крайней мере Г^,^, = Л+1—Y*
48 т. С. Ху единиц времени для того, чтобы выполнить все работы, пред-» ставленные на оставшемся текуш.ем графе. Поэтому для выполнения всех работ, представленных на исходном графе, требуется не меньше чем единиц времени. Лемма 1 доказана. В следующем разделе мы используем этот результат для вычисления минимального числа исполнителей, которые необходимы для выполнения всех работ в предписанный срок, в случае, когда ограничения порядка образуют дерево. Разумеется, этот же результат может быть использован для оценки эффективности любого предложенного алгоритма, но для произвольного графа нижняя оценка числа исполнителей (если значение А + с задано заранее) или нижняя оценка значения А + с (если значение у задано заранее), получаемые из условия (2), могут оказаться слишком низкими. Для графа с двумя или более конечными вершинами можно ввести искусственную вершину, которой предшествуют все прежние конечные вершины графа. Если пометить эту искусственную вершину меткой ai = 0, а остальным вершинам Л^^ присвоить метки аи равные длинам самых длинных путей из Л^^ в искусственную конечную вершину, то все предыдущие рассуждения останутся справедливыми, так что мы можем предполагать, что в графе G есть только одна конечная вершина. ОПТИМАЛЬНОЕ УПОРЯДОЧИВАНИЕ Линия сборки обычно предназначается для производства одного продукта, состоящего из нескольких элементарных деталей. Работа Ni может состоять либо в изготовлении некоторой элементарной детали, либо в сборке нескольких элементарных деталей для получения более сложной детали. Изготовление элементарной детали должно, разумеется, предшествовать сборке, для которой нужна данная элементарная деталь. Так как одна элементарная деталь может быть использована только в одной сложной детали, то при этом ограничения порядка образуют дерево^). Начиная с этого места мы будем рассматривать только такой случай, когда граф является деревом. На практике линия сборки состоит из нескольких подлиний, работающих параллельно. Рассматриваемая нами модель будет *) Всюду в статье под деревом подразумевается дерево с одной конечной вершипоц'.
Параллельное упорядочивание и проблемы линии сборки 49 либо минимизировать время Т производственного цикла для заданной линии сборки, либо минимизировать число подлиний сборки при заданном времени Т производственного цикла. Другое возможное применение рассматриваемой модели состоит в том, что конечная вершина дерева может представлять определенное математическое выражение, где т — число параллельных процессоров (т. е. арифметических блоков) в вычислительной машине ^). Если граф G является деревом, то длина пути из Л^^ в конечную вершину определяется однозначно, и процесс присвоения меток значительно упрош.ается. Кроме того, благодаря определенным свойствам дерева мы получаем возможность полностью ответить на два вопроса, сформулированные в начале статьи. Сначала мы опишем алгоритм, обеспечиваюш.ий завершение всех работ за кратчайшее время при заданном числе исполнителей. Потом проиллюстрируем этот алгоритм на примере, а затем докажем, что этот алгоритм действительно минимизирует время работы. Очевидно, что в любой момент мы можем назначать исполнителей только для текущих начальных вершин графа, АЛГОРИТМ Предварительное замечание. Присваиваем всем вершинам Л^г метки ai=Xi + \, где Х{ — длина пути из Л^^ в конечную вершину дерева. Алгоритм: Если оби^ее число начальных вершин не больше значения т, где т — число имеюи^ихся исполнителей, то всем работам, которые соответствуют начальным вершинам, одновременно присваиваются исполнители. Если общее число начальных вершин больше значения т, то выбираем т начальных вершин таким образом, чтобы значения аг у выбранных вершин были не меньше, чем значения ai у невыбранных вершин. В случае совпадения значений ai выбор произволен. Затем то же правило снова применяется к оставшемуся текущему графу. ^) В задаче распределения между несколькими вычислительными устройствами работ по вычислению арифметического выражения (без экономии числа операций) ограничения порядка всегда описываются деревом. — Приц. перев.
50 Г. С. Ху / ^.б0\ SrQ N,e(7) N,9(7) у яф ^в(3)'\\\\ «. Р и с. 3. Например, на рис. 3 значения ai для вершин Л^г представлены в кружочках. Если мы располагаем тремя исполнителями, то в соответствии с алгоритмом нам следует выбрать три вершины из Л^16, Л^17, Л^18 и Л^19. Здесь мы произвольным образом выбираем A^iy, A^is и iVig и заключаем эти вершины в пунктир. Последуюш.ие шаги применения алгоритма не нуждаются в пояснениях. Выполнение всех работ, представленных на графе, завершается за 8 единиц времени; очевидно, что этот срок является минимально возможным. У описанного алгоритма имеется следуюш.ая аналогия из механики. Будем использовать для представления вершин металлические кольца и соединим кольца кусками веревки длины I, чтобы получить модель диаграммы дерева. Дале^ берем
Параллельное упорядочивание и проблемы линии сборки 51 конечную вершину и оставляем все другие вершины висеть свободно. Тогда алгоритм будет состоять в том, чтобы отрезать каждый раз не более чем т колец, к которым ничего не подвешено; если имеется более чем т колец, которые могут быть от-^ резаны, ТО' предпочтение следует отдавать отбрасыванию нижних колец. Этот алгоритм можно охарактеризовать как «отбрасывание длиннейших хвостов». Хотя интуитивно кажется правдоподобным, что алгоритм за^ вершает все работы в кратчайший срок, тем не менее доказательство этого факта является довольно длинным. Сначала рассмотрим первую из сформулированных задач. Если все работы должны быть выполнены за предписанный интервал времени Г, каково минимальное число требующихся исполнителей? Мы видели (см. 16), что предписанный интервал времени должен быть не меньше значения Л. Пусть Г=Л+>, где с — неотрицательное целое число, и пусть т — целое число, удовлетворяющее условию т-\<{Г+сГ' ^p{A+\-j)<m. (3) Мы утверждаем, что т — минимальное число требующихся ис-^ полнителей. Очевидно, что необходимо иметь не меньше чем т исполнителей, так как мы доказали в лемме 1, что невозможно завершить все работы с использованием т—1 исполнителей за А+с единиц времени. Далее мы докажем, что иметь т испол-: нителей достаточно. Пусть P(y)—множество всех вершин Л^^ с метками ai^A + l—/, где /=1, ..., y- Определим целочисленную величину Y' следующими условиями: 1. Используя описанный алгоритм, удаляем из графа каж-* дый раз по т текущих начальных вершин в моменты времени /=1, ..., с' до тех пор, пока число текущих начальных вершин станет меньше значения т. Удаляем все текущие начальные вершины в текущем графе в момент /=с'+1 (с' — неотрица" тельное целое число). 2. Все вершины из Р{у) удалены из графа через с'-ь1 еди^ ниц времени. 3. y' — наибольшее целое значение y» Д-^я которого выпол-« няются условия 1 и 2. Например, для графа, изображенного на рис. 3, имеем y'=5. Если общее число начальных вершин в исходном графе меньше значения т, то определяем значение y'*=1- В общем случае Ky':^-^- (Следует заметить, что некоторая неопределенность
52 Т, С. Ку в алгоритме, например удаление любых вершин с одинаковыми метками в случае совпадения меток, не влияет на значение у^ и на другие величины, рассматриваемые ниже.) Пусть St{a)—число текущих начальных вершин (в момент /), у которых метки ai>a. Так как удаление любой начальной вершины приводит к появлению не более чем одной новой текущей начальной вершины в дереве, то функция St{a) монотонно убывает с возрастанием t при фиксированном значении а. Лемма 2. Если для удаления из графа всех вершин из множества Р{у') требуется с' + 1 единиц времени, то для всех теку- WfUX графов, получаемых применением рассматриваемого алгоритма в моменты времени €^&+\, выполняется неравенство Pt{At)<m, Другими словами, число всех вершин с наибольшими метками в каждом из этих текуи^их графов меньше значения т. Доказательство. Предположим, что для некоторого момента времени t'^c'+l мы имеем р^,{А^,^^т. Тогда все эти вершины с метками Af должны быть текущими начальными вершинами. Таким образом, мы имеем St'{At')^m. Из проведенных выше рассуждений следует, что St{At')^m для всех значений t^f. Следовательно, все время было достаточно текущих начальных вершин для того, чтобы можно было каждый раз удалять по т вершин. Все эти удаленные вершины снабжены метками, значения которых не меньше чем Af =А + \—у» где Y>Y^ что противоречит тому факту, что у' — наибольшее из таких целых значений у. Заметим, что множество Р{у') содержит не больше (с' + А.)т вершин, где 0<А,<1. Теорема. Если число исполнителей т удовлетворяет условию (3) и если граф ограничений порядка является деревом^ то все работы могут быть завершены за А + с единиц времени ^). Доказательство. Пусть Ло=Л, ро(а)=р(а). Обозначим Y J^t (Y) = 2 л (Л +1 —у); -Л^(y) = ^0 (y)- Другими словами, N{y) — число элементов в Р{у). ? *)) При доказательстве теоремы автором допущена ошибка, поэтому мы приводим доказательство, принадлежащее переводчику В. В. Мартынюку. — Прим, ред.
Параллельное упорядочивание и проблемы линии сборка 53 Рассмотрим целое значение y = Y» I-^y^-^» при котором функция N(y)/m—y принимает максимальное значение. Обозначим символом Ci целочисленную величину, удовлетворяюш^ую соотношению ^ (?) "- ^ ^ ^ (Y) - , 1 —~^ —Y<^i<—^^^^ Y+1- Так как Ы{у'^)/{у* + сУ^т и для всех значений y имеем ^(y)/(Y + ^)"^^(Y*)/(y*>+^^)» то получаем соотношение Y + C которое справедливо для всех значений y- Поэтому при всех значениях y ^W v^ ^(V) у—. Итак с ^с Мы покажем, что 1) применение алгоритма отбрасывания длиннейших хвостов приводи^ к тому, что через y + ^i единиц времени все вершины из P(y) будут удалены; 2) при />Y+'^i каждое применение алгоритма будет сокраш^ать на единицу значение At. Таким образом, для удаления вершин, оставшихся jb графе после момента ^=y + ^, потребуется еще -А-^^^<;(Л — y) единиц времени. Всего будет затрачено не более (А—y) +' + (Y + ^i)=^ + ^i единиц времени. Так как Ci-<c, то этим теорема будет доказана. Утверждение 1) нуждается в доказательстве только при Y>1. Пусть Y>1- Обозначим символом lt{z) множество вершин с метками {At—z) в текущем графе после момента t; f>0; г^-О. Пусть kt{z)—число вершин в множестве lt{z), т. е, kt{z)=^pt{At—z), В частности, ko(z) —число вершин с метками (А—z) в исходном графе. Пусть Zt=At+y—А—1. Другими сло-^ вами, Zt — максимальное значение z, такое, что lt{z)^P{y). Обозначим ^^2:)= (J/Д/). Пусть /С<(^)—число вершин в Lt{z). Тогда Kt{z) = S *.(0; Kt(0)=Nt(Y+A-A). Если Kt{^)^ztm, TO применение алгоритма отбрасывания длиннейших хвостов в момент (^.-f-Д) либо загружает работами
54 Т. С. Ху из Р{у) всех т исполнителей, если Kt{0)^m, либо выполняет ] все оставшиеся работы из Р{у)у если Kt(0) <m. i В самом деле, в момент (^+1) в первую очередь выпол- | няются работы с метками At. Если их число i=kt(0) <т и мно- J жество Р{у) ими не исчерпывается, то Zt^l и Kt{0)>Kt{l)^m. ;| При этом работы с метками At предшествуют не более чем .1 i-Zt работам из Lt(l). Число остальных работ из L<(1) не мень- [ ше чем (т—/) •2:^ Из них не менее чем (т—i) работ могут вы- I полняться в момент (^+1), т. е. соответствуют начальным вер- ' шинам текущего графа (так как каждая вершина из L<(1), ко^ I торой не предшествует вершина с меткой Л<, либо является на- 1 чальной, либо имеет предшествующую начальную вершину из | L<(1), а одна начальная вершина из Lt{l) не может предше^ ^ ствовать более чем {zt—1) вершинам из L<(1)). Таким образом, для доказательства утверждения 1) достаточно показать, что для любого значения ^<y + ^, если 1><г-<2:ь то Kt{z)^{zt—z+l)m. Покажем это индукцией по^/. Для ^=0 это утверждение верно__ потому, что N{y)lm—у^ ^N{z)lm—z и y = zo+l, т. е. N{y)—N{z)-Ko{z)Xy—z)m = = (го—z-fll)m. Пусть индуктивное предположение доказано для / = 0, ..., /о—1, и пусть to<y+^Ci. Если kt^JftiO) > m, то Zt, =Zt,^u и при 1 Kz<C^to имеем Kt,{z) = Kt,-i{z) '^{zt^ — z--^\)m. Пусть ^/^_i(OXa/i. Тогда zt,==Zt,^i — 1. В момент t^ выполняются / = */^-i(0) работ из Vi(0), /i работ из //o-i(l)» .••» ij Работ;| из //o-i(y)» при этом / + /i+ ... +ij = m и J-^Zt.^u так как|| /Г/^-1(0)>т. Если 1<г<у, то lt,-i{r) после момента (/q—1| содержит ir начальных вершин. Остальным вершинам из lt^-i{r}i предшествуют вершины из lt^^i{r—1). Поэтому их число Htf больше чем */o-i(^—!)• Итак, kt,-\{r)<Ckt,-i{r—\)-\'i^<^i-\ii + /i-+ ... +ir<m.l2iKKmkt,-i{\)^i + i^vLKt,--i{\)>zt,-imi то/С/,-1(2)Хг^^_1 —l)m+/2+ ••• +/у. При2<г<у,так кЩ kt^^i{r)^m (как и при г=1), Kt,-1 (г+ 1) > {Zt,-1 - г). m+ ^'2+ ... + h- При r>j KtAr) = Kt,-i{r + \)>{zt,-r + \)>m,anpu 1<г</^ справедливо неравенство/C/^^)^^A)'-i(^+1) — h—••• —h^4 ^{Zt^ — г+1) • т. Таким образом, индуктивное предположение,! а следовательно, и утверждение 1) доказаны. Для доказательства утверждения 2) достаточно показать индукцией по t, что при t^y+Ci и при любом значении! у (iKy-^At) имеем Ntj^y)Ktny, (То есть, в^1астности, Nt{l) р=р^(Л^)<т.) При t=y + Ci имеем At=A—y, Nt{y)<CN{y'+jy)
Параллельное упорядочивание и проблемы линии сборки 55 —N{y), А так как N{y)/m — y^N{y+y)/m — y-—y, то ^ {У+Ю —^ (y) "^ Y • ^• Пусть индуктивное предположение доказано для t<to. Если в момент ^0 загружаются менее т исполнителей, это означает, что всем остающимся работам предшествуют работы, выполняемые в момент to. При этом для всех значений а^А^ имеет место pf{a)<^m. Поэтому N^{y)^m'y при 1<y<^/-Пусть в момент /о выполняются т работ с метками Л/^, ..., At^—у, причем At^—J—минимальная метка. Тогда при а > Л/^—j имеем pt^ (а) <! т, а следовательно, Nt^ {у) < ту при 1 •< y -^ /• При Y>/ выполняется соотношение Nt^{y) = Nt^^i{y-\-l) — — т<^т'у. Теорема доказана. Теперь рассмотрим вторую задачу. Если имеется т испол* нителей, каков должен быть алгоритм, обеспечиваюш^ий выполнение всех работ в кратчайший срок? Мы утверждаем, что описанный выше алгоритм (отбрасывание длиннейших хвостов) обеспечивает выполнение всех работ за кратчайший срок. Это видно из следующих соображений. Пусть задано значение т. Тогда либо I'^piA+l-M^m, (4) либо мы можем выбрать минимальное положительное целое значение с> 1, для которого max Y max Y Y + lrrtp(^+^-J) /-1 < max Y <a;i< 1 (Y + c-1) "^piA+l-j) y-i (5) Если выполняется соотношение (4), то из нашей теоремы следует, что можно завершить все работы за А единиц времени, а из соотношения (16) следует, что А — минимальное возможное время. Если выполняется соотношение (5), то из теоремы следует, что можно завершить все работы за (А + с) единиц времени, а из леммы 1 следует, что невозможно завершить все работы при наличии т исполнителей за {А + с—1) единиц времени. Следовательно, наш алгоритм завершает все работы в кратчайший срок. Если какая-то работа требует для своего выполнения три единицы времени, то можно считать, что этой работе соотвеТ'
56 Т. С. Ху ствуют три вершины, для каждой из которых требуется 1 единица времени, соединенные последовательно двумя направленными дугами. В таком случае результат леммы 1 остается в силе, но результаты этого раздела на такой случай не распространяются. Л ИТЕРАТУРА 1. Ford L. R., Jr., Fulkerson D. R., Flows in Networks, Ch. 2, Sec. 9 forthcoming, Princeton Univ. Press, 1961. (Русский перевод: Форд Л. P., Ф а л к е р с о н Д. Р., Потоки в сетях. «Мир», 1966.) 2. Johnson S. М., Optimal Two- and Three-Stage Production Schedules with Setup Times Included, Naval Res. Log. Quart., 1 (1954), 61—68. (Русский перевод: Джонсон С, Оптимальное расписание для двух- и трехступенчатых процессов с учетом времени наладки. Кибернетический сборник, новая серия, вып, 1, М., 1965, 78—86.)
о вычислительной сложности алгоритмов^) Дж. Хартманис, Р. Е. Стирнз 1. Введение. В своей знаменитой работе [1] Тьюринг исследовал возможность вычисления последовательностей (функций) с помош.ью механической процедуры и показал, что множество всех последовательностей можно разделить на вычислимые и невычислимые. Установлено, однако, что некоторые вычислимые последовательности вычисляются очень легко, в то время как другие из них представляются сложными для их вычисления. В этой статье мы исследуем один способ классификации последовательностей по тому насколько трудно они вычисляются. Этот способ вводит во множестве 1вычислимых последователь* ностей широко развитую структурную классификацию. Устанавливается ряд теорем. Более того, этот способ может быть обобщен для классификации чисел, функций или проблем разрешения согласно их вычислительной сложности. Вычислительная сложность последовательности измеряется тем, насколько быстро многоленточная машина Тьюринга может выдавать знаки этой последовательности. Мы выбрали эту частную абстрактную модель вычислительного устройства, так как большинство работ в этой области стимулируется тем, что вычисления на цифровых вычислительных машинах используются все шире и шире, а все,цифровые вычислительные устройства в несколько идеализированном виде принадлежат классу многоленточных машин Тьюринга. Более точно, если Т{п) — вычислимая, монотонно возрастающая функция, отображающая натуральные числа в натуральные, а а—(двоичная) последовательность, то мы говорим, что а Г-вычислима, или попадает в класс сложности Sr, тогда и только тогда, когда существует такая многоленточная машина Тьюринга </, что J* вычисляет П'й знак а за не более чем Т{п) операций. Каждый класс St рекурсивно перечислим, и поэтому никакой класс St не содержит все вычислимые последовательности. С другой стороны, всякая вычислимая последовательность а содержится в некотором ^1 Н а г t m а п i S J., Stearns R. E., On the computational complexity of algorithms, Trans. Amer. Math, Soc, May (1965), 285—306.
58 Дж, Хартманис, Р. Е. Стирнз классе сложности St. Таким образом, обеспечивается иерархия классов сложности. Далее, эти классы не зависят от масштаба времени и от скорости компонентов, из которых можно было бы строить машины, так как имеется теорема «о повышении скорости», которая утверждает, что St^Sut для положительных чисел k. Как следствия из теоремы о повышении скорости возникают некоторые предельные условия, которые устанавливают отношение включения между двумя классами сложности. В контрасте с этим находится доказываемая далее теорема, которая дает предельное условие для невключения. Этот результат в одной из форм утверждает, что если (с незначительными ограничениями) lim rr) ч =Q> то Su собственно содержит St. Пересечение двух классов сложности снова дает класс сложности. Общая проблема включения, однако, рекурсивно неразрешима. В одном из разделов исследуется вопрос о том, как изменение абстрактной модели машин может сказаться на классах сложности. Некоторые из них относятся к «закону квадрата», в том числе соотношение между одноленточными и многоленточными машинами Тьюринга: если а Г-вычислима на многоленточной машине Тьюринга, то она Р-вычислима на машине Тьюринга с единственной лентой. Приятно, однако, что некоторые более очевидные изменения сохраняют классы. Сложность рациональных, алгебраических и трансцендентных чисел изучается в другом разделе. Здесь, кажется, имеется хорошее соответствие с нашими интуитивными представлениями, однако некоторые вопросы в этой области еще ждут своего разрешения. Имеется раздел, в котором обсуждаются обобщения полученных результатов на функции и проблемы разрешения. Этот раздел содержит также первое явное доказательство «невозможности» при помощи описания языка, «слова» которого не могут быть распознаны в реальное время {Т{п)=п). Заключительный раздел посвящен открытым вопросам и проблемам. Мы убеждены в том, что числа и функции обладают внутренней вычислительной природой, согласно которой их можно классифицировать, как показано в этой работе, и что здесь имеются богатые возможности для дальнейших исследо-- ваний. В отношении неосвещенных сведений о машинах Тьюринга, вычислимости и подобных вещах читатель может справиться в [2]. Вычисления в «реальном времени» (т. е. Т{п)=п] были
о вычислительной сложности алгоритмов 59 впервые определены и изучены в [3]. Другие способы классификации сложности вычислений изучались в [4] и [5], где сложность определялась длиной использованной ленты. 2. Вычисления с ограниченным временем. В этом разделе мы определяем наш вариант многоленточных машин Тьюринга и классы сложности по отношению к этому типу машин, а затем исследуем основные свойства этих классов. Во-первых, мы даем описание нашей машины (рис. 1), так как нужно иметь ясное П1 imiiiiiniHi' утиитиЕш: ничиищищ) ОШШШПШ! пшхшшв Вычислитель с конечным числом состояний % h \ Ленты Вшо^дная Ш^ лента Рис. 1. rz-ленточная машина Тьюринга. представление о ее устройстве, чтобы изучать эту статью. Мы представляем себе вычислительную машину имеюш.ей конечный автомат в качестве контрольного устройства. Этому контрольному устройству подчинено фиксированное число лент, каждая из которых линейна, бесконечна в обе стороны и разделена на бесконечную последовательность квадратов. Контрольное устройство имеет на каждой ленте по считываюш.ей головке, и каждая головка в каждый момент рассматривает один из квадратов своей ленты. Имеется конечное число различных символов, которые могут появляться в квадратах лент. Каждая комбинация считываемых головками символов вместе с внутренним состоянием контрольного устройства однозначно определяет машинную операцию. Каждая машинная операция заключается в том, что во всех квадратах, рассматриваемых головками, печатаются новые символы, ленты независимо друг от друга сдвигаются на один квадрат влево или вправо или же остаются
60 Дж. Хартманис, Р. Е. Стирнз на месте и затем изменяется внутреннее состояние контрольного устройства. Машина после этого готова выполнить следующую операцию, которая определяется новыми считываемыми символами и состоянием контрольного устройства. Машинная операция— это наша основная единица времени. Одна лента отмечена и называется выходной лентой. Движения этой ленты могут происходить только в одну сторону; она сдвигается на один квадрат вправо или не движется вовсе. Поэтому то, что напечатано на выходной ленте и вышло из-под головки, не может быть изменено и тем самым отделено от дальнейших вычислений. Машина Тьюринга, как ее определял сам Тьюринг, имела одну ленту, и, когда кто-нибудь, напечатав на ленте k единиц подряд, запускал машину, она должна была напечатать на ленте f(k) единиц и остановиться. Мы желаем, чтобы наша машина печатала на выходной ленте f(l), f(2), ... последовательно. Тьюринг показал, что такие нововведения, как добавление лент или символов на лентах, не увеличива_ют запас функций, которые можно вычислять на машинах. Так как техника доказательства таких эквивалентностей общеизвестна, мы будем считать очевидным, тот факт, что функции, вычислимые на тьюрин- говской модели, — те же самые, что и вычислимые на нашем варианте машин Тьюринга. Причина, по которой мы выбирали эту частную модель, в том, что ее работа очень похожа на работу современных вычислительных машин; нас интересовало также, как влияют на скорость вычислений машины дополнительные ленты. Чтобы прояснить любые недоразумения относительно нашей модели, мы теперь дадим формальное определение. Определение 1. п-ленточная машина Тьюринга J^ есть множество наборов длины (Зп+"4) {{^iy^Si^y S12' •••» ^^п' *^^' *^Л' •••' ^u' ^0» ^1» •••» ^«» ^у)}» где каждая компонента может принимать одно значение из некоторого конечного множества значений, причем для каждой возможной комбинации первых п+1 компонент существует единственный (Зп + 4)-набор в этом множестве. Первая компонента Qi обозначает текущее состояние; следующие п компонент 5/ , 5/ , ..., Si обозначают символы, считываемые головками С лент Ти Уг, ... уТп соответственно; п+1 символов за ними 5/^, 5/j, ..., Sf обозначают новые символы, которые должны быть напечатаны на лентах Го, ..., Тп соответственно; следующие п+1 компонент описывают движения лент (влево, вправо,
о вычислительной сложности алгоритмов 61 на месте) с тем ограничением, что то¥=«влево»; последний элемент набора обозначает новое внутреннее состояние. Лента Го называется выходной лентой. Набор с ^/у= пустой символ при l^j^n называется начальным набором. Заметим, что мы не считаем выходную ленту, когда подсчитываем п. Таким образом, нуль-ленточная машина — это конечный автомат, выходы которого пишутся на ленте. Мы предполагаем без ограничения общности, что наши машины начинают работать на чистой ленте. Для краткости и ясности наши доказательства будут обычно обращаться к неформальному описанию машин и будут с технической точки зрения всего лишь набросками доказательств. Действительно, мы даже не даем формального определения машинной операции. Формальное определение этого понятия можно найти в [2]. Для простоты мы будем говорить только о двоичных последовательностях, а обобщения очевидны само собой. Мы будем писать a = aia2, Определение 2. Пусть Т(п)—вычислимая функция, отображающая натуральные числа в натуральные, такая, что Т{п)^Т{п+1) и T{n)^nlk для некоторого целого k и для всех п. Мы будем говорить, что последовательность а Т-вычис- лама тогда и только тогда, когда существует многоленточная машина Тьюринге J^, которая печатает первые п знаков последовательности а на своей выходной ленте за не более чем T{ri) операций, п=1, 2, ..., причем в каждом ее квадрате разрешается печатать ограниченное число знаков. Класс всех Г-вы- числимых двоичных последовательностей будет обозначаться St, и мы будем называть Т{п) временной функцией; St будет называться классом сложности. Когда несколько знаков печатаются в одном квадрате, мы рассматриваем их как части одного выходного символа. Так как число знаков в квадрате ограниченно, мы имеем конечное множество выходных символов. Пока выходные символы появляются из машины в легко понятной форме, мы не будем считать неестественным то обстоятельство, что выход машины не является на самом деле двоичным. Далее, в следствиях 2.5, 2.7 и 2.8 мы увидим, что если потребовать, чтобы Т{п)^п и чтобы использовался только бинарный выход (по одному знаку в квадрате), то получающиеся при этом результаты с точностью до 8 содержались бы в развитой нами теории. Условие T(n)^n/k было принято нами потому, что мы не хотим считать пустой класс классом сложности, так как если а
62 Дж. Хартманис, Р. Е. Стирнз находится в 5т и </ —■ машина, которая печатает а, то существует верхняя граница k числа знаков, которое может быть напечатано в квадрате выходной ленты, и J^ может напечатать за По операций самое большее кпо знаков. Согласно допущению, Т{кпо) >По или (подставляя По=п/к) Т{п) ^ n/k. С другой стороны, из того, что T{n)^n/k, следует, что последовательность, состоящая из одних нулей, содержится в Sy, так как можно печатать по k нулей за каждую операцию, и поэтому St непуст. Теперь мы изучим некоторые основные свойства наших классов. Теорема 1. Класс всех Т-вычислимых двоичных последовательностей St рекурсивно перечислим. Доказательство. Сначала можно перенумеровать все многоленточные машины Тьюринга, печатающие двоичные последовательности, способом, похожим на используемый при перечислении всех машин Тьюринга [2]. Это в точности совпадает с перечислением всех множеств, удовлетворяющих определению 1, с тем добавочным требованием, что 5у,— конечная последовательность нулей и единиц (рассматриваемая как один символ). Пусть J^i, сТ'г» ••• — такая нумерация. Так как Т{п) вычислима, можно последовательно преобразовать каждую J'l в машину J^/ со следующими свойствами: пока J'i печатает свою П'Ю выходную цифру за Т{п) операций (а это можно проверить, вычислив сначала Т{п) и затем просмотрев первые Т{п) операций машины </г), П'Я выходная цифра <// совпадает с п-й цифрой сГ/. Если же J'l когда-нибудь не сумеет напечатать п-ю цифру за Т{п) операций, то J'l будет печатать нуль при каждой из последующих операций. Таким образом, мы получаем новую нумерацию J^i, J^2, • • • . Если J"i управляется с гий цифрой за время Г(п), то J't и J'l вычисляют одну и ту же Г-вычислимую последовательность at. В противном случае J*/ вычисляет последовательность, состоящую, кроме, возможно, конечного числа начальных знаков, из одних нулей, а она может быть напечатана по k знаков за раз [где Т(п) ^ n/k] некоторой нуль-ленточной машиной. В обоих случаях ai Г-вычислима, и мы заключаем, что {аг}=5т. Следствие 1.1. Не существует такой временной функции Т, чтобы St было классом всех вычислимых двоичных последовательностей. Доказательство. Так как St рекурсивно перечислим, мы можем построить машину </, которая, чтобы вычислить свой
о вычислительной сложности алгоритмов 63 i-й ВЫХОДНОЙ знак, вычисляет i-й знак последовательности ai'vi печатает знак, противоположный ему. Ясно, что J' порождает последовательность а, отличную ото всех а^ из St- Следствие 1.2. Для любой временндй функции Т существует временная функция U, такая, что St строго содержится в Su- Поэтому существуют бесконечно длинные цепочки Зт^ а Sr^d ... попарно различных классов сложности. Доказательство. Пусть J' вычисляет последователь-- ность а, не лежащую в St (следствие 1.1). Пусть V{n) равно числу операций, требуемых J , чтобы вычислить п-ю цифру а. Понятно, что функция V вычислима и a^Sy. Пусть U{n)=:max[T{n), V{n)]. Тогда U{n) —временная функция, и ясно, что ^ц ID lO-p» Так как а находится в Suy но не в 5ту то имеем Зц Ф З-р» Следствие 1.3. Множество всех классов сложности счетно. Доказательство. Класс всех перечисленных множеств счетен. Наша следующая теорема утверждает, что линейные преобразования временной функции не меняют класс сложности. Если г — действительное число, мы обозначаем через [г] наименьшее целое т, такое, что т'^г. Теорема 2. Если последовательность а Т-вычислима и k — вычислимое положительное действительное число, то а [кТ]-вычислима, т. е. ^ Зт^=3\кт\- Доказательство. Мы покажем, что теорема верна для fe = l/2, значит, по индукции для й=1/2^, а потому и для всех других вычислимых k, так как для любого данного k k^ 1/2^ при некотором т. (Заметим, что если k вычислимо, то [kT\ — вычислимая функция, удовлетворяющая определению 2.)
64 !1ж. Хартманис, Р. Е. Стирнд Пусть 3*—машина, которая вычисляет а за время Т. Если состояние контрольного устройства, считываемые с ленты символы и соседние с ними символы все известны, то получающ.иеся в результате двух следующих операций состояние и изменения лент однозначно определены и поэтому могут быть вычислены за одну операцию. Если мы сможем расчленить нашу схему так, чтобы эта информация была всегда доступна машине J', то с/' будет выполнять за одну операцию ту же работу, что J' —за две операции. Мы сейчас покажем, как, объединяя пары символов в один и добавляя дополнительную память контрольному устройству, мы сможем сделать эту информацию доступной. На рис. 2, а мы показываем типичную ленту машины с/, головка которой находится на квадрате, обозначенном 0; на рис. 2, б — два способа, которыми мы записываем эту информацию в </^ Каждый квадрат ленты J*' содержит информацию о двух квадратах ленты </. Два символа с ленты J* хранятся во внутренней памяти J"', и J*' должна также помнить, какой участок информации считывается О*, На наших рисунках это отмечается стрелкой, направленной на соответствующее место хранения. За две операции J* головки должны сдвинуться в один из пяти квадратов, помеченных 2, 1, О, —1 или —2. Соответствующие следующие положения нашей ленты </ ' изображены на рис. 2, в — 3. Легко проверяется, что в каждом случае J*^ может напечатать или запомнить необходимые изменения. В случае, когда считываемый головкой 3* символ хранится в J'' справа, как на рис. 2, ж, проделываются аналогичные изменения. Таким образом, мы знаем, что 3*' может сделать за одну операцию то же, что J* делает за две, и теорема доказана. Следствие 2.1. Если U и Т — такие временные функции, что .с Т(п) ^ f. то SuSiSr- Доказательство. Так как нижняя грань больше нуля, kU{n) •^Т{п) для некоторого k>0, а потому Su=Siku] S St* Следствие 2.2. Если U и Т — такие временнйе функции, что то Su^ St-
о вычислительной сложности алгоритмов 65 > Г-1-2И0 lUI-V /FF3 -гПгЬиЬК / lQ.Jj ; -б|-5 -4Н 0III2I3I ( / в ^|-4|-3 -2i-l 2l3|-4|5|/ / [010 ;i-4i-3loi7 2|3|4|5|| :-2-ii /h4|-3|0|l 21314151/ \ С-2Уй г / -21-1 2|3 4|5|6|7|/ Co J J /IM Ш 4|5|6|7K [о"|] 3 Рис. 2. a —лента машины ^ со считывающей головкой на 0; 5 —соответствующие конфигурации машины J^'; в — ЗГ, если лента j дважды сдвинулась влево; г —j , если J стоит на — 1; д — ^\ если J^ стоит на 0; ж — ^'* если (J' стоит на 1; a — J^'t если J^ дважды сдвинулась вправо. Доказательство. Это — «перевернутое» следствие 2.1. Следствие 2.3. Если V и Т —такие временные функции, что 0< lim Ii^<oo, то S[7 = St. Доказательство. Это вытекает из следствий 2.1 и 2.2.
66 Дж. Хартманис, Р. Е. Стирнз Следствие 2А. Если Т{п)—временная функция, то Sfi^ St. Поэтому Т{п)==п оказывается самым сильным ограничением на время вычислений. Доказательство. Так как Т(п) — временная функция, то Т{п) >/г/й 5ля некоторого положительного k согласно определению 2; поэтому « -> 00 inf ^>г>0. и Sn ^ St по следствию 2.1. Следствие 2.5. Для любой временной функции Т имеем 5т = 5с7, где U{n) =тгх {Т{п), п). Поэтому любой класс сложности может быть определен с помощью функции U{n) ^-az. Доказательство. Ясно, что inf(r/f/) > min (1, 1/й), а sup (r/f/)<l. Следствие 2.6. Если Т — временная функция, удовлетворяющая условиям Т(п)>п и inf -^^>1, /1-> оо ^ то для любой а из St существует многоленточная машина Тьюринга J* с двоичным (т, е. из двух символов) выходом, которая печатает п-й знак последовательности а за Т{п) или меньшее число операций. Доказательство. Из условия для нижней границы заключаем, что для некоторых рационального е>0 и целого Л^ для Bcexn>N выполняется (1-^е)Г(Аг) >az, или Т{п)>гТ{п)+п. Согласно теореме, существует машина 3*\ которая печатает а за время [гТ{п)\ Машину J*' можно переделать в машину сТ'^', которая будет вести себя так же, как 3*', кроме того, что она приостанавливает свои вычисления, когда печатает выходные символы по одной цифре в квадрат. Очевидно, что Cf вычис' ляет а за время [гТ{п)] + п (что меньше чем Г(п), когда n>N). Машина J"'' может быть превращена в желаемую машину J", если добавить достаточное количество памяти контрольному устройству J* '\ чтобы печатать Аг-ю цифру а за п операций при n^N. Следствие 2.7. Если Т{п)'^п и а€5г, то для любого е>0 найдется многоленточная машина Тьюринга с двоичным
о вычислительной сложности алгоритмов 67 выходом, которая печатает п-ю цифру а за [{1+г)Т(п)] или меньшее число операций. Доказательство. Заметим, что и применим следствие 2.6. Следствие 2.8. Если Т(п)'^п — временная функция и а€5т, то для любых действительных чисел г и е(г>е>0) существует многоленточная машина Тьюринга с двоичным выходом, которая, если выполняет одну операцию за г — е секунд, печатает п-ю цифру а не более чем за гТ{п) секунд. Если а ^ St, таких г и в не существует. Поэтому, если рассматривать временные функции, большие или равные п, малейшее увеличение скорости выполнения операций стирает различие между машинами с двоичным и недвоичным выходами. Доказательство. Это следствие теоремы 2 и след^ ствия 2.7. Теорема 3. Если Ti и Гг — временные функции, то Т{п)= min {Г1 (п), Гг (п)} — также временная функция и Sti П St^ = St- Доказательство. Очевидно, что Т — временная функция. Если (7*1 — машина, которая вычисляет а за время Ti, а сГ2 вычисляет а за время Гг, то нетрудно построить третью вычислительную машину J", содержащую в качестве частей как J^i, так и j'g» которая вычисляет а обоими способами одновременно и печатает п-й знак а, как только он вычислен J^i или J'2- Ясно, что эта машина производит вычисления за время Т{п) = min {Т^{п), Т2{п)}. Теорема 4. Если последовательности а и ^ различаются самое большее конечным числом членов, то для любой временной функции Т (x^St тогда и только тогда, когда рб^^. Доказательство. Пусть J" печатает а за время Т. Тогда, очевидно, присоединяя некоторую конечную память к контрольному устройству, мы сможем построить машину </\ которая вычисляет р за время Г.
68 Дж, Хартманис, Р. £. Стирнз Теорема 5. Пусть дана временная функция Т. Не существует разрешающей процедуры, позволяющей решать, принадлежит ли последовательность а классу Sj. Доказательство. Пусть J'—некоторая машина Тьюринга в классическом смысле, а J'l — многоленточная машина Тьюринга, которая печатает последовательность р, не принадлежащую 5т. Такая J^i существует согласно теореме 1. Пусть 3^2—многоленточная машина Тьюринга, печатающая по нулю на каждую операцию, которую J" делает до момента остановки. Если </ остановится после k операций, то сТ'г печатает к-и и все последующие выходные знаки машины J^i. Пусть а — последовательность, которую печатает J"2- По теореме 4 a^Sr тогда и только тогда, когда J" не остановится. Поэтому разрешающая процедура для а 6 5т решила бы и проблему остановки (машин Тьюринга), которая, как известно, неразрешима (см. [2]). Следствие 5.1. Не существует разрешающей процедуры, позволяющей для произвольных временных функций U и Т определять, выполняется ли Su^St или SuciSt. Доказательство. Рассуждения, подобные использованным в предыдущем доказательстве, позволяют связать эти за^ дачи с проблемой остановки. Следует заметить, что эти свойства неразрешимости не яв* ляются присущими единственно нашей классификации, а имеют место для любой нетривиальной классификации, удовлетворяю^ щей теореме 4. 3. Другие вычислительные устройства. Цель этого раздела — сравнить скорость вычислений на наших многоленточных машинах Тьюринга со скоростью вычислений на других вариантах машин Тьюринга. Наиболее важен здесь первый результат, потому что он находит применение в следующем разделе. Теорема 6. Если последовательность а Т-вычислима на многоленточной машине Тьюринга </» то а Т^-вычислима на од- ноленточной машине Тьюринга J^i- Доказательство. Предположим, что дана /г-ленточная машина Тьюринга </• Мы опишем сейчас одноленточную машину Тьюринга J'u которая моделирует сГ. и покажем, что если J" производит вычисления за время Г, то </i — самое большее за Р. Машина <Ti подражает вычислениям машины <J следующим образом: на ленте </i в д квадратах подряд записываются п
о вычислительной сложности алгоритмов 69 символов, считываемых J^ с ее п лент. Символы, находящиеся в соседних квадратах справа от тех, которые считываются J* с ее п лент, записываются на ближайшем справа отрезке ленты </i и т. д., как указано на рис. 3, где изображено соответ^ ствуюш,ее расположение информации. Машина J'l работает еле-* I 1 -3 1 -2 7ТТ -10 1 1 1 2 1 3 t jl -3 2 -2 г -1 2 0 2 1 2 2 i 1 Лента Г| 1 Лента i^ [ J Лента Тц (а) Р (5) Р И С. 3. а — п лент J^; б —лента ^ . дуюш,им образом. В ней хранится описание поведения маши-» ны </, так что после считывания п квадратов Ы, Ы» •••» Ы 3*1 определяет, в какое новое состояние перейдет машина J^, какие новые символы она напечатает на своих п лентах и в каком направлении каждая из этих лент сдвинется. Сначала </i печатает новые символы в соответствующих квадратах 0-го отрезка. Затем она сдвигает ленту вправо, пока не достигнет конца напечатанных на ленте символов. (Мы можем печатать специальный знак, отмечающий конец напечатанных символов.) Теперь машина сдвигает ленту назад, стирает символы во всех тех квадратах каждого отрезка, которые соответствуют лентам, сдвигающимся влево, и печатает их на соответствующих местах следующего отрезка. Таким образом, все те знаки, которые со-» ответствуют лентам J*» сдвигающимся влево, сдвигаются на
70 Дж. Хартманис, Р. Е. Стирнз один отрезок влево. На другом конце ленты процесс меняет свое направление, и противоположное движение ленты J'l переносит все те символы, которые соответствуют лентам с/» сдвигающимся вправо, на один отрезок вправо на ленте J'l- Когда машина J*i достигнет самого правого напечатанного на ее ленте символа, она возвращается к специально отмеченному (0-му) отрезку, содержащему теперь п символов, которые считываются машиной J* на следующей операции, на чем и заканчивается для J'l подражание одной операции </. Нетрудно видеть, что число операций J^i пропорционально 5 — числу символов, напечатанных на ленте J^i- Это число увеличивается самое большее на 2(/г+1) квадратов за одну операцию J". Поэтому после T{k) операций машины J* одноленточная машина J^i выполнит не более чем T{k) операций, где Со и Ci — константы. Но тогда T,{k)<^C,^iKC{T{k))\ /==1 Так как С — константа, то, используя теорему 2, заключаем, что существует одноленточная машина Тьюринга, печатающая свой й-й выходной символ за не более чем T{ky операций, что и требовалось доказать. Следствие 6.1. Самое большое улучшение, которое может быть достигнуто при переходе от п-ленточных машин к {n + l)- ленточным, — это квадратный корень из времени вычислений. Мы рассмотрим теперь, что случится, если позволить машине иметь по несколько головок на каждой ленте с соответствующими правилами для предотвращения появления двух головок в одном квадрате и получения несовместимых указаний. Мы называем такое устройство многоглавой машиной Тьюринга. Следующий наш результат утверждает, что использование такой модели не изменило бы классы сложности. Теорема 7. Пусть а вычислима многоглавой машиной Тьюринга J', которая печатает ее п-й знак за Т(п) или менее one- раций, где Т — временная функция; тогда а 6 5г. Доказательство. Мы проведем доказательство для одно- ленточной двуглавой машины.; остальные случаи получаются по
о вычислительной сложности алгоритмов 71 индукции. Наша цель — построить многоленточную машину (7'^ которая в течение времени 4Г вычисляет а, что с помощью теоремы 2 дает наш результат. Одна лента машины J" будет заменена тремя лентами в J'^ Лента_а содержит левостороннюю информацию из </, лента 6 содержит правостороннюю информацию из с/, а лента с «подсчитывает» число квадратов ленты J* (по две штуки в квадрате ленты), содержимое которых переписано на обе ленты а и 6. В некотором квадрате ленты а всегда стоит контрольный знак, обозначающий самый правый У1-1 о II2I3I4 5 61/ м 41516 ШЛР (5) J 1-1 0Jl|2l3|4|?| \J лштп ТУ (в) л |?|||2|3|45.6|/ /I I^Khle 7 8IJ/ {а) J \А/\/^/\АА/\) {6) Р и с. 4. а —J^' в „чистой" ситуации; б--^' в „грязной" ситуации. квадрат, символ из которого не записан на ленте 6, а лента 6 имеет контрольный знак для обозначения самого левого квадрата, содержимое которого не переписано на^. Когда вся информация между головками записана на обеих лентах а и 6, мы имеем «чистую» ситуацию, как показано на рис. 4, а. Когда </ работает, головка ленты а действует так же, как левая головка машины </, головка ленты ^ ведет себя, как правая головка, на ^ же записанное число уменьшается всякий раз, как сдвигается какой-нибудь контрольный знак. Головка а должна переносить свой контрольный знак вправо всякий раз, когда она сдвигается вправо от квадрата, в котором он стоит, так как новый символ, который она печатает, не будет записан на ленте Ь\ подобным же образом гoлoвкaJ? сдвигает свой контрольный знак влево. После некоторых т операций ^\ соответствующих т операциям с/, получится «грязная» ситуация, как на рис. 4, б, когда
72 Дж. Хартманис, Р. Е. Стирнз информация на лентах J^' не перекрывается. Информация, записанная между головками J' (если она есть), должна быть только на одной ленте </', например на ленте _6 (рис. 4,6). Когда головка J? движется к контрольному знаку, информация, записанная между головками, переносится на ленту ^ и головка а возвращается на свое место. Получается чистая позиция, и J"'готова продолжать имитировать </. Потерянное время равно 3/, где / — расстояние между головками. Но /-^т, так как головка Ь^ сдвинулась на / квадратов от своего контрольного знака, который она покинула. Поэтому 4т — время, достаточ^ ное для того, чтобы имитировать т операций </ и восстановить чистую позицию. Таким образом, что И требовалось доказать. Эта теорема указывает, что наша модель может претерпеть некоторые значительные трансформации без изменения классов сложности. Та же самая техника может быть применена при других изменениях в модели. Например, рассмотрим машины Тьюринга, которые имеют определенное число таких специальных символов, что каждый символ может появляться самое большее в одном квадрате в каждый момент времени, и таких, что считывающая головка может за одну операцию сдвигаться к тому месту, где напечатан специальный символ, как бы далеко он ни был на ленте. Машины Тьюринга с такими командами скачков, как можно показать подобным образом, тоже оставляют классы неизменными. Изменения, касающиеся структуры ленты, обычно ведут к «квадратичным законам». Например, рассмотрим следующее определение. Определение 3. Двумерная лента есть неограниченная плоскость, разбитая на квадраты равноотстающими друг от друга вертикалями и горизонталями, как показано на рис. 5. Считывающая головка машины Тьюринга с такой двумерной лентой может за одну операцию сдвигаться на один квадрат вверх, вниз, вправо или влево. Это определение естественно распространяется на многомерные ленты. Такие вычислительные устройства |Роотносятся с многоленточными машинами Тьюринга по следующему квадратичному закону. Теорема 8. Если а Т-вычислима на машине Тьюринга с п-мерными лентами, то а Т^-вычислима на машине Тьюринга с линейными лентами.
о вычислительной сложности алгоритмов 73 Доказательство. Мы ограничимся рассмотрением машины J* с единственной двумерной лентой; обобщения очевидны. Мы будем подражать работе машины ^ на многоленточной машине J"'. В начале моделирования операции машины </ на нашей ма^ шине <^' вся история двумерной ленты хронологически запи^ сана на левой части линейной ленты, как показано на рис. 5. В ее квадратах поочередно записано, что напечатала и куда сдвинулась головка машины J*. Работая, машина </' изучает \1 1 |r|P5|rlP4|d|P3UIP2lulPlluiP;n\ t u - Сдвиг вверх d - Сдвиг вниз i'Сдвиг влево г 'Сдвигвправо Считывающая голодна Рис. 5. Соотношение между двумерной лентой и соответствующей ей линейной лентой. историю, чтобы определить, какой символ считывается в соот-» ветствующий момент машиной </, и затем возвращается обратно, чтобы напечатать следующий символ и указатель сдвига машины J'- Так как у квадратов нет названий, возникает за-* дача: установить, какой из предыдущих символов (если вообще какой-нибудь) оказывается считываемым машиной ^. Но по содержанию следов инструкций между двумя квадратами мож^ но легко проверить, совпадают ли эти квадраты, просматривая, равны ли числа сдвигов вверх и вниз, направо и налево. Это может быть проделано в реальное время с использованием двух лент. Таким образом, мы построим ^\ головка которой сдвигается по ленте вправо до тех пор, пока не найдется первый квадрат, совпадающий с рассматриваемым квадратом </ (этот квадрат J"'содержит считываемую ^ информацию), или не до^ стигнет конца ленты (в этом случае рассматриваемый квадрат пуст). Контрольное устройство запоминает символ из этого квадрата и возвращается налево до конца, возвращая по дороге в исходное положение ленты, проверяющие совпадение квадратов, и печатая в конце новые символы и сдвиг головки. Процесс повторяется, /-я операция машины ^ требует самое большее 4(i+l) операций с/'. Так как</работает за время Г, машина J"
74 Дж. Хартманис, Р. Е. Стирнз может быть построена так, чтобы укладываться в Р, что и требовалось доказать. Если только можно, используя обычные ленты в реальном времени, указывать, когда машина с обобш,енной лентой воз- враш.ается в данный квадрат ленты, то подобная техника приводит к другому «закону квадрата». Так что имеется широкий класс вычислительных устройств, которые классифицируют последовательности, как наши классы сложности с квадратами временных функций. 4. Предельная теорема. В теореме 2 и ее следствиях мы нашли различные условия, при которых два различным образом определенных класса оказываются совпадающими. Цель этого раздела — найти условия, достаточные для того, чтобы два класса были различными. Во-первых, мы нуждаемся в следующем определении. Определение 4. Монотонно возрастающая функция Г, отображающая натуральные числа в натуральные же, называется вычислимой (countable) в реальном времени, если существует многоленточная машина Тьюринга </, которая на п-я операции печатает на своей выходной ленте единицу, когда Т{т)==п для некоторого т и нуль в противном случае. Мы будем называть такую машину </ Г-вычислителем. Это определение было использовано Ямадой (Н. Yamada) в [3], где он показал, что такие обычные функции, как az^, k^ и п\, все вычислимы в реальном времени. Он показал также, что если Ti и Гз вычислимы в реальном времени, то таковы же и кТи Ti{n)+T2{n), Т,{п).Тг{п), Т,{Т2{п)) и {Т,{п)) "^^^'К Также верно, что если дана вычислимая последовательность а, то найдется такая вычислимая в реальном времени функция Т{п), что а 6 5г. Чтобы заметить это, у произвольной </, вычисляющей а, можно изменить выходе" и получить </^ которая печатает нуль, когда </ ничего не печатает, и печатает единицу, когда J' что- нибудь печатает; </' и есть счетчик в реальном времени некоторой функции Г, такой, что а 6 5г. Поэтому следующая теорема, несмотря на свое ограничение вычислимостью в реальном времени, представляет значительный интерес и имеет возможные приложения. Теорема 9. Если U и Т — вычислимые в реальном времена монотонно возрастающие функции и ТО существует последовательность а, принадлежащая Su. но не St.
о вычислительной сложности алгоритмов 75 Набросок доказательства. Так как функция Т вычислима в реальном времени, некоторое множество (J"/} многоленточных машин Тьюринга с двоичным выходом может быть занумеровано так, что каждая <// работает за время 2Г, причем каждая a^Sr есть а^ печатаемая некоторой машиной </;. Может быть построена машина, которая, будучи снабжена (на ленте) системой команд машины (7*^, выдает п-ю цифру а^ за Ci{T{n))^ операций, где С^ — константа для каждого i, появление которой объясняется тем, что переходы лишь моделируются на ленте, а квадрат — тем, что число лент, данных для подражания всем J'l, фиксировано, и потому приходится применять теорему 6. Теперь можно построить машину, проделываюш,ую диагональный процесс относительно J'l и печатаюш,ую знаки за время и. Так как нижняя грань отношения Т^ к U равна нулю, подражание машине J'l в конечном счете перегонит вычисление и, как бы ни была велика начальная задержка Di перед началом подражания, т. е. Di + Ci{T{Ni))^<U{Ni) для некоторого большого Ni. Таким образом, если мы будем печатать выходные знаки только в моменты U{n) (а это возможно, так как U{n) вычислима в реальном времени), то имеется достаточно времени, чтобы подражать всем J'i одной за другой и печатать дополнительные к J*i{Ni) знаки в моменты U{Ni), Ni<N2<... .. .<Ni<... . Итак, мы можем печатать ^/-вычислимую последовательность, отличную от всех Г-вычислимых последовательностей. Детали доказательства. Машина J" с двоичным выходом может быть преобразована в 2Г-вычислитель ^) J'^ путем соединения ее с 2Г-счетчиком в реальном времени и дополнительной лентой. Машина </ печатает на дополнительной ленте выходной знак и делает отметку. Когда же счетчик достигает 2Т{п) для некоторого п, одна такая отметка стираете^ с дополнительной ленты. Если на дополнительной ленте не остается отметок, то это значит, что J' не укладывается во время 2Г(п), и мы печатаем на выходе нуль в этот момент и во все после^ дующие. Таким образом, </' есть 2Г-вычислитель и печатает ту же последовательность, что и </, если J' есть 2Г-вычислитель. Преобразуя перечислимую совокупность всех многоленточных машин Тьюринга .таким способом, мы получим перечисление машин J'iy которые вычисляют все 2Г-вычислимые последовательности. Так как любая а, печатаемая 2Г-вычислителем с двоичным выходом, печатается какой-нибудь с/п мы получаем ^) Очевидно, что под 2Г-вычислителем авторы подразумевают машину, вычисляющую какую-либо последовательность за время 2Т{п). — Прим. ред*
76 Дж, Хартманис, Р, Е. Стирнз по следствию 2.7 ^), что каждая а^8т печатается некоторой <//. Мы можем без потери общности предположить, что на каждой из лент </; печатаются только два знака, так как одна лента с многими знаками эквивалентна некоторому числу параллельно работающих двоичных лент. Так как машины J"/ могут быть порождены алгоритмом, можно построить такую машину Тьюринга, которая по i-uy значению аргумента печатает список команд машины J"/ на «ленте состояний», как показано на рис. 6. Написанная часть «ленты состояний» ограничивается от=» Чтение символов ленты Вывод Ииструнция печати Инструнция сдвига Следующее состояние Часть сеиции перехода Наименование состояния I I С t н ц и и переходов I I ... _ Часть сеиции состояний Отметиа ноица Сенция {начального состояния С е н ц и и состояний I I Лента состояний Рис. 6. Части ленты состояний. меткой конца и разделяется на «секции состояний», также отделенные друг от друга отметками, причем самая левая секция соответствует начальному состоянию. Каждая секция состояния имеет кодированное имя состояния, за которым следуют секции переходов, отделенные друг от друга отметками. Каждая из секций переходов имеет некоторый список символов, употребляемых на рабочих лентах, за ними соответствующий вывод, инструкции печати на рабочих лентах и переходов и код следующего состояния. Так как ленты у всех с// бинарны, потребуется только конечное число символов для этой ленты. Далее мы покажем, как «лента состояний» может быть использована для подражания J'l за время Ci{T{n))^, где Ci — некоторая константа. Для этого мы используем еще две ленты: «ленту лент» и «ленту меток» (рис. 7). На ленте лент записывается информация с лент <// тем же способом, что и в доказав 1) По-видимому, здесь авторы используют то обстоятельство, что взят именно 2Г-, а не Г-вычислитель, — Прим. перев.
о вычислительной сложности алгоритмов 77 гельстве теоремы 6 (рис. 6). Вначале считывающая головка находится слева, в секции начального состояния. Не выходя за пределы этой секции, машина ищет секцию перехода, «считываемые символы» которой соответствуют действительным сим^ волам на лентах, перечисленным на ленте лент (которая пуста на этом первом шаге). Затем машина смотрит на соответствую^ щее указание о выходе и посылает выход (если он есть) в контрольное устройство выхода для дальнейшей обработки (это был бы печатный выход машины J"/). Далее указания о печати Нумератор Лента состояний ашиш Miiiim Подражатель Лента лент л i п 111 Лента мет он umiui 11111111 > 11111 и I i> Центральное ионтрольное устройство llJIIIMl|^^IMIII!IIU iimiijM 'Вычислитель Ионтроль 6ы)(ода Антивная лента пт Резервная лента яшм и! Выходная лента Рис. 7. Устройство печати ^^-последовательности, которая не является 7-последовательностью. на лентах выполняются на ленте лент. Затем информация на ленте лент сдвигается, как в доказательстве теоремы 6, согласно инструкциям о сдвигах, причем лента меток используется для записи информации, которая должна быть сдвинута. Наконец головка переходит к указанию следующего состояния, и затем она ищет соответствующую «секцию состояния». Так как время, нужное для смены состояний, ограничено (имеется только ко-* нечное число переходов состояний), мы, понятно, сумели имитировать работу машины из доказательства теоремы 6 с допол^ нительным постоянным множителем, который в свою очередь входит в постоянный множитель при квадрате Г(п), так как (Х\ 2Г-вычислима. Иными словами, удается подражать ^i за время Ci(T{n)Y, Теперь мы опишем «выходной контроль», который имеет три ленты: «активную ленту», «резервную ленту» и выходную ленту
78 Цж. Хартманис, Р. Е. Стирнз нашего устройства. Выходной контроль получает выходные данные от подражателя, описанного выше, и от [/-вычислителя. В начале большого цикла (определенного ниже) нашего устройства на активной ленте имеется столько отметок, сколько было получено единиц от [/-вычислителя, резервная лента пуста, а на выходной ленте записано столько же знаков, сколько единиц выдал [/-вычислитель. Всякий раз, когда получается единица от [/-вычислителя, а на активной ленте еш.е имеются отметки, еш.е одна отметка добавляется к ним на активной ленте, а на выходной ленте печатается нуль. Когда же получается выходной сигнал от подражателя, на резервной ленте ставится отметка, а с активной ленты стирается отметка (если там есть хотя бы одна). Если же на активной ленте нет отметок, сигнал запоминается контролем выхода, и дальнейшие выходные сигналы подражателя игнорируются. Когда контроль выхода получает следуюш.ую единицу от [/-вычислителя, на выходной ленте печатается символ, дополнительны^! к тому, что запомнил контроль (О, если 1, и 1, если 0), и посылается сигнал в «центральный контроль». Число выходов и число сигналов от [/-вычислителя теперь равны числу Л^ отметок на резервной ленте, а активная лента пуста. Помимо этого, N есть число сигналов, полученных от подражателя за время большого цикла и (как мы покажем) iV-й выход нашего устройства не совпадает в действительности с J'i{N), и noToiviy наше устройство печатает не Г-вычис- лимую последовательность а». Вместе с сигналом в центральный контроль резервная лента превращается в активную, а активная лента становится резервной; начинается новый большой цикл. Части нашего устройства связаны с «центральным контролем» (как показано на рис. 7), который управляет большим циклом. В начале работы центральный контроль сигнализирует нумератору заполнить ленту состояний для </i. Затем он дает команду подражателю подражать работе J^i. Когда выходной контроль сообщает, что он только что напечатал дополнительный к 0*\{Ni) для некоторого Ni знак в качестве Л/'i-ro выходного знака, центральный контроль прекращает подражание работе 0*v очищает ленту состояний и ленту лент и затем сигнализирует нумератору заполнить ленту состояний для следующей машины. Остается только показать, что наше устройство добирается до конца большого цикла для каждой машины J^^. Предположим, что подражатель начинает подражать работе машины J*i спустя время Di с начала большого цикла. Наше устройство выполнит этот цикл и перейдет к подражанию J" j+i тогда и только тогда, если для некоторого большого Л^ получится
о вычислительной сложности алгоритмов 79 Di + Ci{T{N))^<U{N). Но если для всех п Ог + Сг{Т{п)У> '^U(n), то ЧТО является противоречием. Сейчас мы приведем следствие, которое позволит строить разные классы сложности для демонстрации различного расположения таких классов относительно включения. Следствие 9.1. Если U и Т — монотонно возрастающие функции, вычислимые в реальном времени, и Лес ^(П) -^' ТО St собственно содержится в Su- Доказательство. Это следует из теоремы 9 и следствия 2.3. Сейчас мы опровергнем некоторые предположения, используя наше умение строить несовпадающие классы. Следствие 9.2. Существует такая временная функция Т, что 8т{п)Ф5т{п+1)' Таким образом, сдвиг временной функции может дать другой класс сложности. Доказательство. Возьмем функцию Т{п)=2^\ о которой известно, что она вычислима в реальном времени (Yamada [3]). Ясно, что (Т(п)У nli.T(n + \) ^' И достаточно применить теорему 9. Следствие 9.3. Существуют такие функции U и Т, что Доказательство. Очевидно, что можно построить- также вычислимые в реальном времени функции f/ и Г, что inf-^ = inf -^-=0. Теперь же применяется наша теорема. Мы закончим этот раздел несколькими замечаниями относительно определения 4, Очевидно, благодаря тому, что понятие
80 Дж. Хартманис, Р. Е. Стирнз вычислимости в реальном времени просто обобщается на Г-вы- числимость, конструкции Ямады [3] могут быть использованы, для доказательства замкнутости этих классов относительно правил сочетания L/{n) + V{n), и{У{п)) и U{n)'V{n). В этих построениях производятся действия то за одно вычислительное устройство, то за другое, и поэтому результирующая машина укладывается во время 2Г, а значит, можно ограничить время и Т согласно теореме 2. 5. Классификация чисел. Всякую последовательность а можно рассматривать как двоичное разложение действительного числа а. Интересно узнать, содержатся ли те или иные числа, которые мы считаем простыми в каком-либо смысле, в малых классах сложности (с не очень быстро растущей временной функцией). Хотя мы полагаем, что классы сложности, к которым принадлежат числа, изменяются вместе с основанием разложения, приведенные здесь теоремы верны при любом осно-- вании. Теорема 10. Все рациональные числа содержатся в Sn^ Доказательство. Хорошо известно, да и очевидно, что разложение всякого рационального числа, будучи периодическим, кроме, возможно, некоторого числа первых знаков, может порождаться по одному знаку за операцию 0-ленточной машит ной (конечным автоматом). Теорема 11. Все алгебраические числа содержатся в Sn^. Доказательство. Пусть f{x)=arX^ + ar-iX^~'^+]... +ао есть многочлен наименьшей степени, имеющий а корнем (0<^а^ -^l). Пусть am — число, двоичное разложение которого на первых т местах совпадает с разложением а, а дальше имеет только нули; т выбрано достаточно большим для того, чтобы am было единственным корнем f{x). Мы можем без потери общности считать, что f(am)-<0, а f(am + 2-^)>0. Наша машина работает следующим образом: Числа Пт (1^^^^) записаны на отдельных лентах со считывающими головками на гт-х квадратах (чтобы получить самый маленький значащий разряд числа otj^j). Первые т выходных знаков получаются со специальной ленты памяти. Затем вычисляется 6=/(ат+.2-<^+^)). Если &<0, то (т-М)-й выходной
о вычислительной сложности алгоритмов 81 знак — единица, и мы записываем на соответствующих лентах ^m+i (1<^*<^Л ctm+i = ^m + 2"^'""^^0» устанавливаем считывающие головки на r(m+l)-e квадраты и стираем а^. Если же fc>0, выходной сигнал — нуль, мы получаем am+i = am, отводим головки на r(m+l)-e квадраты записи aln (=am+i) и стираем следы проделанной работы. Затем такой же цикл повторяется, чтобы вычислить следующий знак, и т. д. Остается показать, что эти действия могут быть выполнены за т2 операций. Это будет так, если мы сможем показать, что каждый такой цикл может быть совершен за пропорциональное т количество операций. Заметим, что сложить k чисел длиной гт со считывающими головками на последнем значащем разряде и вернуть головки обратно можно за время 2{rm+k) {rm+k, чтобы учесть перенос). Умнож^ение на целое число к также выполняется за пропорциональное т число операций, так как это равносильно сложению h чисел. Таким образом, число (ат-1 + 2-"У-а^-1 + С1а^--12-"+ ... +2-'" (1</<г) может быть вычислено за время, пропорциональное т, потому, что его вычисление состоит из сложений и умножений на константы записанных чисел, и потому, что множители 2~^ действуют только передвижением разрядов. Затем b можно вычислить в пропорциональное т время в силу тех же соображений. Наконец, числа am+ 2"^ или а^ (в зависимости от выхода) и b могут быть стерты в- пропорциональное т время, а потому и весь цикл выполним за пропорциональное т число операций, откуда следует, что а Т {т) = т^-ъычислимг. Теорема 12. Существуют трансцендентные числа, принадлежащие Sn. Доказательство. Так как п\ вычислима в реальном времени, ее счетчик печатает (в реальном времени) двоичное разложение лиувиллева числа 2 которое, как известно, трансцендентно. При основании разложения k 2 следует заменить на к. Так как изменение конечного числа цифр не меняет ни трансцендентности, ни класса сложности числа а, Sn содержит бесконечно много таких чисел, б Зак. 477
82 Дж. Хартманис, Р. Е. Стирнз которые образуют всюду плотное подмножество действительных чисел. Было бы интересно узнать, существуют ли иррациональные алгебраические числа, принадлежащие классу Sn. Если это не так, мы имели бы занятный результат: в нашей классификации некоторые трансцендентные числа проще, чем все иррациональные алгебраические числа. 6. Обобщения. В этом разделе мы кратко рассмотрим некоторые обобщения нашей теории. Вначале мы изучим сложность проблем разрешения. Определение 6. Пусть R — множество слов конечной длины в некотором конечном алфавите А. Пусть далее </ — многоленточная машина Тьюринга с односторонней входной лентой, на которой пишутся символы алфавита А. Будем говорить, что (/ разрешает R тогда и только тогда, когда для всякой входной последовательности а в А п-й выходной знак машины J" есть единица, если начальный отрезок длины п последовательности а образует слово из R, и нуль в противном случае. Если Т — временная функция {Т{п)'^п), то R называется Т-разрешимым тогда и только тогда, когда существует такая машина J"» которая разрешает R и для всякой входной последовательности а печатает п-й выходной знак за Т{п) или менее операций. То ограничение, что входные символы поступают в машину по одному за единицу времени, не дает возможности перенести сюда все результаты в точности. Однако обобщения проходят просто, и некоторые наиболее важные из них собраны в следующей теореме. Если бы мы не разрешили нескольким символам находиться вместе в одном квадрате в нашем уже проделанном исследовании, то полученные ранее результаты приняли бы такую же форму, что и эти. Теорема 13. 1. Множество тех машин Тьюринга, которые разрешают какие-либо Т-разрешимые множества, рекурсивно перечислимо, а потому суи{ествуют сколь угодно сложные проблемы разрешения, 2. Если R Т-разрешимо и Т{п)=п + Е{п), £'(az)>0, то R U-разрешимо, где U{n)=n + [kE{n)l k>0. 3. Если Т и и — такие временные функции, что . £ Т (п) — п . ri л->оо то всякое U-разрешимое множество R Т-разрешимо,
о вычислительной сложности алгоритмов 83 4. Если R Т-разрешимо многоленточной, многоглавой машиной Тьюринга, то R Т^-разреисимо одноленточной, одноглавой машиной Тьюринга. 5. Если монотонно возрастающие Т и U вычислимы в реальном времени и inf тггт =0' то суи{ествует множество R, которое И-разрешимо, но не Т-разрешимо, Доказательство. Часть 1 доказывается, как теорема 1, часть 2 — подобно теореме 2, причем нужно добавить п дополнительных операций для ввода по одному знаку за единицу времени; часть 3 — так же, как следствие 2.1. Часть 4 — это как раз теорема 6, а часть 5 — это теорема 9. Вышеизложенное применимо к проблемам разрешения в языках. Мы имеем прямое доказательство того, что контекстно свободный язык (см. [6]) может быть разрешен за время Т{п)== = ^^, где k зависит только от грамматики. Доказательство получается за счет выполнения всех возможных построений длины п и последующего выбора списка для п-го слова. В следующем примере приводится контекстно свободный язык, который не может быть разрешен в реальное время. Пример. Пусть R—такое множество слов в алфавите (О, 1,5}, что слово принадлежит R тогда и только тогда, когда зеркальное отражение подслова из нулей и единиц, стоящего за последним S в слове, совпадает с некоторым подсловом из нулей и единиц, заключенным между двумя последовательными s, или с подсловом, предшествующим первому (слева) s. Так, слова OsllOslsOll и llOsllsOll принадлежат R, потому что ПО есть зеркальное отражение 011, в то время как OllsllOUOll не содержится в R. Причина того, что мы берем зеркальное отражение вместо самого слова, состоит в том, что R есть контекстно свободный язык, хотя мы й не приводим здесь его грамматики. Докажем, что R не д-разрешимо. Предположим, что J' — машина, разрешающая R. Пусть J" имеет d состояний, т лент и не более k символов в квадрате ленты. Будем считать, что J* уже выполнила некоторое неопределенное число операций. Мы хотим теперь дать верхнюю оценку числа уже введенных ранее в машину с/ входных последовательностей, которые могут быть распознаны за i дополнительных к сделанным операций. Вся хранимая информация, доступная машине за i операций, — это состояние, в котором она находится, и знаки, записанные на лентах на расстоянии не более i от головок. С помощью этой
84 Дж. Хартманис, Р. Е. Стирнэ информации можно различить не более dA(2^*+^)^ случаев. Теперь заметим, что множество слов из нулей и единиц длины i—1 имеет 2^-1 элементов и это множество имеет 2^''^ подмножеств. Каждое из этих подмножеств может быть множеством слов длины i—1, которые встречались между различными соседними символами S среди полученных ранее входных знаков. Машина с/ должна различать любую пару таких подмножеств за i операций, так как, если следующие i входных символов суть одно 5 со следующим за ним зеркальным отражением слова из одного множества, но не из другого, J* должна давать различи ные выходы. Но При больших I, и потому ^ не может действовать так, как мы предположили. Таким образом, мы имеем наш первый результат о невоз^ можности. Кажется, что изучение проблем разрешения содер^ жит более легкую возможность получения результатов о невоз^ можности, чем изучение последовательностей, так как исследователь может контролировать работу машины. Очевидно, что эта теория может быть обобщена для клас^ сификации функций, отображающих целые числа в целые. Точная форма такой теории будет зависеть от того, в какой форме мы хотим печатать ответы, но техника доказательств прила^ гается совершенно общим способом. 7. Проблемы и открытые вопросы. 1. Ослабить условия теоремы 9. Условие вычислимости в реальном времени функции Т можно исключить за счет незна^ чительного изменения доказательства, но это не настоящий вьь ход. Далее, имеется очевидный разрыв между теоремой 9, кото-» рая утверждает, что имеется а в Su—St, и следствием 2.1, которое утверждает (при других условиях), что это не так. Возникает вопрос, что можно сказать об Su и 5г, если inf -Ш- = 0? П->со U(n) Мы склонны считать, что это условие гарантирует Su=f=STy в осо^ бенности, если функции U и Т вычислимы в реальном времени, и лучший подход, чем в теореме 9, возможно, будет найден. 2. Есть ли задачи, которые требовали бы время Р при решении на одноленточной машине, но которые можно было бы решать за время Г, используя несколько лент? Улучшение теоремы 6 автоматически дало бы улучшение и теоремы 9.
о вычислительной сложности алгоритмов 85 3. Пусть Qt — множество всех а, таких, что для всех U из a^Su следует StSSi/. Интуитивно Qt есть множество последовательностей, для которых Т — наименьшая сложность. Если a^Qi ПЗту мы будем говорить, что Т есть сложность последовательности а. Для каких временных функций Qt П St непусто? Есть ли какие-нибудь свойства последовательностей или проблем, которые обеспечивают их принадлежность какому- либо Qt"? 4. Каковы, если они суш^ествуют, те иррациональные алгебраические числа, которые принадлежат Sn? Если это не так, то можно было бы представить многочисленные трансцендентные числа, конструируя машины Тьюринга, работающие в реальном времени, которые заведомо выдают не асимптотически периодические последовательности. Например, оказалось бы трансцендентным. Благодарности. Авторы выражают свою благодарность О. М. Roe, R. L. Shuey и анонимному референту за их полезные предложения и конструктивную критику этой работы. Добавлено при корректуре. Некоторые улучшения результатов этой работы можно найти в [7]. Сходные результаты сообщаются в [8]. Л ИТЕРАТУРА I.Turing А. М., On computable numbers, with applications to the Ent- scheidungs problem, Proc. London Math. Soc, (2) 42 (1937), 230—265. 2. Davis M., Computability and unsolvability, McGraw-Hill. New York, 1958. 3. Y a m a d a H., Real-time computation and recursive functions not real-time computable. IRE Trans., EC-11 (1962), 753—760. 4. My hi 11 J., Linear bounded automata, WADD Tech. Note 60-165, Rep. No 60-22, Univ. of Pennsylvania, June 1960. 5. Ritchie R. W., Classes of predictably computable functions. Trans. Amer. Math. Soc, 106 (1963), 139—173. 6. Chomsky N., On certain formal properties of grammars. Information and Control, 2 (1959), 137—167. (Русский перевод: Хомский Н., О некоторых формальных свойствах грамматик. Кибернетический сборник, вып. 5, ИЛ, М., 1962, 279—312.) 7. Н а г t m а п i S J., Stearns R. E., Computational complexity of recursive sequences, Proc. Fifth Annual Sympos. on Switching Theory and Logical Design, Princeton, N. J., 1964. a Rabin M. 0., Real-time computation, Israel /. Math., 1 (1963), 203—211.
Марковские цепи и линейное программирование^) 0. Вольф, Дж, Данциг Изучается бесконечный во времени марковский процесс с конечным числом состояний, переходные вероятности которого выбираются независимо для каждого состояния из множеств, которые либо конечны, либо являются выпуклыми многогранниками. Для выбора таких переходных вероятностей, минимизирующих соответствующую функцию финальных стационарных вероятностей, предлагается конечная вычислительная процедура, которая сводится к разработанному авторами алгоритму разложения задач линейного программирования специальной структуры. Как показали цитируемые ниже недавние исследования, значительный интерес представляют задачи оптимизации, формулируемые как задачи такого выбора системы распределений, образующей вероятности перехода марковского процесса с конечным числом состояний, чтобы минимизировать некоторые «потери», связанные с процессом. Следующая задача хранения является типичным примером подобных задач: Пусть п — достижимое количество товаров на складе, соответствующее п состояниям марковского процесса. Переход из одного состояния в другое будет происходить в конце каждого из бесконечной последовательности периодов времени. В силу неопределенности природы снабжения и потребления товаров, о которых предполагаются известными только их распределения, влияние данной стратегии хранения должно быть описано с помощью распределений. Для любой стратегии хранения известны вероятности pij перехода из состояния i в состояние / за один период времени, так же как и «потери» c^j, зависящие от стратегии, т. е. штрафы, которые будут выплачиваться при этом переходе. При всякой стратегии последовательность уровней запаса во времени образует марковский процесс, описываемый данными вероятностями. Если задано начальное состояние 1) Wolfe Ph., D а n t z i g G. В., Linear Programming in a Markov chain, Operations Research, September — October, 10, № 5 (1962), 702.
Марковские цепи и линейное программирование 87 ДЛЯ первого периода, то затем определяются стационарные вероятности ^ij. Интуитивно pij есть вероятность того, что в типичный период времени в неопределенном будущем будет иметь место переход из состояния i в состояние /. Ожидаемые потери в далеком будущем при применении конкретной стратегии определятся как 2 (^аРи- Тогда вычислительной задачей является задача минимизации этих ожидаемых потерь по всем возможным стратегиям хранения. Формулировка такой задачи в терминах линейного программирования была дана Манне [5], д'Эпену [3] и Оливером [6] в тех случаях, когда переходные вероятности p^j отдельно для каждого i можно выбирать из данного конечного множества распределений. Такое же предположение о допустимых распределениях делает Ховард [4] в своем «Динамическом программировании» — монографии, посвященной этому классу задач ^). Однако замечание, что задача, сформулированная как задача линейного программирования, может быть эффективно разрешена посредством специализированного алгоритма разложения для задач линейного программирования [2], дает возможность значительно расширить круг доступных обработке задач при введении другого описания множеств допустимых управлений. В последствии будут рассмотрены два крайних случая: с одной стороны, случай, описанный выше, и, с другой — случай, в котором допустимые распределения ограничены только требованием удовлетворить некоторым линейным неравенствам. Так как эти два крайних случая исследуются по существу одним и тем же методом, то он легко может быть применен и к промежуточным случаям, которые представляют практический интерес. Мы надеемся, что представляемый метод может быть вполне эффективен при вычислениях, но пока подобных экспериментов не проводилось 2). ^) В дополнение к цитированному мы сошлемся на Guy de Cliellinck, Les Problemes de Decisions Sequentielles («Проблемы последовательных решений»), Cahiers de Centre d'Etude de Reciierciie Operationnelle, v. 2, № 2, Brussels, 1960, где показано, что «процедура улучшения стратегии» Ховарда является частным случаем симплексного метода линейного программирования, допускаюш.им многократные подстановки. 2) При практическом использовании данного метода на ЭЦВМ следует обратить внимание на возникающие из-за специального вида правой части задачи линейного программирования трудности. Как будет видно из дальнейшего, такой вид правой части (1, О, О, ..., 0) существен, что влечет неизбежные осложнения при машинном решении задачи. — Прим. перев.
Ф. Вольф, Дж. Данциг ПОСТАНОВКА ЗАДАЧИ Всюду в этой хтатье п — фиксированное целое число. Распределением назовем п-вектор x=(a:i, а:2, ..., Хп)у такой, что Xi^O (для всех /) и2^г=10- Марковский процесс определяется п распределениями Pi={piu ..., pin) для /=1, 2, ..., дг, где pij есть вероятность перехода из состояния i в состояние /. В изучаемой здесь задаче частный марковский процесс определяется путем выбора распределений из некоторых множеств. В этом и следующих разделах эти множества будут предполагаться конечными. Пусть Si для каждого t=l, 2, ..., п будет конечным множеством распределений. При этом с каждым распределением Р в Si связываются некоторые потери Ci{P). Пусть Ci для каждого г=1, 2, ..., п будет действительной функцией над Si. Функция Ci{P) для Р из Si рассматривается как плата за использование распределения Р при прохождении через состояние /• Конкретный способ описания Si и Ci не является особенно существенным для дальнейшего рассмотрения, но он играет важную роль в вычислительном алгоритме, рассмотренном в последних двух разделах. Более подробному обсуждению последнего раздела можно предпослать замечание, что алгоритм имеет целью изучение следующих двух крайних случаев: а) Si задается как произвольное конечное множество и Ci — как произвольная функция на Si\ б) задается конечное множество линейных неравенств от п+1 переменной, определяющее (п+1)- мерный многогранник таким образом, что первые п координат любой точки этого многогранника образуют распределение. Первые п координат любой крайней точки этого многогранника являются компонентами Р из Si, и Ci{P) определяется как минимальная (п+1)-я координата всех крайних точек, первые п координат которых образуют Р^). Если теперь для каждого i выбрать конкретное Pi из Si, то получим марковский процесс. Пусть х — стационарное распределение для этого процесса, т. е. распределение, удовлетворяющее соотношению (2), данному ниже. «Ожидаемые потери» про- п ^) Символом S в дальнейшем будем обозначать ^ . / = 1 2) Из рассмотрения случая б) в последнем разделе будет видно, что нет необходимости ограничивать Si крайними точками многогранника, так как если бы даже все точки допускались, то появлялись бы только крайние в решении задачи. Это ограничение делается для удобства, чтобы предполагать Si конечным,
Марковские цепи и линейное программирование 89 цесса на шаг, если вектор стационарных вероятностей равен х, будут тогда равны 2с,{Л)^,. (1) Задача управления марковским процессом состоит в выборе Pi таким образом, чтобы эти ожидаемые потери были минимальными. Формально задача выглядит следуюш.им образом. Определить Pi из Si {1=1, 2, ..., п) так, чтобы выражение (1) было минимально для всех х, таких, что Xi>Oy 2-^£ = l» 2-^/Л = х. (2) Для дальнейшего будет удобно переформулировать задачу таким образом, чтобы в правой части уравнений (2) находились константы. Пусть Ti для каждого i будет множеством всех /г-векторов вида Qi = {Piv А2» •••» Аг—Ь •••» Pin\ (3) для которых {piu Рг2, •.., pin)'=Pi принадлсжит Si; используя данное соответствие, определим Ci на Ti как Ci{Qi) =Ci{Pi). Задача может быть сформулирована тогда следующим образом: Определить Qi из Г^ (t= 1, ..., п) так, чтобы Hc.iQdx, (4) была минимальна для всех х, таких, что Xi>0, Е-^г = Ь l!iXiQi = 0, (5) Ясно, что всякое решение х; Pi, ..., Рп задачи, поставленной как (1), (2), даст решение х; Qi, ..., Qn задачи (4, 5) и наоборот. ФОРМУЛИРОВКА ЗАДАЧИ В ТЕРМИНАХ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ Задача (4, 5) будет решаться приемом, развитым для «разложения» задач линейного программирования специальной структуры [2], приспособленным для данного случая. Центральной идеей такого подхода является формулировка задачи как задачи линейного программирования, которая задается первоначально координатами точек из Ti. Это будет сделано в на^ стоящем разделе. Пусть Ti для каждого i состоит из Кг элементов Qf» А=1, ..., Ki. Пусть для краткости Cik = Ci{QT) для всех, i, k. Рассмотрим задачу линейного программирования.
90 Ф. Вольф, Дж. Данциг Минимизировать 2 lic^kyik (6) л» 1 при ограничениях л-1 л=1 (7) В теореме 1, сформулированной ниже, будет показано, что эта задача эквивалентна задаче предыдущего раздела. Вообще говоря, такая замена дискретной задачи непрерывной ^ задачей может привести к решению, которое не дискретно, но приведенная ниже лемма показывает, что для изучаемого здесь случая решение непрерывной задачи само достаточно «дискретно», чтобы гарантировать эквивалентность: для каждого i только единственное Qi в действительности включается в решение задачи (6, 7). Лемма. Существует решение задачи (6,7), обладающее тем свойством, что для каждого i yik>0 не более, чем для одного k. Доказательство. Коэффициенты, озаглавленные своими переменными уг^, и правая часть задачи линейного программна* рования (6, 7) приведены ниже; здесь p\j обозначают компоненты распределения Р), соответствующего Q\. УП У\2 ... У21 У22 11 11 Л-1 P\l-^ P\l р1\ Р\2 Р\2 • • • Р22 — ^ Р22 — ^ Р\п Р\п Р2п Р2п (8) Основное свойство задач линейного программирования [1] состоит в том, что если решение существует, то существует решение, содержащее точно, скажем, г положительных переменных, для которых подматрица, составленная из столбцов матрицы коэффициентов, связанных с. положительными переменными, имеет ранг г. Для этой задачи обозначим через В подматрицу порядка {п+\)Хг матрицы (8), обладающую этим свойством; соответ-
Марковские цепи и линейное программирование 91 ствующее решение будет как раз тем решением, существование которого утверждается леммой. (Дело в том, что решение этой задачи линейного программирования, полученное симплекс-методом, будет решением такого типа.) Пусть 5 — число строк матрицы В, в которые могут входить выражения вида p^^j—1. Исключая первую строку, остальные п—5 строк имеют только неотрицательные коэффициенты. Так как их правые части нули и их переменные yih положительны, то эти строки должны обращаться в нуль, и В имеет точно 5+1 ненулевых строк. Ненулевые строки, однако, линейно зависимы (сумма всех строк, кроме первой, равна нулю), откуда ранг В не больше 5, т. е. 5>г. Так как В имеет точно г столбцов, то не более одного выражения вида p^j—1 может входить в каждую строку В, так что при данном / не больше одного столбца матрицы (8) может входить в В, откуда следует утверждение леммы. Теорема 1. Задачи линейного программирования (4,5) и (6,7) эквивалентны; их решения связаны следуюи{им образом. Пусть yih — решение (6,7), удовлетворяюи^ее условиям леммы, тогда для каждого i Х^ = yifi^ I п —пк I ^^^ yik > О для некоторого k\ jc^ = 0, \ ^ р ) если f//b = 0 для всех k. Qi произвольно в Sly J ^^^ С другой стороны, пусть Xi, Qi — решение (4,5), тогда Xi для ky такого, что Q^i=Qp ' О в противном случае. Доказательство очевидно. ВЫЧИСЛИТЕЛЬНЫЙ АЛГОРИТМ-ОСНОВНАЯ ЗАДАЧА Задача линейного программирования, сформулированная в предыдущем разделе, содержит только п + \ уравнение, но зато 2/Ci переменных, число которых может быть очень большим и даже не известным в задачах, исходные данные которых задаются неявно. Модифицированный симплекс-метод [1] имеет особое преимущество для задач, имеющих переменных намного
92 Ф. Вольф, Дж. Данциг больше, чем наложенных связей. Алгоритм разложения использует эту особенность модифицированного симплекс-метода, рассматривая ограничения от этих связей отдельно от обработки переменных. Та часть задачи, которая включает ограничения, называется «основной задачей», и она рассматривается дальше в этом разделе. Та часть задачи, которая включает переменные, так называемая «вспомогательная задача», приводится в следующем разделе. Далее будет показано, что исследование основной задачи состоит в несколько усложненном применении модифицированного симплекс-метода к управляемой марковской цепи, как это было сформулировано в предыдущем разделе. Общий итера^ ционный цикл, приведенный ниж^, состоит из процедур начала итерационного процесса и перехода от определения начальной допустимой точки (I фаза) к определению решения задачи (II фаза). (Явление вырожденности играет ту же роль в этом алгоритме, как и в любой задаче линейного программирования, и будет предполагаться, что в случае необходимости можно положиться на стандартные методы [1].) ИТЕРАЦИОННЫЙ ЦИКЛ На каждой итерации в процессе решения задачи (6,7) с помощью модифицированного симплекс-метода всегда будет существовать «допустимый базис», состоящий из (n-fl) столбцов векторов Q^y ..., ^^+^ (длины n-f-1), таких, что они линейно независимы, и правая часть уравнений (8) может быть представлена как их ненулевая линейная комбинация. (Веса в этой линейной комбинации, которые, разумеется, образуют решение системы уравнений, подобной (8), разрешенной относительно своих коэффициентов при Q^ называются в совокупности «точ^ кой допустимого базиса».) Пусть «стоимость» с^ связана с вектором Q^ для i=l, 2, ... ..., п+1. Предполагаемые известными «оценки», связанные с этим базисом, определяются компонентами (n-fl)-мерного ректора jt= (я1, ..., Jtn4-i)> удовлетворяющего соотношению я9^«= ^с' (i=l, ..., ^+1). Одна итерация симплекс-метода состоит из следующих этапов: (i) Находим столбец Q матрицы (8), который вместе со связанной с ним «стоимостью» с удовлетворяет соотношению c — nQ<0. (9)
Марковские цепи и линейное программирование 93 (Обычно выбирается столбец, для которого левая часть неравенства (9) минимальна.) Это единственное место в модифицированном симплекс-методе, где рассматриваются все переменные. Этот этап образует вспомогательную задачу, изучение которой отложено до следующего раздела. (ii). Если нельзя найти столбец, удовлетворяющий условию (9), то выбранный базис будет оптимальным, и решение уравнений (8) служит решением задачи линейного программирования. (iii). В противном случае добавим найденный столбец к текущему базису и удалим один столбец таким образом (описываемым правилами симплекс-метода), чтобы оставшиеся еще образовывали допустимый базис; вычислим новый вектор оценок и начнем снова. ПЕРВАЯ ФАЗА Алгоритм можно начать с точно такого же приема, называемого первой фазой, который используется в общей задаче ли^ нейного программирования. Этот прием состоит в пополнении задачи ^-f-1 «искусственной» переменной, с помощью которых легко задается исходный допустимый базис и оценки, связанные с соответствующим исходным допустимым базисом. Алгоритм можно затем приме-* нить к задаче устранения искусственных переменных. После того как это будет сделано, автоматически будут выполнены необходимые начальные условия для обычного применения алгоритма. Пусть для i=l, 2, ..., п+1 f/г — неотрицательная перемен-^ ная, Ii есть i-й столбец (п-М)-мерной единичной матрицы и ^^ = 1—стоимость, связанная с переменной у^. Для этой фазы положим все стоимости Ciu исходной задачи равными нулю. Выбрав /i, ..., In+i в качестве исходного допустимого базиса, применим вышеуказанный итерационный цикл для мини-^ мизации линейной формы 2 У1 До тех пор, пока не минимизи^* руем ее. (Заметим, что начальной допустимой точкой является (Уи •••» f/n+i) = (l, О, ...,0), начальными оценками я=(1,1,... л+1 с помощью вышеуказанного процесса форма 2 f/£» и, сле- /-1 довательно, каждая переменная yi отдельно, будет преобразована в нуль. [Если это не так, то уравнения (7) не будут иметь решения, что невозможно.] В силу линейной зависимости
94 Ф. Вольф, Дж, Данциг уравнений (7) некоторые начальные столбцы Д- останутся в допустимом базисе до конца первой фазы. Однако, как можно показать, это не должно вызвать трудности в дальнейшем процессе. ВТОРАЯ ФАЗА Когда закончена фаза I, возвратимся к вычеркнутым стоимостям Cih столбцов Qb с этих пор используя эти стоимости для определения вектора оценок я. Повторяем итерационный цикл до тех пор, пока он не прекратится на этапе (ii). В конце сопоставим с каждым Qi в последнем допустимом базисе компоненту «допустимой точки» — веса при Qi в выражении правой части уравнений как линейной комбинации столбцов базиса. Для i=l, ..., п, согласно теореме предыдущего раздела, не больше, чем один вектор Q? из Г^, входящий в базис, может иметь положительный вес, тогда положим вес Q\, если он положителен, О в противном случае. Результат {хи ..., Хп) и есть решение задачи (2). ^/ = ВСПОМОГАТЕЛЬНАЯ ЗАДАЧА И ДОКАЗАТЕЛЬСТВО КОНЕЧНОСТИ Детальное рассмотрение этапа (i) итерационного цикла, описанного в предыдущем разделе, т. е. оператора оценивания в обычном модифицированном симплекс-методе, было отложено до этого раздела. При данных величинах л он образует задачу определения некоторого столбца Q и связанной с ним стоимости с, для которых ^ c — nQ<0, (10) где Q может быть взято из какого-либо множества Г^. Метод выполнения зависит от природы описания исходных множеств Si, из которых получаются Ti. Очевидно, задача удовлетворения соотношению (10) среди объединения всех Ti может быть разложена на п подзадач, i-я из которых для г=1, 2, ..., п состоит в том, чтобы удовлетворить соотношению (10) для Q из Ti. Если любая из этих подзадач может быть решена, то, следовательно, поставленная задача будет решена. Для каждого i=l, 2, ..., п может иметь место один из двух крайних случаев, упомянутых во втором разделе. (HeKO-*
Марковские цепи и линейное программирование 95 торые «промежуточные» случаи тоже могут быть рассмотрены, но здесь это не делается.) а) Si задается непосредственно как конечное множество распределений, причем с каждым членом Р в Si связана стоимость Сг{Р). б) Задается конечное множество линейных соотношений gj{^)>0 (у=1, ..., //г) (11) от (п+1) переменной (zi, ..., z^+i) =z так, что если z удовлетворяет (11), то {zu ..., Zn) является распределением; Si определяется как множество всех P={Zi, ..., z^) таких, что для некоторого Zn+i z— (Р; Zn+i) является крайней точкой пространства всех Z, удовлетворяющих (11); для Р в Si Ci{P) определяется как наименьшее значение z^+i, для которого (Р; Zn+i) является крайней точкой. (Индекс i был опущен выше; разумеется, соотношения (11) могут выглядеть по-разному для каждого i или вообще отсутствовать.) В случае а) можно сказать немного. Соотношение (10), выраженное при помощи определения (3) в терминах Si, побуждает выбрать такое Р в Si, для которого с^(Р) — лР+щ<0. (12) Такой вектор Р даст, согласно (3), столбец Q, удовлетворяющий (10). Случай б) более интересен в том смысле, что крайние точки многогранника, определяемого (11), могут быть заранее не известны. Заменяя Р и Ci{P) в (12) их определениями в этом случае, нужно выбрать вектор z={zu ..., Zn+i) при ограничениях (11) таким образом, чтобы п ^„+1- 11л^г^-+Л/<0. (13) Это является задачей, близкой к задаче линейного программирования. Если следовать обычной процедуре симплекс-метода, которая минимизует левую часть выражения (12), то имеем в точности задачу линейного программирования: минимизировать левую часть выражения (13) при ограничениях (И). Если в процессе минимизации получится неотрицательный результат, то этот случай нас не интересует; но если результат отрицателен, то столбец Q= {zi, ..., z^- — 1, ..., Zn) и его стоимость c = Zn^i, составленные из решения задачи, удовлетворяют соотношению (10). Более того, Q будет крайней точкой многогранника. Полное решение вспомогательной задачи получается тогда следующим образом: для каждого i=l, ..., п nonbitaeMca
96 Ф. Вольф, Дж. Данциг удовлетворить соотношению (10) для Г^ или, что эквивалентно, попытаемся удовлетворить соотношениям (12) или (13) для 8{, Если это можно сделать для некоторого i, этап (i) итерационного цикла предыдущего раздела может быть завершен. Это не влияет на факт сходимости процесса, но, по-видимому, не на скорость; так или иначе можно выбрать /, для которого (10) минимально. Если, с другой стороны, соотношение (10) не может быть получено ни для какого i, то имеет место этап (ii) итерационного цикла, и процесс закончился. Остается только показать, что алгоритм конечен. Это, однако, немедленно следует из конечности алгоритма симплекс- метода для задач линейного программирования [1], так как, согласно описанию предыдущего раздела, этот алгоритм есть в точности симплекс-метод, примененный к задаче линейного программирования (6,7). Каким бы из вышеуказанных способов а) или б) ни были описаны множества столбцов Ti, они будут содержать конечное число элементов, и доказательство завершено. Л ИТЕРАТУРА 1. D а п t Z i g G. В., О г d e n A.. Wolfe Ph., The Generalized Simplex Method for Minimizing a Linear Form under Linear Inequality Constraints, Pacific J. Math., 5 (1955), 183—195. 2. D a n t z i g G. В., W о 1 f e Ph., Decomposition Principle for Linear Programs, Opns. Res., 8 (1960), 101—111. См. также: Данциг Дж., Вольф Ф., Алгоритм разложения для задач лине11Ного программирования, Математика, 8:1, (1964). 3. d'E р е п о U X F., Sur un Probleme de Production et de Stockage dans L'Aleatoire, Revue Frangaise de Recherche Operationnelle (Societe Fran- gaise de Recherche Operationnelle), I960, 3—16. 4. Howard R. A., Dynamic Programming and Markov Processes, published jointly by Technology Press of Massachusetts Institute of Technology and Wiley, New York, 1960. Имеется русский перевод: Ховард P. А., Динамическое программирование и марковские процессы, «Советское радио», М., 1964. 5. М а п п е А. S., Linear Programming and Sequential Decisions, Management Sci., 6 (1960), 259—267. 6. Oliver R. M., A Linear Programming Formulation of Some Markov Decision Processes, presented at a meeting of The Institute of Management Scierfces, Monterey, April 1960,
Управляемые полумарковские процессы^) в. с. Дэюевелл Ч асть I ПОСТАНОВКА ЗАДАЧИ МОДЕЛИ С КОНЕЧНЫМ ВРЕМЕНЕМ ФУНКЦИОНИРОВАНИЯ Частным случаем динамического программирования является модель управляемой марковской цепи, которая изучалась Беллманом, Блэкуэллом, д'Эпено, Дерманом, Ховардом, Манне, Оливером, Вольфом, Данцигом и др. В настоящей статье их результаты и алгоритмы решения распространяются на управляемые полумарковские процессы, т. е. такие процессы, в которых интервалы между переходами системы из состояния i в состояние 7 являются независимыми реализациями случайной величины, распределение которой может зависеть как от t, так и от /. Для таких процессов постулируются общая структура доходов и некоторый механизм управления; задача состоит в принятии при каждом переходе управления таким образом, чтобы полный ожидаемый доход к концу запланированного периода времени функционирования системы был максимальным. Статья состоит из двух частей. В ч. I описываются свойства полумарковских процессов, структура дохода и механизм управления. Представлены алгоритмы решения для моделей с конечным временем функционирования и для моделей с бесконечным временем функционирования с переоценкой. В ч. II исследуются модели с бесконечным временем функционирования. Здесь становится необходимым рассматривать только такие однородные стратегии, которые максимизируют главный член в выражении для дохода. Важно уточнить характер предельного перехода в эксперименте: (i) без переоценки при числе переходов ai->co, (И) без переоценки при времени функционирования / -> со или (iii) с переоценкой при бесконечном п или /, когда коэффициент переоценки а->0. В каждом случае приводится асимптотическая формула для полного ожидаемого дохода и строится алгоритм, максимизирующий прибыль, — скорость роста дохода. Задача нахождения оптимальных или почти оптимальных стратегий в случае, если отказаться от предельного перехода^ остается до сих пор неразрешимой с вычислительной точки зрения. Указывается возможность распространения на неэргодические процессы и приводятся окончательные .результаты для процесса с двумя состояниями. Наконец, чтобы проиллюстрировать общность модели и конкретные задачи, которые могут возникнуть, приводится пример профилактического обслуживания и ремонта оборудования. Важным частным случаем динамического программирования являются марковские управляемые процессы, впервые сфор-* ^) Jewell W. S., Markov — Renewal Programming I, II, Operations Research, U, № 6 (1963), 938—971. (Статья разбита на две части. В подлиннике каждой части предпосланы свои аннотации и введения, во многом дублирующие друг друга. При переводе повторяющиеся моменты были опущены, а обе аннотации объединены в одну, помещенную в начале статьи. — Прим. перев.) 7 Зак. 477
в. с. Джевелл мулированные Беллманом [2, 3], широко развитые Ховардом [10] и в дальнейшем анализировавшиеся Оливером [16], Манне [15], д'Эпено [8], Блэкуэллом [6], Вольфом и Данцигом [23], Дерма- ном [9] и др. ^). В этой модели система совершает «марковские» переходы из одного состояния в другое, принадлежащие конечному множеству состояний, причем каждый переход приносит некоторый доход. Управление на каждом шаге выбирается среди конечного числа допустимых управлений; эти управления влияют как на вероятности переходов, так и на доходы, получаемые в момент выхода из настоящего состояния. Задача состоит в определении управлений, которые следует принимать в каждом состоянии (марковской стратегии) 2), минимизирующей полный ожидаемый доход к концу эксперимента. Следующие случаи формулируются Ховардом [10]: I. Марковские цепи с дискретным временем. Д. Конечное число переходов. B. Бесконечное число переходов. C. Оба эти случая повторяются с учетом переоценки. II. Марковские цепи с непрерывным временем. A. Конечное запланированное время функционирования. B. Бесконечное запланированное время функциониро-» вания. C. Оба эти случая повторяются с учетом переоценки. Все модели с конечным временем функционирования выра-^ жаются в терминах обычных рекуррентных соотношений дина-^ мического программирования [2, 4], методы решения которых хорошо известны. Вклад Ховарда состоял в развитии простых, конечных, итерационных методов определения оптимальных однородных стратегий для случаев бесконечного времени функционирования; так как полный доход неограничен в случае систем с неограниченным временем функционирования без переоценки, то целью управления системой в этом случае становится максимизация дохода в единицу времени (прибыли). Блэкуэлл [6] построил подобный алгоритм для максимизации дохода при исчезающем коэффициенте переоценки и доказал, что среди оптимальных стратегий существует однородная. Целью настоящей статьи является обобщение всех вышеуказанных моделей и алгоритмов для марковских управляемых процессов на широкий класс динамических моделей, в которых для описания поведения системы используются полумарковские ^) Смц также работу Вискова и Ширяева [25].—- Прим. перев. 2) В подлиннике — «policy», который всюду переводится как «стратегия», причем рассматриваются только марковские стратегии. — Прим. перев.
Управляемые полумарковские процессы 99 процессы. Важное обобщение, обеспечиваемое этими процессами, состоит в том, что время, проведенное системой между переходами, может быть случайной величиной. В результате полумарковские управляемые процессы, как будет видно, охватывают широкий круг важных задач исследования операций без значительного усложнения вычисления оптимальных стратегий. Статья делится на две части. В ч. I будут описаны свойства полумарковских процессов, структура доходов и механизм принятия управлений. В первую очередь анализируются модели с конечным числом переходов и с конечным временем функционирования как с переоценкой, так и без нее. Далее проводится исследование задач с переоценкой при бесконечном времени функционирования, сопровождаемое некоторыми замечаниями о трудностях изучения модели с бесконечным временем функционирования без переоценки. В ч. II подробно исследуются модели с бесконечным временем функционирования и приводится пример. Близкие работы После того как был написан первый вариант [12] настояш.ей статьи, две родственные работы привлекли внимание автора. В неопубликованном отчете [21] Массачусетсского технологического института П. Швейцер исследовал квантованный вариант модели с бесконечным временем функционирования без переоценки, который рассматривается в ч. II настоящей статьи. Представляет интерес предложенный Швейцером альтернативный критерий проверки. Во второй близкой работе Дж. С. де Кани [7] из Пенсильванского университета исследовал варианты задачи с бесконечным временем функционирования с переоценкой и без нее методом вложенных цепей Маркова. Рассматриваемый им процесс является частным случаем полумарковского процесса, в котором распределение интервала между переходами зависит только от того состояния, из которого переход начинается. Полумарковские процессы Марковские процессы восстановления и связанные с ними полумарковские процессы впервые были изучены независимо друг от друга Леви, Смитом и Такачем в 1954 г. В работах [17] и [18] Пайк резюмировал последние результаты в этой области, внес собственный вклад и привел исчерпывающий список 7*
100 в. с. Джевелл литературы. Другие частные результаты содержатся в работах [19], [20] и [1]. Грубо говоря, полумарковские процессы являются обобщением марковских цепей как с дискретным, так и с непрерывным временем, в которых время между переходами системы из состояния i в состояние / является случайной величиной с распределением, зависящим как от i, так и от /. Мы будем рассматривать полумарковские процессы только с конечным числом состояний [18], обозначаемых некоторыми целыми положительными числами i (i=l, 2, ..., Л^). Отдельная реализация полумарковского процесса состоит из начального целого положительного числа lo, за которым следуют пары случайных переменных, одна из которых является целым числом, а другая — неотрицательной переменной т, а именно Целое число k представляет собой начальное состояние системы в нулевой момент времени; оно может быть задано однозначно или определено согласно некоторому начальному распределению. Последовательность целых чисел ii, I2, h, • • • представляет следующие одно за другим состояния системы, когда она совершает переходы между допустимыми состояниями на шагах 1, 2, 3, ... . Эти целые числа образуют марковский процесс, так что условное распределение вероятностей Pij = P{h^i=J\h=-i] (^ = 0, 1,2, ...;/, у =1,2, ...,iV) (1) содержит всю информацию, необходимую для образования последовательности состояний системы, как только ip становится известным [13]. Последовательность неотрицательных переменных представляет собой интервалы времени между последовательными переходами из одного состояния в другое. Таким образом, переходный интервал т(1*^, iu+i) является промежутком времени между моментом попадания системы в состояние iu на к-ц шаге и моментом попадания в состояние ih+i при следующем переходе. Вообще говоря, нет необходимости описывать состояние системы между этими моментами переходов; однако для удобства можно говорить, что система находится в состоянии i, готовясь перейти в состояние /. В полумарковских процессах этот переходный интервал определяется стационарной функцией распределения F^^{t) = P[x{i, j)^t} (/>0; /, у=1, 2, ..., N), (2)
Управляемые полу марковские процессы 101 Моменты этого распределения будут обозначаться через vH = M{[t(/, J)Y] {п = 0, 1, 2, ...); индекс (1) сверху для среднего значения переходного интервала опускается. Предполагается, что F^i(0)=0 для всех/,/, так что О < v^.'^} < со для всех п. Можно считать также, что будущее состояние и переходный интервал определяются совместно с помощью двумерного распределения Qij{t)=Pijf,jit). Полный анализ полумарковских процессов можно найти в работах [1, 17—20]. Структура дохода Теперь мы опишем структуру дохода, которая будет предполагаться для системы. Если система находится в состоянии / и готовится совершить переход в состояние /, то доход накапливается в соответствии с произвольной функцией Rij{t\t), зависящей от I, /, x(iy j) и от времени t с момента начала переходного интервала [0-</-<t(i, /)]. Мы будем предполагать, что Rnj{0\x)=0, и будем обозначать полный доход к концу интервала через Rij{x\x)=Rij{i:). Доходы от последовательных переходов аддитивны. Особый интерес представляет частный случай линейного по-^ ведения дохода, когда задаются фиксированный доход Rij дол^ ларов за переход и интенсивность дохода rij долларов за еди« ницу времени, так что _fO (< = 0), ^'^^^^'^"^XRtj+njt [0</<т(/,у)]. ^3) Иногда фиксированный доход выплачивается в конце переход* ного интервала. Ожидаемый переоцененный доход за время перехода из состояния i в состояние / равен оо X Ри (а) = I df^j (t) j е-°^ d.Rij {X11), (4) О о где используется непрерывный коэффициент переоценки а. Средний одношаговый переоцененный доход при выходе из состояния / равен, таким образом, N рДа)= S АуР/Да)' (5)
102 В. С. Джевелл Механизм выбора управлений Остается описать процедуру, с помощью которой будет совершаться управление поведением системы. Предположим, что существует конечное число управлений 2=1, 2, ..., Z, допустимых в каждом состоянии системы. Тогда выбор некоторого управления влияет как на длительность переходного интервала и вероятность перехода в следующее состояние, так и на доход, который должен быть выплачен в течение этого интервала времени. Другими словами, существуют семейства функций распределения, а также зависящих от управлений функций дохода R^^ (^|t) для каждого 2=1, 2, ..., Z. Механизм управления системой состоит в выборе управлений z, которые должны использоваться в каждом состоянии системы (стратегии), возможно, зависящих также от оставшейся длительности эксперимента. Резюмируем поведение системы под влиянием данной стратегии: 1. Система попала в состояние i. 2. Среди всех допустимых управлений выбирается управление z{i)\ оно является функцией только текущего состояния системы i и, возможно, оставшейся длительности эксперимента. 3. С учетом управления z{i) выбирается следующее состояние / как случайная величина с условным распределением вероятностей P^ij^\ затем определяется время пребывания в состоянии i до перехода в следующее состояние T[i, /; z{i)] как случайная величина с функцией распределения Fti^l){t)- 4. Через время t после того, как система попадет в состояние 1, накопленный доход будет составлять f^i?^ [t 11 [/, у; z (/)]} (О < / < t [/, у; z (/)]) и суммируется с полным доходом. 5. Система попадает в состояние /, и процесс повторяется до тех пор, пока не закончится эксперимент. Основная задача, которая будет рассмотрена в настоящей статье, состоит в выборе для всех состояний i управлений z{i), которые максимизируют полный ожидаемый доход за время эксперимента. Как мы увидим, определение этой оптимальной стратегии будет зависеть решающим образом от того, используется переоценка или нет, или от того, каким путем определяются неко-
Управляемые полумарковские процессы 103 торые предельные эксперименты. В некоторых случаях общих результатов относительно оптимальной стратегии получить не удалось. Конечное число переходов, случай с переоценкой Прежде всего рассмотрим случай, когда эксперимент проводится в течение фиксированного числа переходов п. Следуя обычной процедуре динамического программирования [2, 4], определим для всех i и п (/=1, 2, ..., Л^; п = 0, 1, 2, ...)» Vi{n,a) как ожидаемый переоцененный доход, получаемый от процесса, начинающегося в состоянии i и использующего оптимальную стратегию z*{i, п) за п шагов. Согласно принципу оптимальности, выписываются рекуррент^ ные соотношения для всех i и для всех п= 1, 2, 3, ... V, (Аг, а) = max [pf (а) + Д /;^/^^ (а) Vj{n-h a)j , (6) где Vi{Oy а) являются граничными доходами или штрафами. В формуле (6) тильда используется для обозначения преобразования Лапласа — Стильтьеса функции Fij{t) или преобразования Лапласа от ее производной fij{t), если она существует: оо оэ hjis) = I е-^'dF^j (t) = I e-^'fij (t)dt. (7) 0 0 Этот сомножитель под знаком суммы появляется из-за не-^ обходимости переоценки дохода от az — 1 шагов на величину, которая зависит от т(1*, /). В дальнейшем для других преобразований будет использоваться подобное обозначение. В частном случае, когда функция дохода определяется формулой (3), и все интервалы имеют фиксированную длину т fij(a) =^""^=Р, соотношение (6) может быть переписано в виде y,(/z) = max[2/^fy{/?fy + rf^[(l-P)/(-lnp)]T + P^^ (8) для 1=1, 2, ..., Л^; п = 2, 3, ... . При соответствующем определении ожидаемого дохода за переход формула (8) будет, по-видимому, .эквивалентна соответствующей формуле для конечно- шагового марковского управляемого процесса с переоценкой,
104 В. С. Джевелл изучавшегося Ховардом [10] и Блэкуэллом [6]. В общем случае полумарковского процесса мы получаем более сложную зависимость от коэффициента переоценки, так как /f;(a) отражает влияние всей кривой распределения длительности перехода. Равенство (6) подсказывает простой метод вычисления оптИ'* мальной стратегии г*(/, п). Начиная с п=1, строят оптимальные стратегии и доходы для последовательно увеличивающихся п. Как указали Беллман и Дрейфус [4], вычисления усложняются не столько требованием запоминания последовательностей {Vi{n, а)} и {2:*(i, п)}, сколько необходимостью запоминания 3Z матриц [Plj]y [Pf(a)] и [ffyCa)], 2Z из которых имеют размерность N^. Две последние группы матриц должны пересчитывать- ся при каждом изменении коэффициента переоценки. Благодаря наличию переоценки, последовательность ожидаемых доходов {Vi{n, а)} приближается к конечному пределу, когда п неограниченно возрастает для всех а>0. Поведение последовательности оптимальных управлений {z*{i, п)} не очевидно; мы вернемся к этому вопросу в следующем разделе. Конечное время функционирования, случай с переоценкой Так как переходы в полумарковском процессе происходят в случайные моменты времени, допускается другая возможность проведения эксперимента — функционирование системы в течение фиксированного промежутка времени t. Например, в некоторых динамических задачах, по-видимому, более правдоподобно рассматривать фиксированный интервал времени функционирования, чем фиксированное число переходов. Оптимальная стратегия z*{i, t) зависит при этом от длительности оставшегося времени эксперимента. Управления по-прежнему выбираются только в моменты переходов, однако теперь возможно прекратить эксперимент посреди некоторого интервала перехода. Определим для />0 и всех i Vi{t, а) как ожидаемый переоцененный доход, полученный от процесса, который продолжается в течение t единиц времени при условии, что он начался в состоянии i и использовалась оптимальная стратегия г*((, if). Пусть 5fy(/, т) обозначает граничный доход, получаемый в конце эксперимента, когда переход из состояния i в состояние / длительности т прерывается в некоторый момент времени /:^т после начала перехода.
Управляемые полумарковские процессы 105 Мгновенный обрыв процесса, использующего данную стратегию, может произойти двумя способами: либо система не выходит из начального состояния в течение интервала наблюдения (О, /] (т. е. т>/), либо ока совершает переход в некоторое состояние / в момент т (0<т-^/). С помощью простых рассуждений теории восстановления для ожидаемого переоцененного дохода получим соотношение t Lo J + ldF,j{x)\ je-^-d,Rtj{x\x) + -\-e-^'^Vj{t — x, a) N Vc{t, a)= 2]A; y=i L.0 (9) для />0 и всех i. Так как переходные интервалы нулевой длительности невозможны, то правая часть соотношения (9) содержит только прошлую траекторию поведения дохода Vj{x) {0<xKt). Таким образом, для того чтобы выписать рекуррентное соотношение для ожидаемого переоцененного дохода, когда применяется оптимальная стратегия, можно воспользоваться принципом оптимальности Vi{t, a)==maxl af.(a, /) + . [ - N г t -|^ +'S^y J e-'vj{t-x, o)dF\,{x) (10) y-i Lo JJ для />0 и всех t, где ЛГ [ oo j- X -j 1 + S ^o 1 ^^'^- W ^""'*^^^- (^' ^^-\ ^""' ^-^-^^^ (-^ I ■^) • (И) j-i \t L t A) Очевидно, lim o^(a, t) = {y'.{a). /->oo к сожалению, не существует общего способа точного решения уравнения (10). Имеются лишь различные методы после-
106 в. с. Джевелл довательных приближений в пространствах доходов и стратегий [2, 4], которые могут привести к ответу; действительно, если воспользоваться ЦВМ, то можно непосредственно перейти к дискретной аппроксимации непрерывной переменной времени. Полагая /=М (й=1, 2, 3, ...), получим для всех i приближенное выражение г N k Vl{k^, a)=:max а^(а, kA)-{-^/f^j^ e-''^^Vj[{k — l)A, a] X хИу(/Д)-/^!у(/А-А)]}, (12) которое может быть выведено обычным рекуррентным способом. Ошибки округления и аппроксимации ограничивают выбор малой переменной Д, однако использование более точных квадратурных способов обычно приводит к достаточно аккуратным результатам [4]. Смешанная задача Смешанная задача представляет интерес, когда эксперимент заканчивается в конце ближайшего до момента t переходного интервала. Тогда граничный доход, используемый в (11), со^ стоит из оставшегося дохода от будущего переходного интерн вала плюс некоторый граничный доход типа, рассматриваемого в формуле (6). Таким образом, X e-'^'Sbit, t)= J e-"^flr^/?b(A;|t)+e-"V;(0, a), t a вместо соотношения (11) можно воспользоваться равенством N со а^(а, <)= pf (а)+ ^P'ijVjiO. а) J ^~"V/^fy(t). (13) /-1 ^ Можно сформулировать также более сложные смешанные задачи. = Модели с переоценкой при бесконечном числе переходов или бесконечном времени функционирования Должно быть ясно, что оптимальные стратегии, выведенные П,ля конечного времени функционирования, не обязаны обнару^ живать сходства с оптимальными стратегиями для задач с фик-* сированным числом переходов, за исключением, возможно, пре-
Управляемые полумарковские процессы 107 дельного случая, когда существует однородная оптимальная стратегия. Как раз этот вопрос рассматривается в настоящем разделе. Нетрудно проверить, что для всех а>0 ожидаемые доходы Vi(n, а) и Vi{t, а) в формулах (6) и (10) остаются конечными, когда п или t неограниченно возрастают, так как для всех 5>0 и для всех стратегий элементы матрицы q{s) =[pijfij{s)] принадлежат интервалу [О, 1]. Предельная форма выражения (6) при п-->оо имеет вид Ь,{а)= lim V,{n. a) = max{p^(a)+ 2/7f/f,.(a)by(a)| (14) для всех i. Из преобразования Лапласа выражения (10) и хорошо известной теоремы теории преобразований lim V{t)<^ lim [51/(5)] Предельная форма для бесконечного времени функционирования также выражается с помощью формулы (14), если положить \)Да)= lim Vi{t, а) и воспользоваться фактом, что lim а;(а, /)== /->оо /->оо = рДа). Рассмотрим теперь только однородные стратегии, т. е. такие стратегии, которые не зависят от числа шагов (или времени) как с момента начала эксперимента, так и до его окончания. Отсюда следует, что доход от любой однородной стратегии в (14) должен удовлетворять системе уравнений N Ь, (а) = р, (а) + 2 Piifij (а) Ь; (а) (/=1,2,..., Л^), (15) где для простоты зависимость от стратегии опускается. Другими словами, следуя оптимальной однородной стратегии в п-шаго- вой или /-временной формулировке, для процесса, отправляющегося из состояния iy получаем одни и те же однородные стратегии и одинаковые предельные значения для полного ожидаемого переоцененного дохода. Теперь мы представим алгоритм, подобный итерационному методу в пространстве стратегий Ховарда [4, 6, 10] нахождения оптимальной однородной стратегии для управляемого полумарковского процесса с бесконечным временем функционирования и переоценкой. Блок-схема алгоритма показана на рис. 1. В основном алгоритм состоит из определения с помощью системы (15) набора ожидаемых доходов при некоторой стратегии; затем эти' доходы используются для выбора лучшего управления в каждом состоянии. Если две последовательно найденных
108 В. С. Джевелл Задана исходная стратегия или Задан набор исходных доходов Используя величины pip fij (а) и р/ (а) для текущей стратегии, решить систему уравнений N ^i (а) = Pi (а) + 2 PijfiJ («) ^J («) (^ = 1, 2, ..., ЛГ) /«1 относительно ожидаемых доходов bi (а) Используя полученные доходы bi (а), найти для каждого состояния / управление г (i), которое максимизирует выражение N 7 = 1 Сделать z (/) новым управлением в состоянии /. (Если улучшения в значении критерия по отношению к предыдущему циклу не происходит, сохранить то же самое управление.) Повторить для всех состояний / = 1, 2, ,.., N, Если новая стратегия совпадает с полученной на предыдущем шаге В противном случае продолжать Останов Рис. 1. Блок-схема алгоритма определения оптимальной стратегии для полумарковского процесса с переоценкой и бесконечным временем функционирования. стратегии тождественны, то итерации заканчиваются и найденная стратегия является оптимальной однородной стратегией с максимальными ожидаемыми переоцененными доходами. Для доказательства сходимости этого алгоритма нужно показать, что: a) всегда можно решить систему уравнений; b) при каждой итерации на стадии определения стратегии ожидаемый доход строго возрастает по крайней мере в одном состоянии, если произошло улучшение в значении критерия, которое привело к изменению стратегии; c) если две последовательные стратегии совпадают, то алгоритм сошелся к оптимальной стратегии в том
Управляемые полумарковские процессы 109 смысле, что не существует другой стратегии, которая может привести к более высокому значению ожидаемого дохода для какого-нибудь состояния г, d) алгоритм заканчивается за конечное число циклов. Доказательство пункта а) следует из того факта, что все элементы матрицы q{a) принадлежат интервалу [О, 1) для всех а>0, в то время как для доказательства Ь) необходимо дополнительное замечание о том, что диагональные элементы матрицы [/ — q{o^)]~^ по крайней мере не меньше единицы. Полное доказательство свойств этого алгоритма точно эквивалентно доказательству Ховарда для марковского управляемого процесса, и читатель отсылается к работе [10, гл. 7] за дальнейшими деталями. Тот факт, что существует только конечное число стратегий, гарантирует сходимость за конечное число циклов. Известны также некоторые специальные алгоритмы линейного программирования нахождения оптимальной однородной стратегии для марковского управляемого процесса [8, 9, 15, 16, 23], которые с равным успехом применяются для рассматриваемых задач. Основная идея состоит в построении неизвестной выпуклой комбинации всех стратегий; тогда можно показать, что оптимальным решением будет чистая стратегия. Важно заметить, что прямой перебор всех однородных стратегий обычно невозможен, так как их число равно Z^. Оптимальная стратегия в модели с переоценкой Можно вывести несколько более строгий результат, чем полученный в предыдущем разделе. Именно, среди всех оптимальных стратегий для модели с переоценкой и бесконечным числом переходов или бесконечным временем функционирования существует оптимальная однородная стратегия. Это действительно важный факт, так как следовать неоднородной стратегии иногда бывает трудно. Наше доказательство полностью аналогично доказательству Блэкуэлла [6] для марковского управляемого процесса с переоценкой; этапы доказательства приведены в работе [12]. Таким образом, алгоритм, представленный на рис. 1, позволяет получить однородную оптимальную стратегию, которая так же хороша, как любая оптимальная неоднородная стратегия. Задача с конечным временем функционирования без переоценки Если коэффициент переоценки а приближается к нулю в процессе с конечным временем функционирования или с конечным числом переходов, то, как видно из формул (6) и (10) или (12), никаких особенных трудностей не возникает.
по в. с. Джевелл Для процесса с конечным числом переходов при п= 1, 2, 3, ... и всех / справедливо соотношение V,{n)^max\(f,-\- Iilf,jVj{n-\)], (16) где Vi{n) = lim Vi{ny а) и N оо у=1 о которое может быть решено с помощью итераций по п. В процессе с конечным временем функционирования для ^>0 и всех i справедливо соотношение ^И0=П1ах af(0+ S/^fJ^y(^-t)^/^f;(T)L (18) где Vi{t)= limVi{t, a) и a->0 N ( oo j ^?(0 = p?+S^b- J^^'^(^)f^'/(^' t)~;?fy(^)+^fy(^h)]Mi9) которое может быть решено путем разностной аппроксимации, так же как и (12). Часть II МОДЕЛИ С БЕСКОНЕЧНЫМ ВРЕМЕНЕМ ФУНКЦИОНИРОВАНИЯ. ПРИМЕР Модели с бесконечным доходом; подход Когда запланированная длительность функционирования в (16) и (18) увеличивается или когда коэффициент переоценки в (14) неограниченно убывает, ожидаемые доходы бесконечно возрастают, и становится неясным, какую цель преследовать при оптимизации системы. Существуют три различные цели, которые могут быть сформулированы в «бесконечном» случае: 1. Попытаться найти в (16) стратегию, которая будет оптимальной для всех достаточно больших п. 2. Попытаться найти в (18) стратегию, которая будет оптимальной для всех достаточно больших /. 3. Попытаться найти в (14) стратегию, которая будет оптИ' мальной для всех достаточно близких к нулю а.
Управляемые полумарковские процессы 111 К сожалению, априори не существует никаких оснований предполагать, что стратегии, которые могут быть найдены с помощью этих трех подходов, будут каким-либо образом похожи одна на другую. Из исследования случая (3) Блэкуэллом [6] для марковских управляемых процессов известно, что, когда коэффициент переоценки становится бесконечно малым, могут появиться как оптимальные, так и почти оптимальные стратегии. Он показал также, что с вычислительной точки зрения очень трудно найти все оптимальные или почти оптимальные стратегии. На1&нец, когда коэффициент переоценки неограниченно убывает, более важной для определения свойств предельных результатов становится структура вложенной марковской цепи, и этот факт нужно принимать во внимание. Чтобы частично обойти некоторые из этих трудностей, при исследовании предельных случаев в последующих разделах будут наложены следующие дополнительные ограничения: 1. Будут изучаться только однородные стратегии. 2. Будет предполагаться, что полумарковский процесс имеет единственную, конечную, вложенную марковскую цепь, которая является эргодической (неразложимой и положительно-возвратной) для любой стратегии. 3. Все средние Vij = M[T(i, /)] предполагаются конечными. Эти предположения не слишком стеснительны для решения конкретных задач, так как если запланирована длительная работа, то желательны однородные стратегии, во-первых, потому, что они вносят устойчивость и, во-вторых, из-за легкости модификаций, если изменяются входные данных. Исключение переходных и поглощающих состояний или нескольких эргодических классов не ограничительно, так как для этих случаев может быть получено специальное обобщение. Предположение о конечности числа состояний и числа управлений очень важно и не может быть устранено. Подход, который будет применяться при оптимизации зад§ч с бесконечным доходом, состоит в том, чтобы показать, что оптимальные доходы имеют следующие предельные формулы: (i) Vi{n)^On+Wt {п^оо), (1) (И) Mi)^gt + Щ (/^оо), (2) (Ш) ^{(^)^Ф + Щ (а-^0). (3) Затем будут получены алгоритмы для нахождения однородных стратегий, которые максимизируют прибыль G или нормы прибыли', g и д. Мы выведем также точные формулы для констант
112 В. С. Джевелл наклона U^/, Wi и П)^, так что от предельного перехода можно отказаться. Задача нахождения почти оптимальных стратегий без предельного перехода будет обсуждаться в последующих разделах. Затем будут рассмотрены различия между этими предельными стратегиями и наконец будет дано описание распространения теории на неэргодические структуры и проведено сравнение с некоторыми предыдущими результатами. Статья заканчивается подробными формулами для процесса с двумя состояниями и примером о профилактике и ремонте оборудования. Бесконечное число переходов, модель без переоценки Согласно ч. I, выражение для ожидаемого дохода за п переходов от процесса, отправлявшегося в начальный момент из состояния i, при использовании оптимальной стратегии имеет вид l^,(Ai) = max{pf+ S/fyl^y(^-l)} {1Л6У) для п=1, 2, ... и всех /, причем N оо ; = 1 О и Rhi'^) = Rh (< = t|T). Допустим, что вложенная марковская цепь эргодична и что мы придерживаемся однородной стратегии. Тогда из дополнения А следует, что, когда п неограниченно возрастает, VM^On+Wr, Г, = - О + S zijpj + Vi (0) (А. 5) для всех L Величина G (прибыль системы) определяется выражением 0=2л,р„ (А. 6) где П{ являются стационарными вероятностями вложенной марковской цепи. Коэффициенты Zij^) определяются из хорошо из- ^) В дальнейших ссылках формулы из ч. I будут отмечаться цифрой 1, например (I. 16). — Прим. перев. 2) Здесь элементы фундаментальной матрицы обозначаются той же буквой, что и управления; не следует их путать. — Прим. перев.
Управляемые полу марковские процессы 113 вестной обратной матрицы Z = (I-P + nr\ (А. 7) где элементами матрицы П являются Ylij = nj, а элементами Р — переходные вepoятнoJCти рц. Теперь мы рассмотрим алгоритм, который позволяет для модели без переоценки и с бесконечным числом переходов находить оптимальную однородную стратегию в том смысле, что эта стратегия будет иметь прибыль G, которая по крайней мере не меньше, чем прибыль, полученная для любой другой стратегии. Задана исходная стратегия или Используя величины pij и р/ для текущей стратегии, решить систему уравнений N Vi + 0^9l+^ PijVj (^ - 1, 2, ..., N) относительно прибыли G и относительных весов V., положив Vj^ равным нулю Задан набор исходных доходов Используя полученные относительные веса V/, найти для каждого состояния / управление z (i), которое максимизирует выражение ;-1 ;w- Положить новое управление в состоянии t равным Z (/). (Если значение критерия не увеличивается по сравнению с предыдущим циклом, оставить старое управление.) Повторить для всех состояний / = 1, 2, ..., //. Если новая стратегия совпадает с предыдущей В противном случае продолжать Останов Рис. 1. Блок-схема алгоритма определения оптимальной однородной стратегии для управляемого полумарковского процесса без переоценки и с бесконечным числом переходов. Этот алгоритм похож на алгоритм, представленный на рис. 1 из части I и на соответствующий алгоритм для управляемых марковских процессов из гл. 4 работы [10]. Он представлен на рис. 1. 8 Зак. 477
114 В. С. Джевелл Нет необходимости вычислять константы Wi на каждом шаге алгоритма. Подставляя асимптотическое выражение (А.5) в (I. 16), мы получим l^^ + G = P^+2>^/W^y (4) У-1 для всех /. Эта система из N уравнений содержит N+1 неизвестных G и Wi. Таким образом, как установлено Ховардом, система уравнений (4) дает возможность определять только относительные значения констант Wi. Эти числа называются относительными весами стратегии и обозначаются через Vi. На практике обычно одно из них, скажем Fjv, полагают равным нулю и затем решают систему (4), которая становится теперь полностью определенной. Для /= 1, 2, ..., N — 1 и ^" ■ (5) N-1 Преимуш.еством системы (5) является то, что она значительно проще для вычислений на каждом шаге алгоритма, чем, скажем, нахождение сначала П, затем Z и, наконец, значения критериев. Правая часть системы (5) используется в качестве величины критерия для улучшения стратегии в алгоритме, представленном на рис. 1. Эта процедура полностью аналогична процедуре из гл. 4 работы [10], за исключением того, что непосредственно ожидаемый доход р^ здесь задается формулой (I. 17), которая отличается благодаря свойствам полумарковского процесса. Замечания, которые были сделаны в связи с рис. 1 части I, остаются неизменными: процедура определения стратегии строго увеличивает прибыль G; алгоритм заканчивается на оптимальной стратегии, когда две последовательные стратегии совпадут, и т. д. Доказательство элементарно, и его можно найти в указанной выше работе. Когда алгоритм закончится, будут найдены оптимальная однородная стратегия г*(1), а также максимальная прибыль G* и относительные веса Vi. Теперь можно вычислить стационарные вероятности и фундаментальную матрицу и отсюда определить полный оптимальный доход в виде V]in)« Q*n-0*-\- V;-\-V^{0) + S z-^jpj (6) для всех i.
Управляемые полумарковские процессы 115 Бесконечное время, модель без переоценки Существование тесной связи между моделями с бесконечным временем функционирования и с бесконечным числом переходов в случае с переоценкой позволяет надеяться получить ее также и для моделей без переоценки. Однако один из наших принципиальных результатов состоит в том, что это неверно — стратегия, полученная для такой модели, может отличаться от стратегии из предыдущего раздела. Согласно ч. I, выражение для ожидаемого дохода, получаемого от процесса, отправляющегося из состояния /, в течение t единиц времени, при использовании оптимальной стратегии имеет вид N t ^%t)+'^ff,^jvj{t-x)dFbi^) (1Л8) Vi{t) = max для / > О и всех /, причем N ( оо I (1.19) Вспомним предположения вводного раздела и допустим, что мы придерживаемся некоторой однородной стратегии. Тогда, согласно дополнению В, при неограниченно возрастающем t для всех /. Норма прибыли системы g определяется равенством N N g=li^9i И^кЪ^ (В.7) /=1 ' /j «= 1 где Л; являются стационарными вероятностями вложенной мар- N ковской цепи и v^= ^Pii^a- Коэффициенты |i^. и \\f?] являются соответственно первым и вторым моментами распределения времена первого перехода полумарковского процесса; формулы (С. 8) и (С. 9) дополнения С позволяют вычислить эти моменты. Константа т]у является 8*
116 в. с. Джевелл площадью под кривой pj — Oj{t), которая может быть записана в виде N со I со ^У = SPjk] dt J dFj„ (т) I d,Rf^(a:I T) -5^, {i, x) /5-1 0 (7) В частном случае, когда граничный доход является постоянным Sjk{t, x) = Sj^ для всех ^ и т и когда доход имеет линейную форму (О (^ = 0), Rij{t\x) = lR'tj^r,ji [0<t<x{I, j)], (8) можно показать, что эта константа представима в виде /5-1 (9) где v(2] = M{[T(/, ])f]. В смешанном случае, рассмотренном в ч. I, из (1.13) имеем N 1 k-l Л; = — 'iiPjk^jkVkiO)- (10) Рассмотрим теперь алгоритм, который позволяет найти оптимальную однородную стратегию для модели с бесконечным временем функционирования без переоценки в том смысле, что эта стратегия будет обеспечивать норму прибыли g, по крайней мере не меньшую, чем для любой другой стратегии. Подставляя асимптотическую форму (В. 6) в (1.18), получим для всех / N ^/ = Р/ + S Pij I— S^ij + ^j] + iN г оо y-i L t (11) причем I^ij{t) = l—Fij{t). Для больших t член в фигурных скобках становится бесконечно малым, согласно предположе-
Управляемые полумарковские процессы 117 нию О конечности v^j, и мы получаем следующую систему уравнений с Л^+^1 неизвестными g и Wt: N ^/ + g^v^ = p^+ ^PijWj (12) для /«==1, 2, ..., N. Сравнение этого соотношения с соответствующим соотношением (4) для случая бесконечного числа переходов показывает, что они совпадают, за исключением коэффициента при норме прибыли g. Таким образом, за исключением того случая, когда все Vi равны, решение системы (12) не будет, вообще говоря, совпадать с решением системы (4). Более того, из наших предыдущих замечаний о форме уравнений (12) мы знаем, что они не могут быть использованы для получения абсолютных значений w^ задаваемых формулой (В.6), а с их помощью могут быть найдены только их относительные значения Vi = Wi — Wnj полученные путем приравнивания Л^-й переменной нулю. Для нахождения относительных весов стратегии Vi используется следующая модифицированная система уравнений. Для /= 1, 2, . v., Л^ — 1 'Z^/ + g'V/ = p/+ ^Plj'Vp (13) Алгоритм для определения однородной оптимальной стратегии показан на рис. 2. По своей структуре он в основном совпадает с алгоритмом последовательных приближений в пространстве стратегий из предыдущего раздела. Относительные веса и норма прибыли, полученные в предыдущем цикле, используются для нахождения с помощью некоторого критерия новой стратегии с большим значением нормы прибыли. Найденная стратегия используется при решении системы (13) относительно новых весов и нормы прибыли и т. д. Когда никаких изменений в стратегии не может произойти, алгоритм заканчивается. Вид критерия имеет одно новое свойство. Чтобы построить критерий, который имеет размерность нормы прибыли, каждое из уравнений (13) следует разделить на величину Vi (которая отлична от нуля и конечна). Это кажется логичным в связи с тем фактом, что алгоритм увеличивает g на каждом шаге. Другой критерий был предложен П. Швейцером (дополнение D). Доказательство остается элементарным и аналогично доказательству свойств предыдущего алгоритма. По существу, показы-
118 В. С. Джевелл Задана исходная стратегия Задан набор исходных доходов Используя величины /?/у, v/ и р/ для текущей стратегии, решить систему уравнений N ^i + g'^i = Р/ + 2 PU^J ('* = ^' 2 ^) относительно нормы прибыли g и относительных весов v^, положив v^ равным нулю. Используя полученные относительные веса vi найти для каждого состояния / управление z (/), которое максимизирует критерий Положить новое управление в состоянии / равным 2 (/). (Если улучшения в значении критерия по сравнению с цредыдущ,им циклом не происходит, сохранить старое управление). Повторить для всех состояний / = 1, 2 Л^. Если новая стратегия совпадает с полученной на предыдущем цикле. В противном случае продолжать. Останов Рис. 2. Блок-схема алгоритма определения однородной оптимальной стратегии для управляемого полумарковского процесса без переоценки с бесконечным временем функционирования и для управляемого полумарковского процесса с бесконечным временем функционирования или с бесконечным числом переходов при неограниченно убывающем коэффициенте переоценки. вается, что g^» >g-^i, если на некоторой итерации критерий, использующий относительные веса и норму прибыли стратегии г^ указывает на замену стратегией ^2. Когда алгоритм заканчивается, будут найдены оптимальная однородная стратегия 2:*(/), а также максимальная норма прибыли g"* и относительные веса V*. Здесь можно обычным способом вычислить стационарные вероятности Яг, а из уравнений (С.8), (С.9) или (СП) — величины [iij и [ijj ^- Тогда для всех / оптимальный ожидаемый
Управляемые полу марковские процессы 119 доход имеет вид Случай неограниченно убывающей переоценки Последний предельный случай, который должен быть рассмотрен, — это случай процесса с бесконечным числом переходов или с бесконечным временем функционирования, когда коэффициент переоценки а стремится к нулю. Таким образом, при а, стремяи;емся к нулю, мы находим для всех i предельную форму N b/(a) = p,(a)+ IiPijfij{a)bj{a\ (1.15) где N оо t Pi (а) = S P^J I ^^'^(^) I ^""" "^^^(J (-^ I ^)- (^•^) /«1 О о просмотр этапов, с которыми мы сталкиваемся при нахождении асимптотической формы преобразования (В.6), указывает на необходимую аналогию между (В.1) и (1.15). Легко показать, что когда а стремится к нулю, то для всех i b/(a)^gi/a + n)^, N t где N N \ = g=^^i9i/Ii^k^k^ (16) /el ' л»1 oo oo ^/ - S Pjk jdtj dFj, (T) J d^Rj, (XIT). (17) k = l Таким образом, несколько неожиданно, критерием оптимизации доходов снова будет норма прибыли <i=g. Соответствую- ш,ий алгоритм является повторением алгоритма, представленного на рис. 2, причем при решении соответствующих уравнений получаются даже те же самые относительные веса "Oi^Vi. Одно небольшое отличие в этом случае состоит в том, что доходы от
120 В. С. Джевелл окончания процесса не участвуют больше в вычислении точных значений Щ из-за различий между Я^ в (17) и r)j в (7). Однако это не влияет на оптимизацию. Различия между предельными случаями Вызывающим беспокойство свойством трех случ^аев с бес-- конечным доходом 1, 2 и 3 является то, что для них могут получаться различные оптимальные однородные стратегии. Как было видно в случае 1, алгоритм, представленный на рис. I, максимизировал прибыль на один переход G, определяемую соотношением (А.6), в то время как в случаях 2 и 3 алгоритм, представленный на рис. 2, максимизирует норму прибыли С(=Я» определяемую формулой (В.7). Разумным объяснением совпадения случаев 2 и 3 является то, что эксперимент с переоценкой можно интерпретировать как эксперимент, при котором для каждого интервала времени длины ^/существует вероятность adt попадания в поглощающее состояние, т. е. прекращения эксперимента. Таким образом, модель с бесконечным временем функционирования и переоценкой отражает скорее поведение процесса во времени, чем поведение последовательности его переходов. Различие между двумя первыми случаями происходит главным образом из-за различия в длительностях пребывания полумарковского процесса в различных состояниях между переходами. Если, к примеру, изменение стратегии удваивает длину переходного интервала между состояниями без изменения дохода на переход, то ясно, что доход, полученный в течение большого фиксированного интервала времени, должен приблизительно сократиться наполовину. Когда эти два эксперимента будут сходиться к одной и той же однородной стратегии? Из (А.6) и (В.7) следует, что достаточным условием для этого является независимость суммы SK/tV/i от всех возможных стратегий. Очевидно, это будет верно, если для кал<дой стратегии величины vij будут равны v для всех /, /. Это объясняет, почему такое различие не наблюдалось в предыдущих исследованиях: для марковских управляемых процессов G = gv независимо от рассматриваемой стратегии. Объединение моделей и алгоритмов На рис. 3 в графической форме объединены восемь возможных моделей управляемых полу марковских процессов, которые были исследованы в настоящей статье. Для задач с конечным числом переходов или конечным временем функционирования
Управляемые полумарковские процессы 121 оптимальные стратегии находятся обычными рекуррентными методами динамического программирования. Для задач с бесконечным временем функционирования и переоценкой оптимальная стратегия, которая будет однородной, может быть найдена с помощью итерационной процедуры, описанной в ч. I. Внутри Длительность Конечное число переходов п /7-*оо f-oo 1 Конечное время 1 сруннционироВания t Пере оцени а с«>0 ___ 1 Ренурреитный мет'од решения 1 ■ , — - -, , г, „■, ,1 - —- —1 Итерационный метод В пространстве стратегий \\Методитераций6 | \пространстве 1 \стратегий^) 1 \ max С 1 метод итераций 1 в пространстве 1 стратегий У 1 \/ maxg-tf 1 Ренурреитный метод решения после нВантования 1 1 У Только однородные стратегии Рис. 3. Объединенная блок-схема моделей управляемых полумарковских процессов и алгоритмов их решения. жирно очерченного прямоугольника полные доходы становятся бесконечными, и нужно определить однородную стратегию, которая максимизирует коэффициент при главном члене. Задачи с несколькими эргодическими классами и несущественными состояниями Результаты предыдущих разделов можно распространить на задачи, в которых вложенная марковская цепь имеет несколько эргодических классов или где некоторые состояния являются несущественными или поглощающими. Задача с несколькими эргодическими классами была подробно рассмотрена Ховардом [10]. Основные изменения в алгоритмах, представленных на рис. 1 и 2, состоят в определении прибылей и норм прибыли для каждого класса возвратных состояний. С помощью процедуры определения стратегии выбираются управления таким образом, чтобы максимизировать среднюю прибыль, достижимую из данного состояния. Если это не позволяет однозначно выбрать оптимальную стратегию, применяется, дополнительный критерий, использующий относительные
122 В. С. Джевелл веса. Следует подчеркнуть, что эта процедура не устраняет неоднозначности в выборе оптимальной стратегии, которая максимизирует прибыль внутри каждого класса, а только устраняет неоднозначность внутри алгоритма, который приводит к одной из этих стратегий (см. пояснения ниже). За дальнейшими подробностями читатель отсылается к работе [10]. Необходимые изменения для полумарковских управляемых процессов могут быть легко выведены. Если вложенная марковская цепь имеет несущественные состояния, то можно определить среднее число переходов до тех пор, пока система не перейдет из данного состояния в один из эргодических классов [13]. Средний доход, полученный по пути до поглощения эргодическим классом, является тогда, очевидно, суммой доходов от пройденных невозвратных состояний. Дальнейшие детали предоставляется рассмотреть читателю. Поглощающие состояния для наших целей могут рассматриваться как эргодические классы, состоящие из одного состояния. Подчеркнем снова, что специально рассматривать эти случаи поведения вложенной марковской цепи необходимо только для моделей с бесконечным доходом. Если имеет место переоценка доходов или длительность функционирования конечна, этих трудностей не возникает. Неоднозначность и почти оптимальные стратегии В каждом из трех случаев с бесконечным доходом может существовать несколько однородных оптимальных стратегий с максимальной прибылью или максимальной нормой прибыли. Блэкуэлл [6] подробно рассмотрел эту задачу для управляемых марковских процессов с бесконечно убывающей переоценкой. Он показал, что если алгоритм заканчивается на единственной стратегии z*, такой, что для всех других управлений в каждом состоянии значение критерия строго меньше, чем опти^ мальное значение критерия, то z* является оптимальной в том смысле, что не существует других стратегий, приводящих к большему значению переоцененного дохода ^г(а) для всех а, достаточно близких к нулю. Если с помощью этого алгоритма не может быть найдено истинной оптимальной стратегии, Блэкуэлл показывает, что могут существовать почти оптимальные стратегии, т. е. стратегии, доходы от которых сходятся к доходам от оптимальной стратегии при неограниченно убывающем а. Эти почти оптимальные стратегии являются как раз теми стратегиями, для которых как доходы (или нормы доходов), так и константы наклона Wu Wi и U)i, совпадают. Определение всех почти оптимальных стратегий
Управляемые полумарковские процессы 123 оказывается, вообще говоря, трудной задачей в случае, если существует неоднозначность, так как относительные веса Vu Vi и Ьг не достаточны для абсолютного сравнения. Таким образом, непосредственно вычислить почти оптимальные стратегии для задач реальных размеров, по-видимому, невозможно. Можно утверждать, что в реальной задаче, для которой две стратегии обладают одинаковой нормой прибыли, недостаточны или неточны исходные данные. Тем не менее задача однозначного определения оптимальной стратегии остается пока еще интересной и неразрешенной вычислительной проблемой. Предельные результаты Исследования настоящей работы легко могут быть сведены к предыдущим результатам по управляемым марковским процессам. В качестве примера применим результаты исследования задач с переоценкой и бесконечной продолжительностью (ч. I) к марковским процессам с непрерывным временем, исследованным в рдботе [10]. Для марковского процесса с непрерывным временем рц = 0 и p^j(^t)=\ — e^-^it для всех t, /, t^O и соответствующего конечного С0г>0. Тогда fij(a) =coi/(а+ сог) и N Р/И= S Pui-^^iJ + TT^/i} (18) для всех /, если пользоваться частным видом функции дохода — линейным доходом вида (8) с /?/;=0, Rij = Rij и rij = ri. Ожидаемый доход (I. 15) должен удовлетворять соотношению N N (а + со^)\)^(а) = г^ + (о^ 2 PijRij+^i 2 АЛИ (19) }ф1 ]ф1 для всех /. Полагая и ci^ii = — Щ для всех t=l, 2, ..., Л^, получим уравнение N N abi (а) = О + 2 ciijRij + 2 ciijbj (а), (20) ]'Ф1 которое по существу совпадает с уравнением (8.47) из работы [10].
124 В. С. Джевелл Процессы с двумя состояниями В качестве интересного частного случая приведем окончательные результаты для полумарковского управляемого процесса с двумя состояниями. Выразим прежде всего элементы матрицы вероятностей переходов через внедиагональные элементы: 1 ■Pi2 Pyi Ai 1 — Ргх (21) так что соответствующая вложенная марковская цепь будет эр- годической, если /7i2 и p2i больше нуля. Вектор стационарных вероятностей переходов для марковской цепи имеет вид ^ == (А2 + Ai)"^ \P2v Pvi\• (22) Воспользовавшись выражением (22) для вычисления фундаментальной матрицы, получим . , ._2 II А2 A2I (A2+Ai) Z-П: -P2l P21 (23) Подобным же образом вектор стационарных по времени вероятностей для полумарковского процесса имеет вид \-1 ^ = (Vl/'21+V2A2) {VlAl. V2 Аз}. Средние значения времени первого перехода равны "(ViAl —V2A2)//'21 VA2 ■ II V2/A1 (Vl/'2l4-V2A2)//'l2lr [М = (24) (25) тогда как диагональные члены матрицы вторых моментов времени первого перехода равны К? = l^f + 2Л2^Л1 + (ЛгМО (Ч'^ + 2/'22V22^^2l)^ ц(|) = v(2) + 2/;2,v,jfi,, -Н {p,,jp,,) (vf) 4- 2р,,^,М ^ ^ Предельное значение прибыли на один переход равно тогда О = (/?2iPi + Р1292ЖР21 + Pnl (27) в то время как относительные веса при бесконечном числе переходов равны V, = (Pi - P2)/(Ai + А2); V2 = 0. (28) Предельное значение нормы прибыли имеет вид g = 9 = {P2l9l + Pl2p2)li^lP2l + V2A2)» (29)
Управляемые полумарковские процессы 125 причем относительные веса при бесконечном времени фуйк- ционирования или неограниченно убывающей переоценке равны 'Vi = (V2P1 — ViP2)/(Vi/72i + V2/7i2); ^^2 = 0. (30) По этим точным формулам оптимальная стратегия может быть найдена непосредственным вычислением, если число управлений не слишком велико. Затем из относительных весов с помощью формул (6) или (14) либо (15) и (17) в каждом случае могут быть найдены точные постоянные члены. Пример В качестве иллюстрации рассмотрим задачу с двумя состояниями, описывающую работу некоторого устройства, которое может находиться в исправном состоянии (состояние 1) или в неисправном (состояние 2). Если устройство исправно, существуют две возможности для профилактического обслуживания: управление Л : /?i2 = 0; г^2 = ЮО долл./день; v^j = 4 дня; Pi2 = 1, управление В;. R^2 = О» ''12 = 84 долл./день; v^j = 5 дней; /7^2 = 1, причем используется линейная структура дохода вида (8) с f(\j'=zF(ij и 1^1 J = 0. Если устройство неисправно, имеются две возможности для проведения ремонта: управление Л : /?2i = 0; Г21 == —[65 долл./день; V2i = 4 дня; /72i = 1, управление В : R2i = — ЮО долл.; Г21 = — 200 долл./день; V2i = l день; /?2i = l. Управление В можно мыслить себе как приглашение рабочего по ремонту со стороны. Повышенная плата за приглашение со стороны и, следовательно, увеличение стоимости работы в день компенсируется более быстрым ремонтом. Процессы с конечным и бесконечным числом переходов без переоценки зависят от распределений полного времени между переходами лишь через их средние значения Vij. Путем непосредственных вычислений получаем алА ^ 70 долл., 0^^ = 50 долл., G^^ = 80 долл., О^^ = 60 долл., так что (В, Л) (дорогостоящие профилактические мероприятия, дешевые ремонтные работы) является оптимальной однородной стратегией при большом числе переходов. Она является также оптимальной и для всех значений п. На рис. 4 показаны в зависимости от п полные ожидаемые доходы для системы, стирав-
126 В. С. Джевелл ляющейся из состояний 1 или 2. Точные выражения имеют вид l/j(,t) = 80^+170+(—1)"''^170, V^(n) = 80n—\70 — {—l)'^^^l70. Если эти флуктуации усреднить, то последний член в каждом равенстве исчезнет, так что для предельной формы получим ^i>^2L $ fOOOY воо\ • Начиная из состояния / • Начиная из состояния 2 Рис. 4. Оптимальный ожидаемый доход в зависимости от числа оставшихся переходов в примере о профилактическом обслуживании и ремонте устройства. G = 80 долл., Wi=\7Q долл. и 1^2 = —170 долл. Эти значения можно проверить с помощью формулы (А.5). Из соотношения (5), конечно, будут получены только Vi = 340 долл. и 1^2 = 0. Для Броцессов с конечным и бесконечным временем функционирования без переоценки необходимо уточнить вид функций распределения времени между переходами. Допустим, что все они вырожденные с данными средними значениями. На рис. 5 жирными линиями для всех t обозначен получаемый доход, если
Управляемые полу марковские процессы 127 придерживаться оптимальной неоднородной стратегии. Сама оптимальная стратегия обозначается с помощью отрезков сплошных линий сверху и снизу кривых дохода. Заметим, что при 44 / = 19"yjg- оптимальное управление из состояния 2 стабилизи- fOm Оптимальная стратегия В состоянии i ^ /9 ^ /i/6' -^ Оптимальная у Qi^ QS^ I неоднородная V .ее долл стратегия , дн ] Оптимальная стратегия в состоянии 2 Рис. 5. Полные доходы в зависимости от оставшегося времени функционирования при оптимальной неоднородной стратегии и две эквивалентные с точки зрения нормы прибыли однородные стратегии для конечного времени в примере о профилактическом обслуживании и ремонте устройства. руется на управлении В, но кривые дохода и управление из состояния 1 не стабилизируются до ^=30. В этой точке оптимальная стратегия состоит в использовании либо Л, либо 5, и кривые дохода имеют вид для ^>30. Функции Ui{t) и U2{t) являются пилообразными кривыми с периодом единица и средним значением по времени, рав* ным нулю. Непосредственными вычислениями получим (в долл./день) g^^= 17,50; g^^ = 20,0; g^^^ = 17,77; g^^ = 20,0, так что однородными стратегиями, максимизирующими норму прибыли, являются либо (Л, В), либо (5,5), указывающие, что всегда следует пользоваться дорогостоящими ремонтными рабо^
128 В. С, Джевелл тами! Для сравнения на рис. 5 приведены также полные доходы в случае, когда все время используется однородная оптимальная стратегия. Для стратегии (Л, В) (пунктирная линия) t;i(0 = 20^+150+ri3(0» ^2(0 = 20^ — 170+^4(0» и для стратегии (Д, В) (штриховая линия) ^i(0 = 20^+15l| + %(0, для всех ^>0, где «з(0» "4(0» "5(0 и "б(0 все являются пилообразными кривыми с периодом пять для (Л, В) или шесть для aVf 35 30 25 20 i5 Ю 5 Случай I -Случай И ■ Случай Ш Ofti 0,02 0,03 0,0^ 0,05 0,06 0,07 ОДд Рис. 6. Нормированный ожидаемый переоцененный доход в зависимости От коэффициента переоценки в примере о профилактическом обслуживании и ремонте, показывающем влияние различных распределений интервала между переходами. (В, В), среднее значение которых по времени равно нулю. Эти результаты могут быть получены графически или из (В.6), (В.7) и (9). Удивительным является то, что, в то время как обе стра^ тегии (Л, В) и (В, В) являются предельными однородными стратегиями для оптимальных неоднородных стратегий, только
Управляемые полумарковские процессы 129 (В, В) будет однородной истинной оптимальной стратегией в том смысле, что она максимизирует Wu когда нормы прибыли g совпадают. Разрешение этого противоречия не может быть получено с помощью формулы (13), которая приводит к относительным весам 1^1 = 320, 1^2 = 0 для обеих стратегий. Чтобы проиллюстрировать влияние кривой распределения на оптимальную стратегию, рассмотрим задачу с бесконечным временем фуцкционирования и переоценкой для следующих распределений: I. Все распределения вырожденные. II. Fu и р21— показательные;/^f2 и fix— вырожденные. III. Fn, F2U F12— показательные; F21—вырожденное. В каждом случае средние сохраняют свои прежние значения. Полученные в результате нормированные оптимальные переоцененные доходы a\)j(a) и ai[)2(a) показаны в зависимости от а на рис. 6. Изменения в стратегии для различных областей параметра а отмечены вертикальными черточками. Заметим, что любая из четырех возможных стратегий может быть оптимальной в зависимости от коэффициента переоценки и предполагаемых распределений. При а-^0 в качестве оптимальной стратегии выбирается либо (Л, В), либо (В, В). Однако почти оптимальных стратегий в рассмотренных случаях не существует, даже несмотря на то, что в пределе все они имеют одну и ту же норму прибыли. ЗАКЛЮЧЕНИЕ Итак, мы рассмотрели обобщение предыдущих работ по марковским управляемым процессам на модели, которые имеют структуру полумарковских процессов. Чувствуется, что эти модели охватывают широкий класс важных задач исследования операций. Так, для полумарковских процессов длительности между переходами могут быть случайными величинами, которые зависят как от предыдущего, так и от последующего состояний системы. Алгоритмы последовательных приближений в пространстве стратегий для максимизации главной части дохода остаются почти такими же, как и для марковских моделей. Однако теперь фундаментальное различие появляется в бесконечных случаях в зависимости от того, является ли он бесконечным по времени или по числу переходов. Оказывается, что выявление этих различий будет основной частью решения задач для полумарковских управляемых процессов, и было бы интересно видеть, как это различие будет отражаться в приложениях.
130 в. с. Джевелл Дополнение А Предположим, что в (I. 16) мы придерживаемся некоторой однородной стратегии, и пусть V{n) означает B^Ktop-столбец из ожидаемых на п-м шаге доходов, р — вектор-столбец средних одношаговых доходов и Р — матрицу вероятностей переходов pij. Согласно (I. 16), , V{n) — V{n—\) = P'^-'p. (АЛ) Но если марковская цепь эргодична, то Р^"^ или соответствующая сумма Чезаро, сходится к стохастической матрице П, каждая строка которой есть один и тот же вектор (-строка) все компоненты которого положительны. Кроме того, я есть единственный вектор вероятностей, удовлетворяющий уравнению яР=я; т. е. он является стационарным распределением эр- годической цепи [13]. Таким образом, lim [V(п) — V{n—\)] = Пр, (А.2) Л->оо или N lim [Vi {п) — 1^/ (я — 1)] = У ^i^i = О для всех /. Скалярная величина G, согласно Ховарду, называется прибылью системы. Заметим, что для цепи с одним эрго- дическим классом состояний она не зависит от состояния i. Пусть Wi{n) = Vi{n) — Gn, тогда вектор этих разностей задается формулой Р+1^(0), (/г=1, 2, ...), (А.З) W{n) = 1+2(р^—п)—п У-1 тде I—единичная матрица. Но если вложенная цепь эргодична, то величина lim Л->СХ) 1+ л-1 -1 2(Р^-п) , ;-1 J или соответствующая сумма Чезаро, сходится к матрице, которую Кемени и Снелл [13] называют фундаментальной матрицей Z = \\zij\\^ Простые преобразования показывают, что Z является обратной матрицей [I — (Р — П)]" и удовлетворяет соотношениям PZ = ZP, nZ = n и I —2 = П —PZ.
Управляемые полу марковские процессы 131 Таким образом, предельный вектор констант наклона имеет вид W=nm W{n) = [Z — n]p-i-V(0), (А.4) Л->СХ) который показывает, что для всех / V,{n)^G,-0+ 2 z,jPj-^VdO), (А.5) где 0=2^/Р/- (А.6) /-1 Дополнение В Принимая некоторую однородную стратегию и применяя преобразование Лапласа к (1.18), получим для всех / и для V'^(^) = a,(s)+S^,^s)l7;(s). (B.l) Обозначая различные векторы-столбцы соответствующими переменными без индексов и матрицу ||^/у(5)|| через ^(5), напишем V{s)==[l-q(s)r'S{s). (В.2) Матрица I—q{s) при 5>0 имеет обратную, однако, когда s приближается к нулю, то как обратная матрица, так и g{s) становятся плохо определенными. Эту трудность можно преодолеть путем использования распределений времени первого перехода Gij{t) и функций среднего числа попаданий Mij{t)^ которые рассматриваются в дополнении С. Комбинируя (В.2) и преобразование (С.6), найдем t/(5) = 5(5) + m(5)a(5), (В.З) или для />0, /=1, 2, ... , N, N t Vi(i) = Mi)+^j ^j{i-^)dM,^{x\ (B.4) /-10 Теперь можно воспользоваться предельными теоремами, которые были получены для функций среднего числа попаданий ^(t) [1, 20].
132 В. С. Джевелл Функции Mij{t) связаны с распределениями времени первого перехода Gij{t) преобразованием (С.5) для 5>0 и всех /, / niijis) =gijis) + mjj{s)gij{s). (В.5) Из предположения о конечности Vij вытекает, что все средние длительности первого перехода \Xij также являются конечными для эргодической цепи. Здесь удобно предположить еще, что диагональные элементы \ijj матрицы вторых моментов распределений Gij{t) также конечны. Наконец, важно различать два случая: является ли Gjj{t) решетчатым распределением или нет. В первом случае нижеследующий результат справедлив, только если интересоваться величинами, усредненными по периоду решетчатости. Можно показать, что достаточным условием для нерешетчатости распределения Gjj{t) является условие, состоящее в том, чтобы по крайней мере одно ненулевое Qij{t) также было нерешетчатым распределением для/= 1, 2,... ..., N. Заметим, что Mjj{t) является функцией восстановления (средним числом попаданий) для простого процесса восстановления с распределением между событиями Gjj{t). Применением основной теоремы восстановления [22] или путем непосредственного преобразования предельных теорем доказывается, что (В.4) имеет для больших t и всех / предельную форму — i. (В.б) где r\j есть площадь под кривой р^ — Oj{t). Из (СЮ) видно, что коэффициент при главном члене — норма прибыли g — может быть переписан в виде N N g= Hi^Pi Hi Щ^к- (В.7) /=i ' k=i Дополнение С Здесь приводятся некоторые результаты Пайка [17—20] и Барлоу [1] о полумаркЬвских процессах, которые используются в дополнении В. Основной функцией является совместное условное распределение вероятностей Qij = Pijf'ij{i)=-P{h^i=h Я'Л J)<t\h = i}^ (C.l) которая определяется для всех /, /, t^O и k = 0, 1, 2, ... (см. ч. I),
Управляемые полумарковские процессы 133 Пусть Uij означает время до первого попадания в состояние /, если исходным было состояние /. Согласно определению времени между переходами, %==^(^'» у)» или т(/, k)-\-x{k, J) {кф]\ или т(/, k) + x{k, /) + т(/, у) {К 1Ф]\ или где каждая последовательность определяется вложенной цепью с вероятностями перехода рг^. (Согласно этому определению, для времени первого перехода из состояния / в него само не требуется, чтобы система сначала побывала в каком-либо другом состоянии.) Если функции распределения времени первого перехода обозначить через Gtj{t)==P[atj<t] (/>0; /, у=1, 2, ..., N\ (С.2) то простые соображения теории восстановления приводят к следующей связи между функциями Gi^{t) и Qij{t): N t Gil it) = Qij {t)+^\ Qi^j (i - X) dQi, {X) Л = 1 0 {t>0\ /, y=l, 2, ..., N). (C.3) G^/(0)=0 в силу соответствующего ограничения на Fii(O). Первый и второй моменты времени первого перехода будут обозначаться через м-.у и ySf^^ соответственно. Они, вообще говоря, не обязаны быть конечными. Интересующей нас характеристикой полумарковских процессов является Nj{t) —число попаданий системы в состояние / в течение интервала времени (0,^). В частности, среднее число попаданий в состояние / в течение этого интервала определяется как M,^{t)=^M[Nj{t)\i,= i] (^>0; /, у=1, 2, ..., N). (С.4) Согласно определению времени первого перехода, t Ml J it) = о и (О + J Oij {t - X) dMjj (x) 0 (^>0; /, J==\, 2, ..., N). (C.5)
134 В. С. Джевелл Наконец, существует интересная связь между Mij{t) и Qij{t): N t Mij{t) = Qtj(<) + S JQiki^-x)dM^^(x) Л-1 0 (/>0; /, y = l, 2, ..., N). (C.6) В частности, заметим, что для процесса с одним состоянием G{t)=Q{t)=F{t), и формулы (С.5) и (С.6) сводятся к хорошо известному уравнению теории восстановления [И, 22] t M{t) = F{t)+ ^ F{t — x)dM{x) (/>0). (С.7) о Это соотношение как раз и указывает на ту тесную связь между полумарковскими процессами и процессами восстановления, благодаря "которой Пайк назвал эти процессы марковскими процессами восстановления. В формулах (В.6) и (14) используются моменты времени первого перехода. Из формулы (С.З) или, согласно работе [1] ^), N N i^ij= 2 A^/+v^; v^= S Pik^ik (C.8) для всех /, /, а также *xfj= S Л-. HH2v,Ay} + vf); vf) = Д/;,,vf). (С.9) Оба значения конечны, если первый и второй моменты распределений Fij{t) конечны и вложенная цепь эргодична. В этом случае вышеприведенные системы уравнений всегда невырождены (точно определены). Если уравнения (С.8) умножить на стационарные вероятности Яг и просуммировать, то в результате получим интересное соотношение N ^) в работе [1] на стр. 53 и 54 имеется несколько опечаток. В уравнении, предшествующем уравнению (А.З) этой работы, индексы у l^jl должны быть переставлены. Условие при втором суммировании в формуле (А.4) следует читать кф1, и уравнение, следующее за (А.4), должно иметь в знаменателе у обоих членов правой части Я£.
Управляемые полу марковские процессы 135 для всех /. Подобным же образом из (С.9) найдем для всех / N N N (Cll) Если v^=v(2)=l, эти формулы переходят в хорошо известные соотношения для марковских цепей [13]. В полумарковских процессах нужно различать два типа стационарных вероятностей. Величины jtj означают стационарные вероятности, которые являются предельными значениями вероятностей находиться в состоянии i после п переходов, когда п-^оо. Суш^ествуют также стационарные вероятности Р{, которые являются предельными значениями вероятностей находиться в состоянии / в момент времени t, когда /->оо [18]. Если вложенная цепь эргодична, эти два множества вероятностей связаны соотношением Л"«1 / Pt = [»i/Z^nk4jni (С.12) для /=1, 2, ..., Л^. Таким образом, в теории полумарковских процессов существует фундаментальное различие между поведением вероятностей состояний от перехода к переходу и их поведением с изменением времени. Это различие также хорошо известно в задачах теории очередей, при решении которых используется метод точек регенерации. Дополнение D В неопубликованном отчете Швейцера [21] для случая раз* постной аппроксимации бесконечного во времени процесса без переоценки был предложен другой критерий проверки. Он состоит в выборе для каждого состояния / стратегии z{i), которая максимизирует величину Этот критерий можно сравнить с нашим критерием из рис. 2^). *) В обоих случаях используются относительные веса Vi и норма прибыли g предыдущей стратегии.
Ш в. с. Джевелл Допустим, имеется стратегия (вектор) Л, которая приводит к улучшенной стратегии В, и пусть Гг>0 будет yлyчшeJ^иeм критерия Швейцера, а уг^О — улучшением нашего критерия. Тогда если Ag=g^—g^ — увеличение нормы прибыли при переходе от стратегии А к стратегии В, то можно показать, что Д^^ = 2 (Г;М)Я^ и Ag= 2 yjPl (D.3) для этих двух случаев соответственно. Так как вложенная марковская цепь эргодична и все значения Vj предполагаются конечными, то оба критерия приводят к улучшению стратегии и, следовательно, к оптимальной стратегии. Какой из них более эффективен с вычислительной точки зрения, неизвестно. ЛИТЕРАТУРА 1. Barlow R. е., Applications of Semi-Markov Processes to Counter problems, In K. J. Arrow, S. Karlin, H. Scarf, (Eds.) Studies in Applied Probability and Management Science, Ch. 3, Stanford Univ. Press, Stanford, California, 1962. 2. Bellman R., Dynamic Programming, Princeton University Press, Princeton, N. J., 1957. (Русский перевод: Беллман P., Динамическое программирование, ИЛ, 1960.) 3. Bellman R., А Markovian Decision Process, /. Math, and Mech., 6 (1957), 679—684. 4. Bellman R., Dreyfus S. E., Applied Dynamic Programming, Princeton Univ. Press, Princeton, N. J., 1962. (Русский перевод: Беллман P., Дрейфус С, Прикладные задачи динамического программирования, «Мир», 1965.) 5. В 1 а с к W е 11 D., On the Functional Equation of Dynamic Programming, /. Math. Analysis and AppL, 2 (1961). 6. В 1 a с к w e 11 D., Discrete Dynamic Programming, Ann. Math. Stat., 33 (1962), 719—726. 7. d e С a n i J. S., On the Transient and Asymptotic Behavior of a Markov Chain Embedded in Coutinuous Time, A Dynamic Programming Algorithm for Embedded Markov Chains, mimeographed. Aeronautical Computer Laboratory. U. S. Naval. Air Development Center, Johnsville, Pennsylvania, 22 April 1963. 8. D'E p e n 0 u X F., Sur un probleme de Production et de Stockage dans lAleatoire, Revue Francaise de Recherche Operationelle, № 14 (1960), 3-^16. 9. D e r Ш a n C, On Sequential Decisions and Markov Chains, Manag. ScL, 9 (1962), 16—24. 10. H о w a r d R. A., Dynamic Programming and Markov Processes, Technology Press and Wiley Press, New York, 1960. (Русский перевод: X o- B a p Д P. A., Динамическое программирование и марковские процессы, «Сов. радио», 1964.) 11. Jewell W. S., The Properties of Recurrent-Event Processes, Oper. Res., 8 (1960), 446—472.
Управляемые полумарковские процессы 137 12. Jewell W. S., Markov Renewal Programming, Research Report 37, Operations Research Center, Institute of Engineering • Research, University of California, Berkeley, 23 October 1962. 13. К em en у J. G., Snell J. L., Finite Markov Chains, D. Van Nostrand, Princeton, New Jersey, 1960. 14. Klein M., Inspection-Maintenance-Replacement Schedules under Markovian Deterioration, Manag. ScL, 9 (1962), 25—32. 15. Mann e A. S., Linear Programming and Sequential Decisions. Manag. ScL, 6 (1960), 259—267. 16. Oliver R. M., A Linear Programming Formulation of Some Markov Decision Processes, presented at a meeting of the Institute of Management Sciences and Operations Research Society of America, Monterey, California, April 1960. 17. Руке R., Markov Renewal Processes: Definitions and Preliminary Properties, Ann. Math. Stat, 33 (1961), 1231—1242. 18. Руке R., Markov Renewal Processes with Finitely Many States, Ann. Math. Stat., 33 (1961), 1243—1259. 19. Руке R., Markov Renewal Processes of Zero Order and Their Applications to Counter Theory, Studies in Applied Probability and Management Science, Ch. 11 (Arrow K. J., Karlin S., Scarf H., eds.), Stanford University Press, Stanford, California, 1962. 20. Руке R., Limit Theorems for Markov Renewal Processes, Technical Report № 24, Columbia University, 1961. 21. S с h w e i t z e r P., Private Communication, March 1963. 22. Smith W. L., Asymptotic Renewal Theorems, Proc. Roy. Soc. Edinburgh, Series A, 64 (1954), 9—48. 23. Wolf Ph., D a n t z i g G. В., Linear Programming in a Markow Chain, Oper. Res., 10 (1962), 702—710. (Русский перевод: см. стр. 86—96 этого издания.) 24*. Смит В. Л., Теория восстановления и смежные с ней вопросы, сб. Математика, 5,: 3 (1961), 95—150. 25*. Висков О. В., Ширяев А. Н., Об управлениях, приводящих к оптимальным стационарным режимам. Тр. матем. инст. АН СССР им, В. А. Стеклова, т. LXXI (1964), 35—45. *) Литература, добавленная переводчиком.
Математическая лингвистика
Конечные модели использования языка') Н, X ом с кий, Дж. А. Миллер В этой статье мы рассматриваем некоторые модели и количественные критерии, предложенные для описания говорящего и слушающего человека, — для описания тех, кто пользуется языком, а не самого языка. Как было указано в начале гл. 12 2), наш язык не просто собрание наших лингвистических реакций, привычек и навыков, так же как наши арифметические знания не ограничиваются простой суммой элементов арифметического поведения. Мы должны обратить внимание на различие между знаниями человека и его действительным или потенциальным поведением; формальная характеристика некоторого языка не является одновременно и моделью человека, пользующегося этим языком. Формальное описание говорящего и слушающего человека предполагает наложение очень жестких ограничений. Мы видели, например, что естественные языки не могут быть адекватно охарактеризованы односторонними линейными грамматиками (конечными автоматами); но мы знаем, что они должны порождаться и восприниматься устройствами с ограниченной памятью. Как это совместить? Ведь никакой автомат с ограниченной памятью не может порождать все грамматически правильные предложения естественного языка, и только их; каждое такое устройство, включая, по-видимому, и человека, связано определенными ограничениями. При рассмотрении моделей, представляющих говорящего и слушающего человека, важным критерием адекватности и пригодности должна быть степень, в которой ограничения модели соответствуют нашим человеческим ограничениям. Мы будем рассматривать различные конечные системы, как вероятностные, так и алгебраические, сравнивая их недостатки с недостатками. ^) Chomsky N., Miller G. А., Finitary models of language users, Handbook of Mathematical Psychology, vol. 2, New York, Wiley, 1963, 419—491. 2) Настоящая работа представляет собой гл. 13 упомянутой книги. Она является продолжением гл. И и 12, переводы которых помещены в предыдущих выпусках нашего сборника (вып. 1, стр. 229—312; вып. 2, стр^ 121— 230). — Прим. перев.
142 Я. XoMct^u, Дж. А. Миллер присущими говорящему и слушающему человеку. Например, из того, что люди могут строить и понимать бесконечное множество новых предложений, немедленно следует, что их способности существенно отличны от способностей автомата, составляющего простой список всех грамматически правильных предложений, которые он воспринимает. Этот пример тривиален, но он иллюстрирует характер рассуждений, которые нам предстоит проводить. 1. ВЕРОЯТНОСТНЫЕ МОДЕЛИ Исследователи, интересующиеся только одним аспектом речевого общения, часто отмечают, что модели восприятия слушающего должны сильно отличаться от моделей поведения говорящего. При обсуждении формальных аспектов лингвистической теории мы отказались от этой точки зрения; откажемся от нее и здесь, при обсуждении эмпирических аспектов лингвистической практики. При построении предлагаемых моделей человека, пользующегося языком, который является одновременно говорящим и слушающим, мы принимаем противоположную точку зрения: теоретически существенные аспекты речевого поведения должны быть общими как для восприятия, так и для высказывания на языке. Если построена формальная теория связи или языка, она обычно оказывается одинаково полезной для описания как источника, так и адресата; эти описания различаются только системой наименований для компонент данной формальной теории. Иллюстрацией этого могут служить вероятностные теории, рассматриваемые в этом разделе. Вероятностные теории связи обычно предполагают, что массив передаваемых сообщений может быть охарактеризован вероятностным распределением и что различные технические процессы (кодирование, передача, прием) сводятся к переработке исходного распределения в заключительное в соответствии с известными вероятностями переходов. Основная математическая идея заключается, таким образом, просто в умножении вектора на матрицу. Но интерпретация, которую мы даем этой математической структуре, различна в зависимости от того, рассматриваем ли мы модель источника, канала или адресата. Таким образом, различия между говорящим и слушающим никоим образом не мешают развитию общей вероятностной теории связи. Такая же обратимость свойственна и нашим алгебраическим моделям, рассматриваемым в разд. 2 данной статьи. Однако для изложения часто будет удобно связывать математическое рассмотрение с определенной интерпретацией. По этой причине мы будем здесь интерпретировать математическую
Конечные модели использования языка 143 теорию как модель источника. Такой выбор произволен и не означает, что вероятностная теория связи должна быть связана исключительно или преимущественно с говорящим, а не с передающим или слушающим. Можно было бы параллельно строить подобную модель и для слушающего, или адресата, но это оказалось бы излишним, так как, кроме замены некоторых терминов, ничего нового не дало бы. 1.1. Марковские источники Во многих задачах связи важнейшей целью считается уменьшение неопределенности в знаниях адресата относительно сообщений источника. При такой постановке задачи совершенно очевидно, что если бы в высказывании говорящего не было априорной определенности, то ему не было бы необходимости говорить. С точки зрения адресата источник не предсказуем; таким образом, естественно будет дать описание источника в вероятностных терминах. Кроме того, процесс передачи часто сопровождается случайными и непредвиденными возмущениями, которые также лучше всего описываются вероятностными методами. В неменьшей степени может делать ошибки и сам адресат; его ошибки являются еще одним источником случайных вмешательств в передачу. Таким образом, имеются серьезные основания для разработки вероятностной теории связи. Легко приложить вероятностную теорию связи к описанию бесконечного множества различных предложений. Случайных последовательностей, по-видимому, может оказаться гораздо больше, чем нам практически нужно. Так как все грамматически правильные предложения имеют конечную длину, то их множество по крайней мере счетно. В теории вероятностей изу-* чаются случайные последовательности, которые можно беско^ нечно продолжать в обоих направлениях — в прошедшее и в будущее, и рассматривается несчетное множество всех таких последовательностей ^). Рассматриваемые события определяются как подмножества этого множества. Конечное вероятностное предложение Должно соответствовать, таким образом, конечному сегменту бесконечной случайной последовательности. Вероятно-- стная мера задается в пространстве всех возможных последовательностей таким образом, что вероятность любого конечного сегмента может быть подсчитана (по крайней мере теоретически) . Если процесс формирования сообщений полностью случаен, то его результат имеет мало сходства с предложениями есте- *| Мы предполагаем, что изучаемые вероятностные процессы стационарны.
144 Я. Хомский, Цж. А. Миллер ственного языка. Важное свойство вероятностной модели речевого поведения состоит в том, что следующие друг за другом символы связаны между собой и по началу сообщения можно предсказать продолжение. В 1948 г. Шеннон (Shannon) провел детальные исследования, базирующиеся на следующей гипотезе Маркова: в дискретной системе связи источник сообщений может быть представлен стационарным вероятностным процессом, в котором элементы сообщения последовательно выбираются из конечного словаря в соответствии с их вероятностями. Например, Марков (1913) выбрал в «Евгении Онегине» Пушкина массив в 20 000 букв, заменил в нем гласные символом г, согласные символом с и подсчитал частоту N появления различных последовательностей этих символов длины 3. Его результаты приведены в табл. 1 в форме дерева. Таблица 1 Данные Маркова о последовательностях гласных и согласных в романе Пушкина «Евгений Онегин» Ы(ггг)^ 115, .,_ ^^^^ N(zzc)=^ 939} ^(^^) N (гсг) = 4212)^ М(гсс)= 3322) ^(^^^ N (сгг) = 989) ArU)=6546r(^^) = 75351 N(ccz)= 3322) , I N(z)^ 8638 ЛГ(с)=113б2 }iV = 20000 При таком подсчете двоичных последовательностей между частотами существуют некоторые зависимости. Например, N{8c)=N{ce)±l, потому что в массиве число переходов от гласных к согласным не может отличаться от числа переходов от согласных к гласным более чем на 1. В этом частном примере число степеней свободы равно 2^-^ где п — длина анализируемой цепочки, а 2 — объем алфавита. Подсчитанные частоты дают нам возможность определить вероятности. Например, наблюдаемая вероятность гласной p{e)=N{e)IN = 0,A32^), Если бы следующие друг за другом буквы были независимы, то следовало бы ожидать, что вероятность гласной при условии предыдущей согласной р{г\с) будет такой же, как и вероятность гласной при условии предыдущей гласной р{г\г)у и что обе они равны р{г). Однако вычисления дают /7(гIс) =0,663, что много больше, чем/7(г), а/7(г|г) =0,128, ^1 В большинстве работ на русском языке именно это отношение называется частотой. — Прим. перевг
Конечные модели использования языка 145 что МНОГО меньше. Очевидно, что в русском языке гласные чаще появляются после согласных, чем после гласных. Ньюмен (Newman, 1951) привел данные для письменной формы различных языков и подтвердил эту общую тенденцию чередования гласных и согласных. (Мало правдоподобно, чтобы эти результаты серьезно изменились, если исследовать не письменные символы, а фонемы.) Исследование статистики сообщений из табл. 1 показывает, что вероятность гласной зависит более чем от одной предшествующей буквы. Следовательно, здесь мы имеем не марковский процесс, так как по определению марковского процесса (ср. Feller, 1957) для выбора данного символа из всей предыстории последовательности существен только непосредственно предшествующий символ. Однако определение марковского процесса, или цепи Маркова, легко обобщается для описания более сложных случаев. Ниже мы покажем, как это можно сделать. Но сначала поясним, что мы понимаем под марковским источником. Если задан дискретный марковский процесс с конечным числом состояний Уо, . • •, Vd и вероятностной мерой (i, строим марковский источник, взяв в качестве словаря V=[vQy ..., Ур}; сообщениями служат последовательности наименований состояний, через которые проходит система. В терминах разд. 1.2 гл. 12 марковский источник есть особый вид конечного автомата, в котором все определяющие его тройки имеют форму (/, /, /), а контрольный блок устанавливает вероятности всех переходов. В разд. 2 гл. 11 состояние определялось как множество исходных цепочек, эквивалентных справа. Конечно, это определение должно быть продолжено на вероятностные, или стохастические, системы. Назовем все цепочки, которые допускают одинаковые продолжения с одинаковыми вероятностями, вероятностно эквивалентными справа; тогда состояние стохастического источника есть множество всех цепочек, вероятностно эквивалентных справа. Если имеется произвольная, но достаточно длинная последовательность символов и мы хотим проверить, описывается ли она цепью Маркова, мы должны подсчитать частоты встречающихся пар, троек и т. д. Наша начальная (марковская) гипотеза при этом анализе заключается в том, что символ, появляющийся в любой момент времени, может рассматриваться как наименование состояния, в котором источник находится в данный момент. Однако в результате исследования реальной последовательности может оказаться, что некоторые из предполагаемых состояний вероятностно эквивалентны справа (всевозможные продолжения в обоих случаях имеют одинаковые вероятно^ \0 Зак. 477
146 Н. Хомский, Дж. А. Миллер сти) и могут быть объединены в одно состояние. Это уменьшение числа состояний означает, что наименования состояний должны быть выделены из терминального словаря. Легко расширить наше определение марковского источника для описания этого упрощенного случая, полагая множество возможных состояний {5о, Si, ..., Sm} отличным от словаря {Уо, Vi, ..., Vd). Поскольку в языковых высказываниях зависимости охватывают длинные цепочки символов, марковские источники слишком просты для наших целей. Можно обобщить идею Маркова, воспользовавшись следующим приемом (McMillan, 1953): для данного марковского источника со словарем V выберем другой словарь W и определим гомоморфное отображение V в W, Это отображение определит новую вероятностную меру. Новая система есть проекция марковского источника, но, вообще говоря, не является марковской в строгом смысле. Определение 1. Пусть дан марковский источник со словарем V={vo, ..., Vd}^ внутренними состояниями 5о, ..., 5^ « вероятностной мерой \i. Можно построить новый источник с теми же состояниями, но со словарем W и производной вероятностной мерой jLi^ где Wj 6 W тогда и только тогда, когда суи^е- ствуют Vi^V и отображение 0, такие, что Q{Vi)=Wj. Источник, получающийся таким образом из марковского источника, называется проектируемым марковским источником. Результат такого построения виден на следующем примере. Рассмотрим марковский источник, граф которого изображен на рис. 1, и предположим, что переходам, указанным стрелками, соответствуют некоторые положительные вероятности, а вероятности остальных переходов равны нулю. Словарь У={1, 2, 3, 4}. Каждый символ является наименованием состояния, в котором система находится после его появления. Рассмотрим три способа отображения V в различные словари в соответствии с конструкцией определения 1. 1. Пусть 9(1) =6(4)= г и 9(2) =6(3)= с. Тогда проектируемая система есть марковский источник высшего порядка, предназначенный для представления вероятностей троек гласных и согласных табл. 1. Идентифицируем состояние 1 с [гг], состояние 2 с [гс], состояние 3 с [ее] и состояние 4 с [сг]. Таким образом мы сохраняем договоренность о наименовании состояний последовательностями, приводящими в них; но на этот раз условие Маркова нарушается и в обозначениях фигурирует более одного предшествующего символа. В терминах гл. 12 мы здесь имеем дело с ^-ограниченным автоматом, где Л = 2. 2. Пусть 6(1) =6(2) =а и 6(3) =0(4) =6. Тогда появление а может произойти в состоянии 1 или в состоянии 2; появление
Конечные модели использования языка 147 b — в состоянии 3 или 4. Состояния не могут быть однозначно наименованы по последовательностям, которые в них приводят. 3. Пусть е(1)=—1, е(2)=9(4)=:0 и е(3) = + 1. Эта проекция дает пример немарковского процесса, приведенный Фелле- ром (Feller, 1957, стр. 379). Если задана последовательность независимых случайных величин, принимающих значения ±1 с вероятностью V2, мы можем определить последовательность средних арифметических двух соседних ^ величин Хп = = (Уп + Уп+1)/2. Последовательность Хп немарковская по следующей поучительной причине. Если в ней имеется цепочка Рис. 1. Граф, соответствующий марковскому источнику. идущих подряд нулей, то следующий за цепочкой символ зависит от того, четно или нечетно количество этих нулей. После цепочки с четным числом нулей должен следовать тот же символ, который ей предшествовал; после цепочки с нечетным числом нулей — противоположный. Таким образом, необходимо помнить, из какого состояния система пришла к каждой цепочке нулей и какова длина этой цепочки. Но поскольку число нулей, которые могут идти в последовательности подряд, не ограничено, эта система не является ^-ограниченной ни при каком Л. Следовательно, средние арифметические невозможно получить в результате простого марковского процесса или даже марковского процесса высшего порядка (который должен иметь конечную память), но их просто получить, используя построенный здесь проектируемый марковский источник. Таким образом, с помощью этого построения можно обобщить понятие марковского источника на все случаи систем с конечным числом состояний (регулярных событий), на которых определена вероятностная мера.
148 И. Хомский, Дж. А. Миллер Теорема 1. Любой конечный автомат, на котором определена вероятностная мера, может рассматриваться как проектируемый марковский источник. Если задан конечный автомат с вероятностной мерой, обо^ значим различными числами все переходы. Множество всех этих целых чисел образует словарь марковского источника, а правило приписывания чисел переходам определяет гомоморфное отображение в проектируемый марковский источник. При такой формулировке делается ясным смысл утверждения о том, что регулярные языки обладают марковскими свойствами. Мы будем предполагать, что все проектируемые марковские источники работают в реальном времени, от прошлого к будущему; условимся записывать это последовательностью символов слева направо. Таким образом, эти источники можно рассматривать и как системы правосторонних подстановок вида А->аВ, где А и В соответствуют состояниям стохастической системы. Существует большое разнообразие типов проектируемых марковских источников, и только немногие из них изучены сколько- нибудь подробно. Некоторые из них мы рассмотрим в следующих разделах. Можно использовать эти же идеи для описания не источника, а адресата, или приемника. Такой проектируемый марковский приемник воспринимает только те цепочки символов, которые соответствуют возможным последовательностям переходов; располагая полными данными о характере источника или используя предыдущий опыт, он строит для каждого состояния предположения относительно вероятностей возможных продолжений. Выше уже отмечалось, что фиксированную математическую теорию одинаково просто представить как модель говорящего или слушающего. Мы интересуемся способом описания носителя естественного языка; описывается ли он как источник или как приемник, не существенно. 1,2. fe-Ограниченные стохастические источники Среди проектируемых марковских источников хорошо изучен класс ^-ограниченных марковских источников, или источников высшего порядка; они порождают приближения (^+_1)-го порядка к определяющей их выборке текста. Состояния ^-ограниченного автомата отождествляются с последовательностями из k символов, приводящими в эти состояния, и каждому состоянию поставлено в соответствие вероятностное распределение, определенное на D различных символах алфавита. Для алфавита, содержащего D символов, ^-ограниченный стохастический источник будет иметь (потенциально) D^ различных состояний.
Конечные модели использования языка 149 Укажем, что 0-ограниченный источник имеет только одно состояние и порождает символы независимо друг от друга. Если k мало и мы рассматриваем алфавит только из 27 символов (26 букв и пробел), можно приближенно определить вероятности перехода для ^^-ограниченного источника, подсчитав число всевозможных цепочек длины k + \ в большой выборке текста. Можно использовать эти данные и построить (^ + 1)-е приближение к исходному тексту, последовательно выбирая символы в соответствии с вероятностным распределением, определяемым k предшествующими символами. Удобно определить нулевое приближение как такое, в котором символы порождаются независимо и с равной вероятностью; в первом приближении символы порождаются независимо, во втором — с вероятностями, определяемыми контекстом из одной непосредственно предшествующей буквы и т. д. Впечатление о характере этих приближений можно получить по следующим примерам, взятым у Шеннона (Shannon, 1948) ^). В каждом из них (^+1)-й символ выбирался с вероятностью, определяемой контекстом из k предшествующих символов. L Нулевое буквенное приближение (26 букв и пробел независимы и равновероятны): XFOML RXKHRJFFJUJ ZLPWCFW- KCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD. 2. Первое буквенное приближение (символы независимы, но имеют частоты, характерные для английского языка): OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA ТН EEI ALHEN^ НТТРА OOBTTVA NAH BRL. 3. Второе буквенное приближение (соседние пары символов имеют частоты, характерные для английского текста): ON IE ANTSOUTINYS ARE Т INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY- TOBE SEACE CTISBE. 4. Третье буквенное приближение (тройки имеют частоты, характерные для английского текста): IN N0 1ST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DE^ MONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE. ^-Ограниченный стохастический источник может быть определен для слов из словаря V совершенно таким же способом, как и для букв алфавита Л. Если определить состояние через последовательности из k предшествующих слов, получатся приближения следующих типов. ^) Для русского языка примеры, аналогичные 2—4, даны в статье Р. Л. Добрушина «Математические методы в лингвистике» («Математическое просвещение», вып. 6, М., 1961, стр. 47—49); пример, аналогичный 6, — в книге А. Моля «Теория информации и эстетическое восприятие» (М., 1966, стр. 56.) — Прим. перев.
150 Н. Хомский, Дж. А. Миллер 5. Первое словарное приближение (слова независимы, но их частоты характерны для английского языка): REPRESENTING AND SPEEDILY IS AN GOOD APT OR CAME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE. («Представление и быстро есть — хороший подходящий или шёл может различный естественный здесь — — в шёл — в от в знаток серый идёт в обстановка — линия сообщение имел быть эти».) ^) 6. Второе словарное приближение (пары слов с частотами, характерными для английского языка): THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED, («—голова и в лобовой атаке на — английского писателя что — свойство этой точки есть следовательно другой метод для букв что — время от кто бы ни говорил — проблема для — неожиданный».) Следующие два примера взяты у Миллера и Селфриджа (Miller, Selfridge, 1950). 7. Третье словарное приближение (тройки слов с частотами, характерными для английского языка): FAMILY WAS LARGE DARK ANIMAL CAME ROARING DOWN THE MIDDLE OF MY FRIENDS LOVE BOOKS PASSIONATELY EVERY KISS IS FINE. («Семья была большой темный зверь шел рыча вниз в середину моих друзей любят книги страстно каждого поцелуй прекрасен».) 8. Четвертое словарное приближение (четверки слов с частотами, характерными для английского языка): ROAD IN THE COUNTRY WAS INSANE ESPECIALLY IN DREARY ROOMS WHERE THEY HAVE SOME BOOKS TO BUY FOR STUDYING GREEK. («Дорога в страну была безумной особенно в мрачных комнатах где они имели некоторые книги покупаемые для изучения греческого».) Приближения высших порядков к статистической структуре английского языка использовались в психологических экспериментах; предметом экспериментов была мнимая осмысленность последовательностей букв и слов. Если k увеличивается, последовательности символов приобретают более привычный вид, и, как показывают опыты, хотя они и остаются бессмысленными, их становится легче схватить и правильно запомнить. ^) В переводах этого и следующего примера артикли заменены тире. Прим. перев.
Конечные модели использования языка 151 Множество последовательностей, порождаемых ^-ограничен-* ными марковскими источниками, с ростом k не сходится к множеству грамматически правильных высказываний, потому что существует много грамматически правильных предложений, которые никогда не произносились, а потому не могут быть учтены ни при каком подсчете вероятностей перехода. ^-Ограниченный марковский источник не может служить естественной грамматикой английского языка, как бы велико ни было k. Рост k не приводит к выделению множества грамматически правильных предложений, так как, хотя при этом число включаемых в язык высоковероятных грамматически правильных последовательностей и растет, число не включаемых, маловероятных грамматически правильных последовательностей также растет. Более того, для любого конечного k найдутся такие грамматически непра^' вильные последовательности более чем из k символов, которые стохастическое устройство не сможет исключить. Однако, хотя ^-ограниченный источник не является грамматикой, его можно предложить в качестве модели человека, пользующегося языком. Не страшно, что эта модель не может выделить множество грамматически правильных предложений.— мы сами также не в силах это сделать, поскольку ограниченность человеческих возможностей часто уводит нас сграм-* матического пути. Пригодность модели оценивается по тому, свойственны ли ей те же ограничения, что и человеку. Конечно, если рассматривать данную модель не только как удобный способ представления статистических параметров ре^ чевых ансамблей, но и как гипотезу относительно способа порождения и понимания людьми сообщений, то против нее легко привести возражения. Мы укажем одно из них, которое выглядит особенно серьезным: ^-ограниченный марковский процесс имеет слишком много параметров (ср. Miller, Galanter, Pribram, 1960, стр. 145—148). Как отмечалось, при его задании указывается D^ вероятностей. Для удовлетворительного описания языка необходимо достаточно большое k, а при этом число параметров непомерно возрастает; чтобы выработать надежные оценки, необходимо изучить огромный объем текста и сделать для него подсчеты. Как велики должны быть k и D для построения удовлетворительной модели? Рассмотрим вполне обычное предложение: The people who called and wanted to rent your house when you go away next year are from California. («Люди, которые заходили и хотели арендовать ваш дом на то время, когда вы уедете в будущем году, были из Калифорнии».) В этом предложении есть грамматическая зависимость между вторым словом (подлежащее во множественном числе people) и семнадцатым
152 Н. Хомский, Дж, А, Миллер словом (глагол во множественном числе are). Что&эт отразить этот частный тип связи, ^ должно быть равно по меньшей мере 15. Мы не будем исследовать, как велико может быть k в границах обычного употребления, но предел, конечно, больше чем 15 слов; словарь же должен содержать по меньшей мере 1000 слов. Приняв эти умеренные значения k и D, мы, следовательно, должны учитывать Ь^=10^^ параметров — много больше, чем можно определить даже с помощью быстродействующих вычислительных машин. Конечно, многие из этих 10^^ цепочек лишние, так как их искомые вероятности равны нулю. Более реалистическая оценка получается в предположении, что запоминаются не допустимые цепочки слов, а «скелеты предложений» — допустимые цепочки синтаксических категорий. Можно установить также, что не все последовательности категорий могут появляться; в качестве умеренной оценки (ср. Somers, 1961) можно принять, что в среднем в любом данном контексте может появиться около четырех различных категорий. По этому соглашению можно свести число D к 4, так что D^ становится равным 4^^=10^. Это значение, конечно, является существенным улучшением по сравнению с 10^^ параметрами; однако для установления надежных значений используемых вероятностей необходимо многократное нахождение каждой цепочки в тексте, и потому мы не обошли главной трудности — огромного объема текста, который нужно обработать, чтобы обеспечить удовлетворительный эмпирический базис для модели этого типа. Здесь встают трудности не только для статистика, решающего проблему определения вероятностей. Обучающийся языку столкнулся бы с не менее трудной задачей. Если предположить, что ^-ограниченный автомат в человеке каким-то образом складывается в детстве, то объем вводимых в него данных, которые обеспечивают такой метод владения языком, непостижим. Нельзя серьезно предположить, что ребенок усваивает 10^ параметров в детстве, которое длится только 10^ сек. 1.3. Количественная оценка информации при выборе Хотя непосредственное определение всех вероятностей, необходимых для удовлетворительной работы ^-ограниченной марковской модели человека, практически невозможно, другие, более общие статистические оценки такого источника удобны для описания характеризующих его средних величин. При исследовании коммуникационной функции языка особый интерес представляют две из таких характеристик: количество информации и избыточность. В этом разделе мы введем их кратко и эври- СТИЧескц.
Конечные модели использования языка 153 Проблема измерения количества информации при передаче сообщений, по-видимому, была впервые поставлена Хартли (Hartley, 1928). Если какое-нибудь простое устройство, скажем переключатель или реле, имеет D возможных позиций или физических состояний, тогда два устройства, работающих вместе, имеют D2 состояний, три — D^ состояний и т. д. Когда число устройств возрастает линейно, число возможных состояний системы возрастает экспоненциально. Стремясь ввести такую меру информации, при которой система из 2п элементов будет иметь вдвое большую емкость, чем система из п элементов, Хартли определил величину, называемую сейчас информационной емкостью, как logD, где D — число различных состояний, в которых может находиться вся система. Предложение Хартли было впоследствии обобщено и существенно развито Шенноном (Shannon, 1948) и Винером (Wiener, 1948). Если перейти к каналу связи, введенное Хартли понятие емкости (пропускной способности) приводит к подсчету числа различных сигналов, которые могут быть переданы в единицу времени. Например, пусть N{T) обозначает общее число различных цепочек из Т символов, которые можно передать по каналу. Пусть D — число различных состояний канала. Предположим, что нет никаких ограничений на возможности перехода из одного состояния в другое. Тогда N{T)=D'^, и емкость, по Хартли, равна \ogN{T)IT = \ogD. Если имеются какие-то ограничения на возможности перехода, то N{T) будет расти экспоненциально (в пределе), но менее быстро. Следовательно, в общем случае мы должны определить пропускную способность канала как предел: Пропускная способность канала = Ит [logA^(7')/7']. (1) Это самое большее, что можно передать по каналу. Если источник вырабатывает в среднем больше информации на символ, канал не может целиком передать ее, по крайней мере при том же числе символов. Практическая проблема, следовательно, заключается в том, чтобы определить N{T), исходя из сведений о свойствах канала. Нашей ближайшей целью будет рассмотреть, как можно развить идею Хартли, чтобы ввести меру количества информации на символ для сообщений, порождаемых стохастическими устройствами того рода, который описан в предыдущем разделе статьи. Мы ограничимся случаем, при котором целью организации связи считается уменьшение неопределенности в знаниях адресата. Следовательно, количество получаемой им информа^ ции должно характеризовать изменение его знаний о состоянии
164 Я. Хомский, Дж. А, Миллер источника. А это изменение зависит от того, каковы были его начальные знания. Предположим, что источник порождает сообщение в ходе некоторого процесса, случайного или детерминированного, а адресат знает о нем только то, что выбирается одно из множества попарно различных сообщений Ми М2, ..., Md с вероятностями p{Mi), /7(^2), ..., р{Мг,)у сумма которых равна единице. Шеннон и Винер определили меру Н{М) неопределенности адресата, где символ М обозначает некоторый выбор: / М, М,, ..., Ж^ Если получено конкретное сообщение, неопределенность слушателя относительно принятого уменьшится от Н{М) до нуля; следовательно, сообщение содержит Н{М) единиц информации. Н{М) есть мера информации, требующейся (в среднем), чтобы выбрать одно из Mi при данном выборе М. Перечислим ряд предположений относительно свойств, которыми должна обладать мера неопределенности дискретных устройств для согласования с нашими интуитивными представ^ лениями. Затем, следуя эвристическому построению Хинчина (1953), используем эти предположения для определения величины Н по Шеннону и Винеру. Наше первое интуитивное предположение: неопределенность зависит только от того, что может произойти. Невозможные события не влияют на неопределенность. Если о некотором со^ бытии Mi заранее известно, что /7(М^)=0, то, исключив нз рассмотрения Mi, мы никак не изменим меру Я. Предположение 1. Добавление к М любого числа невозможных сообщений не меняет Н{М): "\р{М,),..., р{М^), о )-"\р{М,),..., р{Ма)1' Второе интуитивное предположение: люди наименее осведомлены, когда все сообщения одинаково вероятны. Любые предварительные знания о том, что одно сообщение более вероятно, чем другое, меняет информацию в сторону уменьшения общей меры неопределенности адресата. Так, например, для двух различных сообщений распределение 1 : 1 представляет случай наименее благоприятный для предсказаний. Если в М имеется D различных равновероятных сообщений,то p{Mi) = l/D для Bcexi.
Конечные модели использования языка 155 Предположение 2. Н{М) максимально, если все сооб- имения в М равновероятны: I М, М^ \ (^1 ^D\ "[piM,)....,p{Ma)j<^[i ^ j- Теперь пусть L{D) обозначает меру неопределенности при выборе из D равновероятных сообщений. Тогда в силу сформулированных соглашений L{D) = H\ 1 Ink D 0 <я 1 _i_ U=/:(D+i). Итак, мы доказали следующую лемму. Лемма 1. L(D)—монотонно возрастающая функция D, То есть, если все D различных сообщений в М равновероятны, то Н{М)—неубывающая функция D. Интуитивно, чем больше различных событий может произойти, тем больше неопределенность. Так же естественно предположить, что если выбор произвол дится в два или более шагов, то неопределенность, связанная с выбором, будет взвешенной суммой неопределенностей, связанных с каждым шагом. Это исключительно важное предположение можно сформулировать следующим образом. Предположение 3. Н{М) аддитивно. Пусть два события в М объединяются в одно сложное событие, которое мы обозначим Mi[i М2 и которое имеет вероятность p{Mi\iM2)'=p{Mi)+^p{M2). Тогда можно разложить М на две части и M^'= р(М,) р{М,) р{М,)-^р{М,)' Р{М,) + р{М,) о, ..., о Выбор из М эквивалентен выбору из М^ и последующему за ним (если было выбрано Mi\i М2) выбору из М^\ По предполо-
156 Я. Хомский, Дж. А. Миллер жению 3 Н{М) равно взвешенной сумме Н{М^) и Н{М^^). Конечно, при этом подсчете Н{М^^) должно быть взято с весом p{Mi)+p{M2)y равным вероятности того, что будет сделан второй выбор. Из предположения 3 следует, что Н{М)=^Н {М') + [р (ЖО + Р {М,)\ Н {М'у Если ЭТО равенство справедливо при объединении двух сообщений из М, его можно легко обобщить на любое подмножество сообщений и даже на любое число любых подмножеств сообщений из М. Для рассмотрения этого более общего случая обозначим сообщения в М через Мц, где i — индекс первого выбора, / — второго. Первый выбор производится из Л: / Д, ..., Л, \р{А,\ ..., /7(Л) где /? (Л/) = 2/^(^0*)» ^ второй выбор зависит (как и ранее) от результата первого; т. е. он производится из где Bj имеет вероятность /7(В^|Л^), которая зависит отЛ^,пред- шествующего выбора из Л. Оба выбора вместе эквивалентны одному выбору из М (или являются его разложением), где /7(Л)/;(В^|Л) = /7(Ж,> Теперь по предположению 3 Н(М) будет суммой двух компонент. Но это несколько усложняется тем, что H{B\Ai) есть случайная величина, зависящая от и В среднем, очевидно, будет £{Я(5|Л)} =2/7(Л)Я(5|Л) = Я(5| Л). (2) Здесь предположение об аддитивности означает, что Н {М) = Н {АВ) = Н {А)+Н {В\А), (3) Конечно, если Л и В независимы, равенство (3) принимает вид Н{АВ) = Н{А) + Н{В), (4) и, если сообщения независимы и равновероятны, последователь^- ность 5 выборов из D сообщений даст L{D^ = sL{D). i5) Теперь мы докажем следующую лемму.
Конечные модели использования языка 157 Лемма 2. L{D)=k\ogD,adek>Q. Рассмотрим повторяющиеся независимые выборы из одного и того же количества D равновероятных сообщений. Для любых положительных чисел D, s и t выберем такое т, что D"<54/^"^\ (6) mlogD<Hogs<(m+l)logD, | m ^ log 5 ^ m'\-\ \ (7) t ^logD^ t • J Из неравенства (6) и монотонного возрастания L(P) следует, что z:(D'")<z:(50<A(D'"+'), а из равенства (5) получаем mL{D)^tL{sX{m-\-l)L{D), j т ^ L (s) ^ т-\-\ \ (8) t '^L(P)^ t • J -Комбинируем неравенства (7) и (8): L (5) log 5 <!• I ^ Ф) log D I Так как это неравенство не зависит от т, то / может быть взято сколь угодно большим, и L(5) ^ L(D) log 5 log D * Далее, так как D и 5 выбраны произвольно, это отношение должно быть константой, не зависящей от D; другими словами, L{D)l\ogD = k, следовательно, L{D)=k\ogD. Очевидно, logD неотрицателен и [так как L{D) монотонно возрастает] k>0. Это полностью доказывает лемму 2. Обычно k выбирается равным 1. а логарифм берется при основании 2: L{D) = log,D, (9) другими словами, взятая таким образом единица измерения равна степени неопределенности, возникающей при выборе между двумя равновероятными возможностями. Эта единица на-» зывается бит. Теперь рассмотрим общий случай с неравными, но рацио-* Бальными вероятностями. Пусть PiAd = f (/ = 1,.... г).
158 Н. Хомский, Дж. А. Миллер где gi — положительные числа и Мы должны определить Н{А). Чтобы сделать это, построим другой вариант выбора {В\А{) таким образом, чтобы декартово произведение М=АхВ содержало только равновероятные возможности. Пусть {B\Ai) состоит из gi сообщений, каждое из которых имеет вероятность 1/g^. Следовательно, H{B\A,)=n\-i 1 \ = Lig,) = c\oggt. (10) ^ gr '••' giJ Из равенств (2) и (10) следует H{B\A) = 'ZpiA,)H{B\A,) = ^p{A,)cloggi = i i = c2ip{Ai)\ogp{Ai)g = c\ogg + c^p{Ai)\ogp{A^. (11) Рассмотрим теперь сложный выбор М = Ау^В. Так как p{AtBj) = p{Ai)p{Bj\At) = ^.l^ = ^, ТО в этом специально подобранном случае имеется ровно g равновероятных событий и Н{А ХВ) = ЩАВ) = L{g) = c \ogg. (12) Подставив выражения (И) и (12) в (3), получим c\ogg = Н{А) -{-cXogg + c^p (Л) log р {Ai). Итак, мы доказали следующую теорему. Теорема 2. Для рациональных вероятностей H{A) = -c^p{A,)\ogp{A,). (13) Ввиду того, что выражение (13) можно интерпретировать как среднее значение Е{—log/?(Лг-)}, мера неопределенности превращается в среднюю логарифмическую вероятность — величину, известную физикам под названием энтропии. Естественно определить количество информации в сообщении Ai как —log p{Ai) независимо от того, каково распределение вероятностей для других сообщений. Требование независимости количества инфор-
Конечные модели использования языка 159 мации, содержащейся в сообщении, от других возможных сообщений Льюс (Luce, 1960) назвал требованием независимости от несущественных данных; он (Luce, 1959) отметил, что оно выдвигается— явно или неявно — в большинстве теорий выбора. Наконец, чтобы сделать Н{В) непрерывной функцией от ве-^ роятностеи, примем четвертое предположение — относительно непрерывности. Поскольку интуитивно ясно, что малое изменение вероятностей должно вызвать малое изменение Н{М), последнее требование не нуждается в обосновании. Оно не будет играть существенной роли в последующем изложении. Теперь мы хотим использовать Я как меру неопределенности, связанной с проектируемым марковским источником. Предположим, что имеется стационарный источник с конечным числом состояний Аи ..., Ащ с алфавитом 5i, ..., В^ и с матрицей вероятностей перехода p{Bj\Ai). Если система находится в состоянии Аи то условия выбора таковы: По теореме 2 количество информации в этом случае равно H{B\Ad = -c^p{Bj\Adlogp{Bj\Ai). Эта величина определена для любого состояния'. Чтобы получить среднее значение количества информации, ожидаемой от источника независимо от его состояния, нужно усреднить эту величину по i: £{Я(5|Л)}=2р(Л)/^(5|Л) = = -с22/'(Л. Bj)logpiBj\Ad = HiB\A). (14) i J Теперь можно рассматривать Н{В\А) как меру среднего количества информации, получаемой, когда источник делает один шаг, выбирая букву из множества {5г}- [В частном случае, есда последовательные события независимы, Н{В\А) обращается в Н{В)]. Цепочки из Л^ символов содержат в среднем NH{B\A) единиц информации. Вообще справедливо неравенство Н{АВ) ^Н{А) +Н{В)\ равенство имеет место только для независимых А и В, Это можно установить следующим образом. Из известного равенства ^=H_^+£i+^+... (х>-1)
160 я. Хомский, Дж. А. Миллер следует, что е^^1+х. Положив t=l+x, это неравенство можно переписать так: ^—1>1п^ {t >0). Теперь положим t=p{Ai)p{Bj)/p{AiBj): ES^^I^_i:^lnp{Ad + lnp{Bj)-lnp{A,Bj) и подсчитаем среднее значение этих величин при заданном распределении p(i4iBj): J i ^ J i + ^^P{AiBj) InpiBj) - ^^p{A,Bj) In p{A,Bj). J i J i Следовательно, 1 — 1 > — Я (Л) — Я(5) + Н{АВУ Последний результат можно записать в виде Н{А) + Н{В) > Н{АВ). (15) Соединив неравенство (15) с требованием аддитивности (3), мы увидим, что доказана следующая теорема. Теорема 3. Н{В):^Н{В\А). (16) Это важное неравенство означает, что знание результата вьь бора из А не может увеличить среднюю неопределенность относительно выбора из В. В приложении к случаю, когда А есть предыстория некоторого сообщения, а В —выбор следующей единицы сообщения, оно означает, что знание контекста в среднем не увеличивает количества информации, содержащейся в сообщении. Важно помнить, что Н есть мера не семантической информации (ср. Сагпар, Bar-Hillel, 1952), а информации при выборе, оцениваемой в предположении, что маловероятные события содержат наибольшую информацию. Характер различий между ними можно проиллюстрировать на примере. Сообщение «Это человек» содержит больше информации в интуитивном значении этого слова, чем сообщение «Это позвоночное», так как из того, что некоторый объект является человеком, следует, что он является позвоночным, но не наоборот. С точки зрения теории информации, описывающей условия выбора, положение проти-
Конечные модели использования языка 161 воположно. в соответствии с таблицей вероятности английских слов слово vertebrate («позвоночное») менее вероятно, чем man («человек»), и его выбор в английской речи должен рассматриваться, следовательно, как несущий большую информацию. Поскольку многие психологические процессы включают в себя процессы выбора того или иного рода, количественная оценка информации при выборе интересна как способ характеристики этого аспекта поведения. Различные приложения количественных оценок информации к психологии описаны в работах: (Attneave, 1959); (Cherry, 1957); (Garner, 1962); (Luce, 1960); (Miller, 1953); (Quastler, 1955) и ряде других., He все из этих приложений средней логарифмической вероятности были достаточно обоснованы и тщательно разобраны. Как подчеркнул Кронбах (Cronbach, 1955), во многих случаях целесообразнее вводить другую меру информации, базирующуюся на интуитивных представлениях, более тесно связанных с интересующими нас приложениями. 1.4. Избыточность Поскольку Н{В) >'Я(В|Л), а равенство имеет место только для независимых сообщений, любая зависимость между последовательными сообщениями источника только уменьшает количество информации, содержащейся в одном сообщении. Степень уменьшения количества информации является характерным и интересным свойством источника. Шеннон назвал ее избыточностью и определил следующим образом. Сначала рассмотрим количество информации, которую можно закодировать в данном алфавите (или словаре), если использовать отдельные символы независимо и с равной вероятностью. При D различных символах информационная емкость алфавита L{D) равна log2D битов на символ. Это — величина, максимально возможная для данного алфавита. Если источник порождает количество информации на символ Н{М), меньшее, чем его теоретический максимум, то отношение H{M)/L{D), меньшее единицы, представляет относительное количество информации источника. Единица минус относительная информация есть избыточность: Процент избыточности = 100 [ 1 —\о1в]- (1^) Относительное количество информации на символ служит мерой того, насколько эффективно используется кодовый алфавит. Например, если относительная информация на символ равна V2, то в среднем сообщение вдвое длиннее, чем необходимо. Опытами Шеннона (Shannon, 1948) было установлено, что
162 Н. Хомский, Дж. А. Миллер достаточно квалифицированный человек может восстановить рт» рывок, из которого удалено 50% букв, и что, следовательно, эффективность обычной английской прозы не превышает 50 %^ Но, пытаясь повторить эти опыты с другими испытуемыми и другими отрывками, Чапенис (Chapanis, 1954) обнаружил следующее: если случайно вычеркивать буквы, не оставляя в тексте обозначений для вычеркнутых мест, то только немногие люди способны за короткое время восстановить пропуш,енное, превышающее 25% букв. Конечно, различие в результатах вызвано различием в условиях опыта. Для того чтобы определить эффективность кодирования в английской письменной речи, человек, пытающийся реконструировать текст, должен быть поставлен в оптимальные условия. Вначале мы должны сообщить ему условия опыта, например то, что вычеркнуты все гласные буквы и пробелы между словами. В указанном опыте текст сокращается почти на 50%; Миллер и Фридмен (Miller, Friedman, 1957) установили, что специалисты, обладающие достаточным временем и заинтересованные в результатах опыта, могут восстановить недостающие буквы. Следовательно, можно заключить, что английский язык избыточен по крайней мере на 50%. Почему мы определяем это приближенное значение? Почему не подсчитать избыточность непосредственно по статистическим данным для печатного текста? Как отмечалось в конце разд. 1.2, прямой подсчет очень непрактичен, потому что для него следует определять слишком много параметров. Конечно, можно дать несколько грубых приближений величины Я, используя предельный переход по статистическим данным, непосредственно подсчитанным для коротких последовательностей букв английского языка (Shannon, 1948). Пусть p{Xi) обозна^ чает вероятность цепочки Xi из k символов. Определим Ok=--j-^P{^i)log2P{xi), (18) где сумма берется по всем цепочкам Хг, содержащим ровно k символов. Тогда Gk будет монотонно убывающей функцией от k и в пределе будет сходиться к Я. Еще лучшее приближение может быть получено через условные вероятности. Рассмотрим матрицу Я, в которой строки соот« ветствуют D^ различным цепочкам Хг из k символов, а столбцы соответствуют D различным символам uj. Элементами этой матрицы являются p{aj\Xi) —условные вероятности того, что после строки Xi из k символов появится {к+\)'И символ Uj. Для каждой строки этой матрицы величина —^ p{aj\Xi)log2p{cij\Xi)
Конечные модели использования языка 163 задает неопределенность относительно символа, появляющегося после заданной строки Х{. Ожидаемое значение этой неопределенности есть новая функция ^k + l = —2 2 Р i^i) Р {dj I ^/) logs Р (Л; I ^^ (19) i J где p{Xi)—вероятность цепочки Хг. Так как p{Xi)p{a^\Xi) = = p{Xiaj), можно показать, что Следовательно, если Gk приближается к Я, то и Fk должно также приближаться к Я. Более того, ^k+i — ^k+i = xqiy ^* -^ ^' откуда Итак, с ростом k функция Fu сходится к Я быстрее, чем Gu- Так как функция F (и другие функции, использующие статистику сообщений) для естественных языков сходится очень медленно, Шеннон (Shannon, 1951) предложил способ оценки, использующий как данные подсчета, так и процесс угадывания. Мы рассмотрим здесь только способ для определения верхней границы Я (и соответственно нижней границы избыточности). Представим себе два одинаковых /^-ограниченных автомата, использующих сведения о вероятностях цепочек английского языка. Для любой цепочки из k символов им известны вероятности появления следующего символа. Первое устройство связано с источником. После выработки любого символа сообщения устройство следующим образом угадывает, что это за символ: сначала называет наиболее вероятный, потом — следующий по вероятности и т. д., пока не угадает правильно. Вместо передачи символа, выработанного источником, мы передаем число угадываний, произведенных устройством. Второе устройство связано с приемным устройством. При получении числа / это устройство расшифровывает его как сообщение о том, что /-е угадывание правильно (учитывая предыдущий контекст). Оба устройства одинаковы, и порядок их угадываний при любом контексте одинаков; второе устройство декодирует получаемые сигналы и восстанавливает исходное сообщение. Последнее восстанавливается полностью, так что эта последовательность чисел содержит ту же информацию — по крайней мере не меньшее количество информации, чем исходный текст. Определив количество информации на символ для производного текста, мы тем самым определим верхнюю границу для исходного. 11*
16} Н. Хомский, Дж. А. Миллер Как будет выглядеть этот производный текст? У нас нет двух таких ^-ограниченных автоматов, но мы попробуем использовать взамен их людей, владеющих языком. Эти люди не знают нужных вероятностей, но знают синтаксические и семантические правила, определяющие эти вероятности. Можно сообщить человеку весь текст до некоторого момента и предложить ему на основании его знания языка предсказать следующую букву. Шеннон (Shannon, 1951) приводит следующий типичный результат опыта: THERE#IS#NO#REVERSE#ON#A#... 111511211211 15 1 17 1112132122... Верхняя строка есть исходное сообщение; под ней указано число угадываний для каждой буквы. При наличии достаточно длинного предшествующего контекста большинство букв — около 80% —угадываются с первого же раза. Заметим также, что в производном тексте соседние символы гораздо меньше связаны между собой; так, число угадываний п-й буквы мало говорит о числе угадываний {п+1)-й ^). Таким образом, избыточность, содержащаяся в исходном тексте в последовательности символов, распределяется в производном тексте по отдельным, не связанным между собой символам. Итак, мы пришли к рассмотрению величины 27 Ek+i = -Iiqk{J)^og,q,{J). (20) где ^fe(/)—вероятность угадывания {k+l)-u буквы цепочки ровно на /-М шаге. Если k велико и если человек — хорошая замена для нужного /^-ограниченного автомата, то Ей будет достаточно близко к Я. Постараемся точнее сформулировать это положение. Рассмотрим снова D^xD-maTpHJxy Р, элементами которой служат p{aj\Xi)—условные вероятности символов Qj после данной цепочки Xi. Угадывающий /^-ограниченный автомат должен просто отобразить uj в число 9(а^) для каждой строки, где буква с наибольшей вероятностью кодируется единицей, со следующей по ^) Каждый язык имеет свое характерное распределение длин слов, значащих и незначащих морфем. Вместе с опять-таки характерной картиной числа угадываний первых, последних и т. п. букв слова это создает очень «неслучайную» картину вероятностей угадывания букв текста. Возможно, этим и объясняется очень низкое значение Ek, полученное в ряде подобных экспериментов. Кое-какие закономерности все же удается подметить; например, перед большим числом, обычно отмечающим начало слова или морфемы, скорее всего будет стоять последовательность из нескольких идущих подряд единиц (окончание, несущее мало информации).— Яр^ж. ред.
Конечные модели использования языка 165 величине вероятностью — двойкой и т. д. Рассмотрим теперь новую О^ХО-иатрицу Q со строками, также соответствующими цепочкам х^ и со столбцами, представляющими первые D чисел в естественном порядке. В каждой строке новой матрицы условные вероятности q[Q{cij)\xi] будут расположены слева направо в порядке убывания. Заметим, что мы ничего не потеряли при замене Р на Q; отображение 9 имеет обратное, потому Fu может быть подсчитано по Q так же, как и по Р. Теперь перестанем обращать внимание на контекст хи другими словами, образуем среднее значение строки матрицы Q, сложив все строки с весами, определяемыми их вероятностями. Это построение даст диИ), или среднюю вероятность правильности /-Г0 угадывания. По теореме 3 известно, что Ff^^Eu. Следовательно, Ek будет также верхней границей количества информации на символ. Далее эта верхняя граница останется и при использовании человека вместо предполагаемого автомата, потому что человек может отклоняться только в направлении большей неопределенности (большего Ek) по сравнению с идеальным устройством. Это можно сформулировать строго. Предположим, что истинные вероятности предсказуемых символов суть ри а человек угадывает их с вероятностями pi (не обязательно точными; ср. Toda, 1956), как-то зависящими от его знаний о языке и предыдущего опыта работы с источником. Пусть 2л = 2а=1- Рассмотрим среднее значение величины ai = pi/pi. По известной теореме о среднем арифметическом и среднем геометрическом (см., например. Hardy, Littlewood, Polya, 1952, гл. 2) имеем {a;f^ ... {aof^<Pia^~{- ••• +Ро(^о^ откуда сразу получаем 1: ^P^ .П.Рг т'-щ° <1, где равенство возможно только при pi = pi для всех /. Логарифмируя это выражение: ^Alog-f <0, Pi /=1 получаем желаемое неравенство — 2AlogA> —2AlogA- (21)
166 я. Xомский, Дж. А. Миллер Неточность в оценке человеком вероятностей приведет только к возрастанию определяемого количества информации. Чем менее он осведомлен, тем неожиданнее для него сигналы источника. Метод угадывания, применяемый для оценки границ количества информации в цепочках символов, достаточно прост. Границы при этом зачастую оказываются неожиданно низкими. Эта методика может применяться и не только в лингвистических целях. Шеннон (Shannon, 1951) находит, что для определенного высококвалифицированного испытуемого £100=1,8 бита на символ. Для 27-буквенного алфавита возможный максимум будет равен log2 27 = 4,73 бита на символ. Следовательно, нижняя граница избыточности равна 1 — (1,3/4,73) =0,73. Это означает, что в прозаических отрывках, исследованных Шенноном, 73 из каждых 100 букв могут быть выброшены, если тот же алфавит использовать более эффективно, т. е. употреблять буквы независимо и с одинаковой вероятностью. Бёртон и Ликлидер (Burton, Licklider, 1955) получили тот же результат и установили, что jE^ достаточно близко к предельному значению при ^ = 32; другими словами, при угадывании текста человеку нет надобности знать более 32 предшествующих букв (около 6 слов). Нижняя граница избыточности зависит от характера отрывка. В определенных условиях, например при передаче команд летчику, сажающему самолет на знакомый аэродром, избыточность возрастает до 96% (Frick, Sumby, 1952; Fritz, Grier, 1955). 1.5. Связь со степенью грамматической правильности В разд. 3 гл. 11 упоминалось о трудной проблеме приписывания цепочкам степени грамматической правильности, которая указывает способ и степень их отклонения от этой правильности в данном языке. Некоторые положения данной главы дают возможный подход к этой проблеме^). Пусть имеется грамматика G, порождающая достаточно узкое (хотя и бесконечное) множество L{G) правильно построенных предложений. Как можно приписать каждой не порождаемой грамматикой цепочке степень ее отклонения по какому-нибудь признаку? Сделаем это следующим образом. Выберем некоторые единицы языка — для конкретности пусть это будут слова — и для простоты не будем делать различия между их различными формами (например, между find, found, finds — ^l Проводимая здесь идея об использовании теоретико-информационных данных для определения оптимального множества синтаксических категорий принадлежит П. Элаесу. Развитие этого подхода с эмпирическими доводами в его поддержку содержится в работе (Chomsky, 1955, гл. 4).
Конечные модели использования языка 167 «нахожу», «нашел», «находит»). Теперь определим иерархию ^ классов этих единиц, где ^ = ^i, ..., ^уу, и для каждого ^^ = [Си ..., Са^], где ai > аз > ... > а^= 1; C^j не пусто; для каждого слова w имеется такое у, что w^C^r C^j^C^^ тогда и только тогда, когда у = А. (22) ^1 —наиболее богатый класс категорий; ^n содержит только одну категорию. Можно ввести и другие условия (например, чтобы ^1 было продолжением ^i+j), но условие (22) достаточно для дальнейшего. ^i называется системой категорий порядка /; его члены — категориями порядка и Последовательность Сь^, ..., Сь категорий порядка / называется предложением порядка /; будем говорить, что она порождает цепочку слов Wu ..., '^q, если при любом У<^ Wj^Cb- Таким образом, множество всех цепочек слов,'порождаемых данной формой предложения, есть декартово произведение соответствующих категорий. Мы описывали ^ и G независимо; теперь установим между ними связь. Множество 2 форм предложений порядка i перекрывает G, если любая цепочка из L{0) порождается некоторой формой из 2. Назовем форму предложения правильной грамматически относительно G, если одна из цепочек, порождаемых этой формой, входит в L(G); и назовем вполне правильной грамматически относительно G, если любая порождаемая ею цепочка входит в L{G). Будем говорить, что ^ совместимо с G, если для любого предложения w в L{G) имеется форма предложения порядка 1, порождающая w и вполне грамматическая относительно G. Таким образом, если ^ совместимо с G, то имеется множество вполне правильных грамматически форм порядка 1, являющихся перекрытием G. Можно также потребовать для совместимости, чтобы ^i было наименьшим множеством классов слов, удовлетворяющих этому условию. Заметим, что в этом случае следует допускать попарное пересечение категорий из ^1- Hanpnrviep, слово know («знать») войдет в Ср а слово по («нет») — в Сj {i Ф у), хотя по произношению они совпадают. Для ^, совместимого с G, если два слова взаимозаменимы в L(G), они принадлежат одной и той же категории Су; обратное, вообще говоря, неверно^). ^) По-видимому, имеется в виду случай типа а ^С^, ^^Cg, a^C\,^b^C\, ^G^i ^6^3» Здесь а VL b принадлежат Cj, но не взаимозаменимы. — Прим, перев.
168 Н. Хомский, Дж. А. Миллер Назовем цепочку w (^грамматически правильной (имеющей степень грамматической правильности i) относительно G, ^, если i — наименьшее число, такое, что w порождается грамматически правильной формой предложения порядка i. Таким образом, цепочки с наибольшей грамматической правильностью имеют порядок 1, соответствующий самому мелкому делению на категории. Степень грамматической правильности любой цепочки не превышает Л/, потому что ^n содержит только одну категорию. Эту идею можно пояснить на примере. Пусть G — грамматика английского языка, а ^ — совместимая с ней система кате^ горий, имеющая структуру следующего типа: ^1* ^чел = {Ьоу, man, ...} («мальчик», «человек», ...) NcB — {virtue, sincerity, ...} («добродетель», «искренность»,...) дг^^д = {idea, belief, ...} («мысль», «вера», ...) Л^пищ = {bread, beef, ...} («хлеб», «мясо», ...) -^предм = {book, chair, ...} («книга», «стул», ...) Kj = {admire, dislicke, ...} («восхищаться», «питать отвраще- (23) ние», ...) 1^2 = {annoy, frighten, ...} («надоедать», «бояться, ...) Kg = {hit, find, ...} («бить», «находить», ...) V^= {sleep, reminisce, ...} («спать», «вспоминать», ...) и т. д. ^2» Существительное = ТУцел U -^св U • • • Глагол =7iU^2U... и т. д. ^3*- Слово. Эта крайне примитивная иерархия ^ категорий позволит нам установить некоторые грамматические различия между цепочками слов. Пусть G порождает цепочки: the boy cut the beef («мальчик разрезал мясо»), the boy reminisced («мальчик вспомнил»), sincerity frightens me («искренность пугает меня»), the boy admires sincerity («мальчиквосхищается искренностью»), the idea that sincerity might frighten you astonishes me («мысль что искренность может вас напугать, удивляет меня»), the boy found а piece of bread («мальчик нашел кусок хлеба»), the boy found the chair («мальчик нашел стул»), the boy who annoyed me slept here («мальчик, который надоел мне, спал здесь») и т. д. Но она, конечно, не порождает таких цепочек: the beef cut sincerity («мясо разрезало искренность»), sincerity reminis-* ced («искренность вспомнила»), the boy frightens sincerity («мальчик пугает искренность»), sincerity admires the boy («искренность восхищается мальчиком»), the sincerity that the idea
Конечные модели использования языка 169 might frighten you astonishes me («искренность, что мысль может вас напугать, удивляет меня»), the boy found а piece of book («мальчик нашел кусок книги»), the boy annoyed the chair («мальчик надоел стулу»), the chair who annoyed me found here («стул, который надоел мне, нашел здесь») и т. д. Цепочки первого типа будут 1-грамматически правильными (как и все цепочки, порождаемые G); цепочки второго типа — 2-грамматически правильными; в соответствии с этим примитивным заданием категорий все цепочки будут по крайней мере 3-грамматически правильными. \ Конечно, многие из 2-грамматически правильных цепочек мо* гут найти применение в реальных высказываниях. Действитель- но, многие из них [например, misery loves company («несчастье любит компанию» — аналог русской пословицы «беда не ходит одна». — Перев.)] употребляются чаще, чем многие 1-грамма- тически правильные цепочки (бесконечное множество которых имеет вероятность О и состоит из частей, имеюш.их вероятность 0). Говорящий по-английски может дать интерпретацию многим из этих цепочек, усмотрев их аналогию с теми, которые он построил в соответствии с грамматикой, так же как можно дать интерпретацию абстрактной картине. 1-грамматически правиль-* ная цепочка, как и картина, написанная в реалистической манере, для своего понимания, вообще говоря, не нуждается в интерпретации. Иерархия, аналогичная ^, может объяснить раз* личие между цепочками слов, которое чувствует человек. Например, цепочка colorless green ideas sleep furiously («бесцветные зеленые идеи спят яростно») отличается по правильности построения, с одной стороны, от revolutionary new ideas appear infrequently («новые революционные идеи возникают нечасто»), с другой — от furiously sleep ideas green colorless («яростно спят идеи зеленые бесцветные») или harmless seem dogs young friendly («безвредные выглядят собаки молодые дружески») (причем в последнем примере та же система грамматических окончаний). Можно привести сколько угодно подобных примеров. Мы видим, что порождающая грамматика в большей степени выполняет функции объяснительной теории, если построить для нее некоторую совместимую иерархию ^, в терминах которой определяется степень грамматической правильности. Рассмотрим, как это можно сделать. Задачу нахождения оптимальной системы категорий ^i = [Ci, ..., CflJ мы будем решать при двух ограничениях: во-первых, будем рассматривать предложения языка, имеющие
170 Н. Хомский, Дж. А. Миллер фиксированную длину X, во-вторых, фиксируем само а^ Будем стремиться к такому выбору а^ категорий, который в определенном смысле наилучшим образом отражает отношение взаимозаменяемости. При этом будем интересоваться заменяемостью не по отношению к L(G), а по отношению к контексту, представленному в терминах категорий самого ^{. Например, возьмем слова boy («мальчик») и sincerity («искренность»): они гораздо более заменимы в контексте, определяемом категориями из ^2(23), чем в естественном контексте L{G)\ так, оба эти слова можно встретить в обороте: Существительное, Глагол, Определитель —, но нельзя встретить в контексте you frighten the— («вы пугаете—»). Некоторые слова вообще могут быть невзаимозаменяемыми в L{G) и взаимозаменяемыми в терминах категорий высшего порядка. Это приводит к мысли, что категории ^^ нельзя строить независимо друг от друга, учитывая только взаимозаменяемость в L(G), — оптимальность опи-* сания взаимозаменяемости зависит от системы категорий в целом. Более удачен следующий подход к решению задачи. Пусть ai — последовательность Su ..., Sm всех предложений длины X в L{Q) и предлагается множество ^i из ai категорий. Пусть 02 — последовательность 2i, ..., 2m форм предложений системы ^1, где при любом j^m 2j порождает Sy Вообще говоря, в 02 будет много повторений. Пусть аз — последовательность ifi, ..., /п всех цепочек, порождаемых формами предложений 2j из 02, причем в аз нет повторений. Например, пусть в 01 есть цепочки the boy slept («мальчик спал») и the period elapsed («период истек»), но нет the period slept («период спал») и the boy elapsed («мальчик истек»), а 02 строится в терминах частей речи (т. е. 02 содержит цепочку: Определитель Существительное Глагол); тогда 0з будет содержать все четыре приведенных выше предложения. Представляется разумным оценивать удачность выбора системы категорий в зависимости от длины последовательности 03. Число порожденных предложений в 03 показывает степень, в которой деление на категории отражает отношение взаимозаменяемости не только по отношению к данному множеству предложений, но и по отношению к контексту, определенному в терминах самих категорий. Так, конкретные существительные могут не быть взаимозаменяемыми в соседстве с одними и теми же глаголами, но могут появляться в данной позиции с другими глаголами, потому что они взаимозаменяемы по отношению к категории глагол. Это же справедливо для конкретных глаголов, прилагательных и т. д. При таком подходе все категории строятся одновременно.
Конечные модели использования языка 171 Итак, пусть задана последовательность о\ предложений длины X и система ^i из ai категорий. Чтобы дать оценку системе ^0 мы должны построить последовательность аг, перекрывающую Gi в определенном ранее смысле (точнее, множество членов 02 есть перекрытие ai) и минимальную в том смысле, что она порождает самую короткую последовательность аз. Если категории ^i попарно не пересекаются, это сделать просто — нужно заменить каждое слово в цепочке ai его категорией из ^i и построить таким образом аг. Но если категории ^^ частично пересекаются, может быть много перекрывающих последовательностей G2\ чтобы оценить ^^, нужно выбрать минимальную из нюс. Как мы видели, категории пересекаются в случае грамматической омонимии. Если при формировании ^i слово попадает более чем в одну категорию, то ценность системы категорий уменьшается в одном отношении. Как только категория появляется в форме предложения из аг, для всех слов этой категории в аз порождается множество предложений. Потому, чем больше слов в категории, тем больше порождается предложений и тем менее удовлетворительна система. Конечно, если слово, попадающее в две категории, действительно омонимично, то при этом получается и некоторая компенсация. Предположим, например, что последовательность фонем [пои] [know («знать»), по («нет»)] включена только в категорию глагола. Тогда в аз все глаголы будут порождены в позиции: there are — books on the table, («на столе — книг»). Аналогично если она включена только в категорию определителей, то все они будут порождены в таких контекстах, как: I — that he has been here («я — что он был здесь»). Если же слово [пои] будет включено в обе категории, каждое конкретное его вхождение в ai может рассматриваться или как глагол, или как определитель. Потому глаголы появятся только в контексте: I — that he has been here, a определители — в контексте: there are—books on the table, и не получится новых форм предложений, как было бы при отнесении [пои] к глаголам в первом случае и к определителям во втором. Это и есть упомянутая компенсация для последовательности аз порождаемых цепочек. Учитывая эти замечания, можно в каждом конкретном слу-^ чае решить, целесообразно ли рассматривать один элемент как множество грамматических омонимов. Мы будем это делать, если потери, вызываемые включением его в несколько категорий, компенсируются выигрышем, получаемым благодаря боль^ шей свободе при выборе перекрывающей последовательности аг; таким образом, вопрос решается чисто арифметически. Конечно, следует показать, исходя из содержательных критериев, что
172 Н. Хомский, Дж. А. Миллер описанное решение проблемы омонимии верно. Некоторые предварительные исследования позволяют надеяться на это (см. Chomsky, 1955), но действительная оценка и улучшение этого или какого-либо другого подхода к синтаксической категории связаны с необозримым объемом работ. Более того, при нашем кратком рассмотрении многие важные аспекты такого подхода остались в тени. Вернемся к нашим двум предположениям: а) что длина % последовательности фиксирована и б) что число категорий фиксировано. Без первого из них легко обойтись. Если задано G и фиксировано а^ можно следующим образом оценить множество ^f=\C\, ..., су, Возьмем новое «слово» # , обозначающее границу предложения и не входящее ни в какое из С). Определим речь как последовательность слов #, w\, ..., w]^ ^ #,w\,...,wl, #, ..., #,'Z2;f, ..., 'ге;^ , где ДЛЯ любого у wl, .. ,,wi^ есть предложение языка, порождаемого G. Это речь длиной ai+ ... +ah + k. Начальная речь есть начальная подпоследовательность речи. Речевая форма — последовательность Cpj, ..., Ср категорий из ^^ и {#}, такая, что существует речь Wu ..., Wq, где Wj^C^^. при любом j', начальная речевая форма — начальная подпоследовательность речевой формы. Пусть 1>х—множество начальных речевых форм, каждая из которых имеет длину к, перекрывающее множество всех речей длины X и минимальное с точки зрения порождающей способности, и пусть N{X)—число различных цепочек, порождаемых членами 2;^. Тогда по аналогии с определением пропускной способности канала в формуле (1) можно естественным образом определить оценку системы категорий ^/ val(^,)=limi2&^. (24) Лучшим будем считать такое задание at категорий ^^, для которого val(8^/) минимально. Другими словами, мы хотим найти такое задание а{ категорий, которое минимизирует информацию, приходящуюся на одно слово, или увеличивает избыточность в порождаемом «языке» грамматически правильных речей (в предположении независимости последовательных предложений). При таком задании категорий анализ по категориям дает максимум ограничений на источник. Практически подсчет оценки сильно упрощается, если предположить, что члены Х\ не являются независимыми. Предложенный способ определения оптимального задания системы из п категорий пригоден при любом /г и не зависит
Конечные модели использования языка 173 от длины предложения. Теперь остается только задать числа йи ..., cin, определяющие количество категорий в условии (22). Действительно, предположим, что мы описанным выше способом определили для любого п оптимальную систему Кп из п категорий. Но из множества {Кп} нужно выбрать иерархию ^, определив, для каких чисел Ui оптимальная система категорий /Сй^ включается в ^ в качестве ^/. Хотелось бы выбирать ai таким образом, чтобы АГа^было лучше, чем АГй.-ь и не было су- ш,ественно хуже, чем Ка^+и т. е. чтобы было очень невыгодно формировать систему менее чем из at категорий и не получалось суш,ественного выигрыша при добавлении новых категорий. Можно, например, брать ^i=Ka^ как член ^, если функция f{n) =пуа\{Кп) имеет локальный минимум при n = ai. (Можно также рассматривать абсолютный минимум функции /, определенной этим или другим способом, и использовать его для получения абсолютной оценки грамматической правильности и деления множества цепочек на грамматически правильные и неправильные; при этом множество грамматически правильных цепочек в качестве собственного подкласса будет включать цепочки, порождаемые грамматикой.) Указанным образом можно 'задать общ.ее правило W, пере- рабатывающ.ее любую грамматику G в W{G) = ^ — иерархию категорий, совместимую с G и определяющ.ую степень грамматической правильности цепочек в терминальном словаре G^). Тогда можно сказать, что роль грамматики не ограничивается порождением предложений и их структурных описаний; она также определяет степень грамматической правильности цепочек, измеряющую их отклонения от правильно построенных предложений, и вырабатывает частичное структурное описание, указывающее, в чем именно заключается это отклонение. Едва ли нужно оговаривать, что имеется много других подходов к решению этой сложной проблемы и что предлагаемый метод вместе со своими деталями не претендует на особую роль среди них. 1.6. Минимально-избыточные коды Прежде чем передавать сообщение, необходимо закодировать его в форме, соответствующей средствам передачи. Это кодирование выполняется различными способами, однако вопрос о его эффективности имеет теоретический интерес. Какие ^) Отметим неконструктивный характер этого задания: в нем фигурирует предельный переход по Х, т. е. для оценки каждой системы категорий нужно просмотреть бесконечное число речевых форм» — Прим. перев.
174 Я. Хомский, Дж. А, Миллер коды при заданном алфавите дают в среднем наиболее корот-- кие сообщения? Такие коды называются минимально-избыточными. Естественные языки сильно избыточны; возникает про^ блема, как перекодировать их, чтобы уменьшить эту избыточ-- ность. Вопрос об эффективном кодировании приобретает особый интерес при рассмотрении канала с шумами; для него эффективный код должен не только сокращать сообщения, но и уменьшать частоту ошибок. В применении теории информации к практическим проблемам техники связи эта задача является одной из основных. Поскольку психологи и лингвисты еще не применяли эти фундаментальные результаты относительно каналов с шумами, мы ограничимся проблемой нахождения минимально-^ избыточных кодов для каналов без шумов. Проблема оптимального кодирования может быть постав-- лена следующим образом. Из разд. 1.3 мы знаем, что наиболее эффективно такое использование алфавита, при котором все буквы появляются независимо и с одинаковой вероятностью, т. е. все цепочки одинаковой длины равновероятны. Потому бу^ дем искать функцию 9, преобразующую наши естественные сообщения таким образом, чтобы все последовательности одинаковой длины были равновероятны. Предположим для простоты, что сообщения можно разделить на независимые единицы, ко-- дируемые отдельно. Пусть для определенности это печатный английский текст, в котором следующие друг за другом слова независимы. Текст накапливается скачкообразно, от одного пробела до другого. Нужно так определить последовательность кодовых символов для любого слова, чтобы все они использовались в среднем одинаково часто и независимо и чтобы при декодировании можно было разбить полученное сообщение на сегменты, по которым восстанавливаются исходные слова. Заметим, что при минимально-избыточном кодировании дли^ на кода наиболее вероятного слова не может превышать длины кода любого другого слова. В противном случае можно было бы уменьшить среднюю длину, поменяв коды данных двух слов. Потому мы начнем с расположения слов в порядке уменьшения вероятности их появления в тексте. Пусть рг означает вероятность слова с номером г, а Сг — длину его кода; мы упорядочили слова так, что Р\>Р2> ••• >РМ-\>РЮ где N — число различных слов в словаре. Для минимально-избыточного кода должно быть справедливо следующее:
Конечные модели использования языка 175 Средняя длина С кода слова будет равна N С = 2 РгСг (25) Очевидно, что средняя длина минимальна, если использовать только однобуквенные коды, но это привело бы к слишком большому числу D кодовых букв. Обычно выбор D ограничен природой канала. Мы хотим минимизировать не длину саму по себе, а длину на единицу передаваемой информации. Наша задача — минимизировать С/Н — длину на бит (или максимизировать Н/С — количество информации на единицу длины) при двух дополнительных условиях: 1) S/7r=l и 2) код любого сообщения должен расшифровываться однозначно. По предположению 2 разд. 1.3, Н/С (информация на букву в коде слова) не может превышать logZ) — емкость кодового алфавита. Отсюда можно определить нижнюю границу ^>1б|5- (26) Хотя это неравенство верно, его нельзя вывести только на основе предположения 2. Рассмотрим следующий противоречащий пример (Feinstein, 1958): имеется словарь из трех слов с вероятностями /71~р2=2/7з=0,4; закодируем пх в двоичном алфавите {О, 1} так, чтобы 9(1) =0, 9(2) = 1 и 9(3) =01. Легко подсчитать, что С =1,2, Я =1,52, а log2^ = l, так что средняя длина меньше, чем нижняя граница в неравенстве (26). Причина состоит в том, что 9 не дает правильного кода в смысле гл. 11: коды сообщений не декодируются однозначно. Но если добавить к предположению 2 условие однозначности декодирования, можно установить нижнюю границу неравенства (26). Это условие легко сформулировать в терминах леводревовидных кодов, в которых никакой код слова не может быть началом кода какого-либо другого слова. Используя выражение (21), можно написать ^ ^ -с, H=~^PilOgPi<—^Pi\Og D"^^ /«1 /-1 ^D"'^ N N ^log^D-'^+^p,c,\ogD. i-i t'l
176 Н. Хомский, Дж. Л. Миллер Для леводревовидных кодов имеет место неравенство (4) гл. 11: 2 Z)~^^ <[ 1; следовательно, log 2/>"Ч log 1=0, так что можно написать N ^<2A^^logD, откуда неравенство (26) получается простой подстановкой. Насколько можно приблизиться к нижней границе средней длины С, установленной в неравенстве (26)? Ответ дает следующая теорема (Shannon, 1948). Теорема 4. Пусть заданы словарь V из N слов с информацией Н и кодовый алфавит А из D символов. Тогда можно так закодировать слова цепочками из Л, чтобы среднее число С символов в коде слова удовлетворяло неравенству " <С<Т7;^+1- (27) logD ^ ^ logD Доказательство многократно публиковалось; см., например, (Feinstein, 1958, гл. 2); (Fano, 1961, гл. 3). Вместо доказательства существования минимально-избыточных кодов рассмотрим способ их построения. Шеннон (Shannon, 1948) и Фано (Fano, 1949) предлагают методы кодирования, асимптотически приближающегося к минимально-избыточному с увеличением длины единиц кода, по которым можно восстановить сегменты сообщения. Хаффмен (Huffman) в 1952 г. исследовал метод построения кодов с минимальной избыточностью для конечных словарей без использования предельного перехода. Он предполагает, что кодируемый словарь конечен, вероятность каждого слова заранее известна, используется лево- древовидный код и все кодовые символы имеют длину 1. Рассмотрим условия, которым должен удовлетворять минимально- избыточный код при этих ограничениях. 1. Никакие два слова не могут кодироваться одной и той же цепочкой символов. 2. Адресат должен иметь возможность расчленить коды сообщений на составляющие их коды отдельных слов. (Это условие обсуждалось в гл. 11, разд. 2.) Для минимально-избыточных кодов невыгодно принятое использование специального символа (пробела), указывающего границы слов. В леводревовидных кодах, конечно, возможно правильное разбиение на слова.
Конечные модели использования языка 177 3. Если слова расположены в порядке уменьшения вероятностей ргу то длины их кодов Сг должны удовлетворять неравенству Поскольку ДЛИНЫ всех кодовых символов одинаковы, Сг можно считать просто числом символов, используемых для кодирования г-го слова. В минимально-избыточных древовидных кодах CN-i = C]sfy так как первые c^-i символов, используемых для кодирования Л^-го слова, не могут использоваться для кодирования какого-нибудь другого слова; иначе говоря, коды (Л^— 1)-го и Л/'-го слов должны отличаться своими первыми c^-i символами, и потому не нужно дополнительных символов для кодирования Л/'-го слова. 4. По крайней мере 2 (и не более чем D) слова с кодом длины Cjsr имеют коды, отличающиеся только последней буквой. Представим себе древовидный код, в котором это не выполняется; тогда в кодах длины Cn можно отбросить последние символы. Это уменьшит среднюю длину, и мы придем к противоречию. 5. Для любой цепочки из (cn—1) кодовых символов один из ее начальных сегментов (возможно, совпадающий с самой цепочкой) должен использоваться в качестве кода какого-нибудь слова. Если бы имелась цепочка, не удовлетворяющая этому условию, то среднюю длину кода можно было бы уменьшить, используя ее вместо более длинной цепочки. Используя эти ограничения, наметим метод построения минимально-избыточного кода для двоичного алфавита (Z) = 2). Составим список слов в порядке убывания вероятностей. По (3) CN-i = CN, и по (4) имеются ровно два слова, отличающиеся только последними символами. Потому можно считать О последним символом {N—1)-го слова и 1 последним символом N-ro слова. Как только это сделано, (Л^—1)-е и N-e слова, взятые вместе, эквивалентны сложному сообщению; его кодом будет общий (но пока неизвестный) начальный сегмент длины Cn—1, а его вероятность равна сумме вероятностей составляющих его слов. Объединяя эти два слова, построим словарь только с N—1 словом. Упорядочим в нем слова, как и ранее, и повторим все операции. Продолжим этот процесс до тех пор, пока не придем к словарю, содержащему только два слова, одно из которых закодируем символом О, а другое 1, что пол^ костью определяет код. Иллюстрация этого метода для двоичного алфавита дается табл. 2. Словарь из девяти слов дан в порядке убывания вероятностей. На первом шаге мы задаем О и 1 как последние
178 Н. Хомский, Дж. А. Миллер СИМВОЛЫ кодов слов h и / соответственно (или наоборот), а потом объединяем h и i как единицу нового производного распределения. Процесс повторяется для наименее вероятных единиц этого нового распределения и т. д., пока не будут определены все коды. В результате строится кодовое дерево; с некоторым трудом его можно увидеть в табл. 2, где ствол р.асположен справа, а ветви растут налево; в более привычной форме оно изображено на рис. 2. Чтобы определить эф- фективность кодирования, нужно знать logD, С и Я. Кодовый алфавит двоичный (D = 2), и его информационная емкость будет log2Z) = I бит на символ. Средняя длина кода может быть легко подсчитана из табл. 2 по формуле (25); результат равен 2,80 двоичного символа на слово. Количество информации при исходном распределении вероятностей слов можно подсчитать по формуле (13); результат равен 2,781 бита на слово. По теореме 4 имеем Г^ «л «л о 00 1^ «л «л <Ч <Ч П. —, Ч CJ. q. о, оооооооо \ г^ го «л о оо г^ «л V> fs (^ г|^ ^^ .-,^ о, о. р, q. о. ооооооооо о »- о 2 ^ « •« W "в *» Si *^ч: 2,7$ 1 2,78 <2,80<-^+1, откуда видно, что для этого примера средняя длина очень близка к своей нижней границе. Избыточность кода, определяемая по фор* ^ муле (17), меньше 1%. Очевидно, что ошибки при передаче или приеме минимально^ избыточных кодов трудно обнаружить. В кодовом дереве ис^ пользуются зсе ветви, я ошибки переводят правильное сообще-
Конечные модели использования языка 179 кие в другое, которое также вполне вероятно. Поискам наиболее эффективного способа введения избыточности, позволяющего легче обнаружить и исправить ошибки, посвящались специальные исследования. Но здесь мы не будем делать обзора этих кодов с искусственной избыточностью. Заметим только, что избыточность естественных кодов не настолько неэффективна, как кажется, — она позволяет поддерживать связь и в неоптимальных условиях. Рис. 2. Кодовое дерево, построенное для минимально-избыточного кода табл. 2. Минимально-избыточные коды важны потому, что они более экономны. Средства сообщения имеют цену, и за них прихо^ дится платить. Часто целесообразно рассматривать С — сред-» нюю длину сообщения —^ как меру издержек, потому что для передачи более длинных сообщений требуется больше времени или более сложная аппаратура. Заметим, что экономия, достигаемая минимизацией значения С/Н, влияет на цену, которую запрашивает владелец средств связи, а не на цену, которую готов платить потребитель (Marschak, I960). При этом последняя зависит от прибыли, которую потребитель рассчитывает получить, используя информацию; и поскольку все это обычно существенно зависит от содержания сообщения, этот вопрос вьь ходит за пределы исследований, проводимых в данной статье»
180 Н. Хомский, Дж. Ai Миллер 1.7. Частоты слов Едва ли покажется неожиданным, что различные слова естественного языка появляются в обычных речевых ансамблях не одинаково часто. Одни слова гораздо более употребительны, чем другие. Психологи используют это различие вероятностей для экспериментов, в которых слова служат стимулами. Существует стандартный метод определения результатов предъявления объектов разной знакомости для испытуемого, заключающийся в выборе слов с известными относительными частотами появления. Для английского языка, по-видимому, наиболее известны и широко используются методы подсчета Торндайка — Лорджа (Thorndike, Lorge, 1944). Имеется богатая техническая литература, содержащая статистические данные относительно различных (обычно письменных) языков мира; здесь мы не будем давать ее обзора. Вместо этого обратим внимание на некоторые статистические аспекты словаря, имеющие самое большое теоретическое значение. Различные статистические исследования выявляют одну совершенно неожиданную закономерность. По-видимому, проще всего ее можно описать следующим образом (Mandelbrot, 1959). Рассмотрим (конечное или бесконечное) множество дискретных объектов, каждый из которых снабжен меткой, взятой из некоторого дискретного множества. Пусть /i(f, s)—число различных меток, которые появляются ровно f раз при выборе 5 объектов. Тогда оказывается, что для больших 5 «(/, s)=:G(5)/-^^+'», (28) где р>0 и G{s) —постоянная, зависящая только от объема выборки. Если рассматривать выражение (28) как плотность вероятности, то легко видеть, что дисперсия f конечна тогда и только тогда, когда р>2, а среднее значение f конечно только при р>1. В интересующих нас случаях часто будет р<1; это покажется аномальным (и даже патологическим) тому, кто предубежден против бесконечных средних значений и дисперсий в нормальных распределениях. Как известно, при нахождении функции нормального распределения предполагается, что имеется сумма большого числа переменных величин, вклад каждой из которых относительно мал. Если же равноправность слагаемых не имеет места, то может тем не менее оказаться, чтосуще** ствует стационарное предельное распределение, в котором все моменты (кроме, быть может, первого) будут бесконечными (ср. Гнеденко и Колмогоров, 1949, гл. 7). Таково и распределен кие, описываемое равенством (28).
Конечные модели использования языка 181 Ненормальными предельными распределениями можно было бы пренебречь как математическими курьезами, не имеющими практического значения, если бы они не наблюдались в различных условиях. В социальных науках эти условия встречаются особенно часто (Mandelbrot, 1958). Например, если объекты суть экземпляры денежных единиц, а метки — имена получающих их людей, то n{f, s) —количество людей, получающих ровно f денежных единиц из каждых 5 единиц общего дохода. В этой форме закон был установлен (с р>1) Парето (Pareto, 1897). С другой стороны, если объекты — биологические виды, а метки — названия родов, к которым они принадлежат, то /2(f, s) —число родов, содержащих ровно f видов. В этой форме закон был установлен Уиллисом (Willis, 1922), а затем уточнен Юлом (Yule, 1924) с р<1 (р обычно оказывается близким к 0,5). В нашем примере объектами служат слова, последовательно встречающиеся в сплошном тексте некоторого автора, а метки— последовательности букв, изображающие слова; тогда n{f, s) — число последовательностей букв (абстрактных слов), появляющихся ровно f раз в тексте из 5 слов (конкретных слов) ^). В этой форме закон был впервые установлен Эстоупом (Estoup, 1916), повторно исследован Кондоном (Condon, 1928) и интенсивно изучен Ципфом (Zipf, 1935). Ципф полагал р = 1, но дальнейший анализ показал, что обычно р<1. Ципф (Zipf, 1949) приводит много данных, подтверждающих общий характер закона (28); распределения этого типа обычно связываются с его именем. Для дальнейшего удобно расположить слова в порядке убывания частот (как делалось при решении проблемы кодирования в предыдущем разделе). Определим ранг г как число слов, встречающихся f или более раз: оо г=2 и и, S). Объединяя это определение с выражением (28) и аппроксимИ' руя сумму интегралом, получаем для больших f р/р ^) Поясним на примере понятие абстрактного и конкретного слова. В тексте «птичка летает, птичка играет, птичка поет», состоящем из шести (конкретных) слов, абстрактных слов только четыре: «птичка», «летает», «играет», «поет», — Прим. ред.
182 Я. Хомский, Дж. А. Миллер что показывает взаимоотношение между рангом г и частотой /. Это равенство можно переписать так: {^(Ш-у^^К'г-в, (29) где В = 1/р. Отсюда logf^K — Blogr. Это означает, что в логарифмической системе координат отно^ шение между рангом и частотой изображается прямой линией и,1 (§ 0,0f 1 1 & o.oot lis i i ;S 0,0001 nnnnm - ^the 1 . ^r \^or ~] ^say t ! ^reaUy \o-yuaUty 1 A w 100 Поря дои слова WOO 100001, Рис. 3. Отношение между рангом и частотой в логарифмической системе координат. С угловым коэффициентом —В. Этот закон исследовался именно таким графическим методом; на графике удобно изображать и результаты подсчета слов (рис. 3). Постоянное столкновение с распределениями, не подчиняю^ щимися нормальному закону, вызвало многочисленные попытки объяснения и обсуждения их относительных достоинств. Мы не будем давать обзор этих обсуждений. Ниже мы, следуя Ман^
Конечные модели использования языка 183 дельброту (Mandelbrot, 1953, 1957), поясним механизм этого закона для простейших случаев. Представим, что передаваемое сообщение является последовательностью случайных десятичных цифр. Пусть цифры О и 1 играют роль пробелов между словами; появление О или 1 означает начало нового слова. (При этом коде имеются слова нулевой длины; если это представляется неестественным, можно путем простейшей модификации их исключить.) Вероятность получения слова длины i равна (вероятность символа) ^Х (вероят- I ' и Н|11| ГТТТТТТТ] 1 I I |||||[ Г-| им 0,00001 I I 11 mil, 10 Ранг, г iiJii—I I I mill—i i^ijiiiil 100 1000 10000 Рис. 4. Отношение между рангом и частотой для цепочек случайных цифр между соседними появлениями О и 1: — изображено указанное отношение; —отношение между средним рангом и частотой. ность пробела) = (0,8)^'X (0,2), а число различных слов длины i равно 8Ч Главная особенность этого примера заключается в том, что, располагая слова в порядке возрастания длины, мы одновременно располагаем их в порядке убывания вероятности. Теперь можно построить табл. 3. Единственное слово длины О имеет вероятность 0,2; так как это наиболее вероятное слово, оно получает ранг 1. Восемь слов длины 1 имеют вероятность 0,02 и делят ранги от 2 до 9; мы припишем всем им средний ранг 5,5; и так продолжим таблицу. Нанеся эти значения в системе логарифмических координат, получим функцию, изображенную на рис. 4. Нетрудно заметить, ^то угловой коэффициент немного
184 Н. Хомский, Цж. А. Миллер меньше —1, что характерно и для большинства текстов на естественных языках. Таблица 3 Отношение между рангом и частотой для случайного кода Длина 0 1 2 3 . • Вероятность 0.2 0.02 0.002 0.0002 . • Количество 1 8 64 512 . • Ранги 1 2—9 10—73 74—585 . • Средний ранг 1 5.5 41.5 329.5 . • Нетрудно вывести общее соотношение между вероятностью и средним рангом для этого простого случая (Miller, 1957). Пусть /?(#)—вероятность пробела, 1—/7(#)=p(L)—вероятность буквы. Если алфавит содержит D букв (не считая #), то p{L)/D — вероятность любой конкретной буквы, а p{Wi) = = ^7(фf:)^7(L)Ф~^* — вероятность любого конкретного слова длины i (/ = 0, 1, ...). Эту величину удобнее записать в следующем виде: Так как имеется D^ слов длины у, то число слов длины, меньшей или равной /, равно 2 DK Если их упорядочить по возрастающей длине, то D^ слов длины / получат ранги от 1 + 2 ^^ до S D^' Средний ранг будет ;.0 ;=0 ~2V^D —1^ D —1 / ^ 2(D —1 D —3 1)^ 2(D-1)- Это равенство можно переписать так:
Конечные модели использования языка 185 Комбинируя (30) и (31), получаем p{wd = P{#){^^[r{w,)-c]Y^ = K'[r{w,)-cr\ (32) что является другой формой выражения (29), причем ^—^ \ogD ' ^■~2(D —1)' ^ —/'№;[ D + 1 J • Таким образом, последовательность случайных цифр подчиняется общему закону, установленному для частот слов. Если для представления английского текста взять Z) = 26 и /7(#) = 0,18, то ^^^'^^==1,06, = 0,46 Так что /C^ = 0,18(|^-) '''' = 0,09. p{Wi) = 0,09[r{Wi) — 0A6] -1,06 Так как ^ = 0,46 пренебрежимо мало при росте r{Wi), можно написать что действительно близко к функции, наблюдаемой для реальных английских текстов (Ципф, например, полагает К' = ОД и В = 1). Гипотеза о том, что пробел между словами в английском языке может рассматриваться как случайный символ, имеет весьма правдоподобные следствия. Она помогает понять, почему вероятность слов так резко убывает с их длиной, что в среднем действительно верно для английского языка. Основным моментом при выводе соотношения (32) является замечание о том, что для случайного сообщения ранг по возрастающей длине совпадает с рангом по убывающей вероятности. В английском языке, конечно, эта эквивалентность рангов не соблюдается точно — в противном случае самое частое слово the не состояло бы из трех букв, — но приближенно оно соблюдается. Миллер и Ньюмен (Miller, Newman, 1958) подтвердили предположение, что средняя частота и средний ранг слов длины i при возрастании длины являются взаимно обратными величинами, причем угловой коэффициент отношения между длиной и
186 Я. Хомский, Дж. А, Миллер частотой в логарифмических координатах близок к 5, но, по- видимому, несколько меньше его. В разд. 1.6 мы заметили, что в минимально-избыточном коде длина любого слова не может быть меньше, чем длина более вероятного слова. Рассмотрим теперь соотношение между рангом и частотой для оптимальных кодов, т. е. для кодов, в которых достигается нижняя граница средней длины С, так что C = H/\og D. Это оптимальное условие выполняется, если длина i любого слова прямо пропорциональна количеству содержащейся в нем информации . _ — log р (Wj) где р зависит от выбора масштабных единиц. Это равенство можно переписать так: что снова совпадает с равенством (30) при В = 1/р^). Отсюда можно продолжить те же выкладки, что и ранее. Следовательно, выведенное соотношение между рангом и частотой имеет место для минимально-избыточных кодов, потому что для таких кодов (как и для случайных чисел) все последовательности одинаковой длины равновероятны. Интересно, что в минимально-избыточных кодах и в естественных языках (которые, конечно, далеки от минимальной избыточности) соотношение между рангом и частотой подчиняется одному и тому же закону, но это, разумеется, не дает никакого основания предполагать, что кодирование в естественных языках является сколько-нибудь оптимальным. Выбор цифр О и 1 в качестве границ слов в последовательности случайных чисел был совершенно произвольным; вместо них можно было взять любые другие числа. Аналогично можно рассматривать в английском тексте в качестве границы слова не пробел, а какой-либо другой символ. Миллер и Ньюмен (Miller, Newman, 1958) исследовали соотношение между рангом и частотой для (относительно малого) множества псевдослов, образованных при использовании буквы Е в качестве границы слов (и пробела в качестве обычной буквы). Наиболее частым оказалось нулевое, «слово» ЕЕ, к нему тесно примыкали «слова» ERE, £#£■ и т. д. Как и предполагалось, общая закономер- ^) в этом ходе рассуждений переводчику осталась непонятной зависимость i и p(Wi) от р, т. е. от выбора некой масштабной единицы. По самому определению оптимального кода p(Wi)=D-\ что является частным случаем равенства (30) при р(#)=5=1. [По выводу (30) видно, что log в нем понимается как натуральный логарифм.] — Прим. перев.
Конечные модели использования языка 187 ность (29) наблюдалась и для таких псевдослов. (Угловой коэффициент оказался незначительно меньше 1, что вызвано, по- видимому, неадекватностью в задании слов.) Имеется большая психологическая разница между обычными словами, получающимися при разбиении текста пробелами, и явно случайными цепочками при разбиении буквой Е. Пробелы разбивают текст на хорошо известные цепочки, являющиеся основными психологическими элементами языка. [Миллер (Miller, 1956) назвал их кусками информации в отличие от битов информации, определенных в разд. 1.З.] Можно с уверенностью сказать, что эволюционный процесс выбора работал в пользу коротких слов и что этот психологический процесс не заботился о цепочках букв, находящихся между двумя последовательными появлениями буквы Е. Потому можно найти много неправдоподобно длинных псевдослов. В той или иной форме гипотеза о предпочтении коротких слов выдвигалась многими исследователями языковой статистики. Ципф (Zipf, 1935) выдвинул закон сокращения: как только вырабатывается длинное слово или непосредственная составляющая, нужно стремиться сократить их. Мандельброт (Mandelbrot, 1961) предположил, что эволюционный процесс выбора длин слов может быть описан как разновидность случайного блуждания. Он считает, что вероятности удлинения и укорачивания слова находятся в равновесии, так что поддерживается устойчивое распределение длины слов. Если бы вероятность сокращения превышала вероятность расширения, то словарь стянулся бы к одному слову минимальной длины. Если бы расширение было более вероятно, чем сокращение, то язык развертывался бы к распределению с 5<1 и пришлось бы установить верхнюю границу длин слов, чтобы ряд p{Wi) сходился и имело место равенство Iip{Wi) = \. Однако нужно заметить, что соотношение (29) никоим образом не зависит от психологического закона сокращения. Основное значение предыдущей аргументации Мандельброта заключается в том, что выражение (29) получается из чисто вероятностных соображений. Действительно, если закон сокращения имеет место, он проявится в отклонениях от равенства (29) —в сокращении очень длинных, очень маловероятных слов, которое нельзя проследить, не исследовав необозримо большие выборки текста. Соотношение (29) между рангом и частотой наблюдается не только там, где присутствует некая универсальная психологическая сила, влияющая на форму любого человеческого общения. Сталкиваясь с проявлением этого соотношения при ана^ лизе незнакомых сигналов, мы вообще не должны делать вывода, что сигналы исходят от разумного или целенаправленного
188 Н. Хомский, Дж. А. Миллер источника. Соотношение (29) часто бывает удобно принимать в качестве основной гипотезы; как и для многих основных гипотез, последуюш,ее опровержение ее иногда бывает не менее интересным, чем подтверждение. Целью предыдуш.их разделов было кратко описать подходы к некоторым теоретическим проблемам статистического анализа языка. Можно было бы еш,е рассказать об анализе стиля, криптографии, оценках объема словаря, системе произношения, анализе содержания и т. д., но обзор всего этого увел бы нас слишком далеко от основного содержания гл. 11—13. Читатель может с недоверием отнестись к моделям, описы- ваюш^им частоты слов, по причине их чрезвычайной упрош^енно- сти. Если в марковских моделях использовались D^ параметров, то модели, объясняюш^ие соотношение между рангом и частотой, содержат их только два или три. Потому их использование ограничивается введением основной гипотезы и качественным описанием типа систем, с которыми мы имеем дело. Например, они могут с'казать, что любое правило, регулирую- ш,ее длины слов, должно приниматься с недоверием — во всяком случае в английской грамматике. Конечно, нельзя совсем отказываться от исследования лингвистического процесса во всей сложности, и нетрудно привести примеры его неслучайных аспектов. Если случайную независимую совокупность языковых единиц разделить по независимым признакам, то в полученных частях будет то же вероятностное распределение, что и до разделения. Так, при разделении текста по признаку четности и нечетности номеров слов, по алфавитному признаку (входит ли первая буква в первую половину алфавита) и т. д. можно ожидать в полученных частях то же соотношение между рангом и частотой, что и в исходном тексте. Но можно указать и такие способы разделения исходной совокупности, которые кажутся, но не являются независимыми. Например, Юл (Yule, 1944) установил, что указанное распределение не имеет места при разделении на категории (суш^естви- тельные, глаголы и Арилагательные); Миллер, Ньюмен и Фрид- мен (Miller, Newman, Friedman, 1958) показали существенную разницу между распределением знаменательных слов (существительных, глаголов, прилагательных и наречий) и вспомогательных (всех остальных); Миллер (Miller, 1951, стр. 93) выяснил, что распределение будет совсем другим для слов, следующих непосредственно за данным словом, например the или of. Наши предыдущие рассуждения не позволяют объяснить этих явных отклонений от случайности. Теперь мы усложним описание человека, использующего язык, и перейдем к моделям, принимающим во внимание
Конечные модели использования языка 189 структуру естественных языков, — моделям, которые мы за недостатком лучшего наименования будем называть алгебраическими. 2. АЛГЕБРАИЧЕСКИЕ МОДЕЛИ Если теория реального языкового поведения стремится про^ двинуться достаточно далеко, она не должна ограничиваться констатацией возможностей и знаний говорящего и слушающего. Мы предполагаем, что порождающая грамматика дает полезную и богатую информацией характеристику его возможностей, охватывающую много существенных и глубоких аспектов его знаний о родном языке. Теперь вопрос заключается в том, как он использует свои знания при построении высказываний или при понимании собеседника. Как построить модель языкового поведения, включающую в себя в качестве основной части порождающую грамматику? Этой проблеме почти не посвящалось исследований, так что здесь мы предложим только подход к ее решению. Во введении к этой статье было показано, что модели речевого поведения можно интерпретировать и как модели поведения говорящего, и как слушающего. Для конкретности ниже мы обратимся к моделям поведения слушающего и будем вести изложение в терминах восприятия. Конечно, это решение принимается для удобства и не является принципиальным. К сожалению, основная масса экспериментальных исследований восприятия речи была посвящена распознаванию отдельных слов из читаемого списка (см. Fletcher, 1953) и ничего не дает для понимания влияния грамматической структуры на восприятие речи. Наличие такого влияния очевидно из того факта, что одни и те же слова легче воспринимаются в предложениях, чем изолированно (Miller, Heise, Lichten, 1951; Miller, 1962a). Однако еще не совсем понятно, чем обусловливается такая зависимость. В качестве исходной модели распознавания предложений возьмем устройство, кратко упомянутое в разд. 6.4 гл. 11. Вместо относительно пассивного процесса акустического анализа, сопровождаемого идентификацией и письменной записью, мы рассмотрим (следуя Halle, Stevens, 1959, 1962) некое активное устройство, распознающее входной сигнал путем построения (возможно, в отличной форме) ответного сигнала, который бы совпадал с входным или в каком-то смысле соответствовал ему. Главной частью этого устройства является блок М, содержащий правила порождения соответствующих сигналов. С блоком М должны соединяться блоки, анализирующие и (временно)
190 Н. Хомский, Дж. Л. Миллер запоминающие входной сигнал; блоки, отражающие различные контекстные, семантические и ситуационные связи; эвристический блок, позволяющий удачно производить первое угадывание; блок, сравнивающий вход с ответным сигналом, и др. Исходя из начальных предположений, устройство порождает внутренний сигнал в соответствии с правилами, хранящимися в блоке М, и сравнивает его с сигналом на входе. Если результат сравнения неудовлетворителен, различие сигналов используется для порождения более удачного ответа. Таким образом, внутренний сигнал обрабатывается до тех пор, пока не произойдет совпадение или входной сигнал не будет признан абсолютно непонятным. Программа порождения совпадающего сигнала может быть взята в качестве символического представления входа. Предположив, что это распознающее устройство представляет правдоподобную модель восприятия речи, мы примем его за основу и попытаемся детализировать. По-видимому, наиболее важные функции выполняют две его части: блок, содержащий контекстные, семантические и ситуационные связи и помогаю- щий сделать первое угадывание, и грамматический блок М, дающий правила порождения внутреннего сигнала. Начнем с рассмотрения этих двух блоков. Изучение способов хранения и передачи контекстной информации, даже если бы оно было возможно, увело бы нас далеко за пределы исследования. По от- ношению к блоку М задача представляется более легкой; способ синтезирования предложений как раз и является предметом нашего исследования. Мы будем рассматривать конечный блок Л1, в котором хранятся правила порождающей грамматики G. Он получает на входе цепочку символов х и пытается «понять» ее; иными словами, М приписывает цепочке х некоторое структурное описание F{x) или множество синтаксических описаний {Fi{x), ... • •., Рт{^)}у если предложение х имеет структурную неоднозначность порядка т. Мы не будем рассматривать все реально существующие, но сложные аспекты понимания, выходящие за пределы структурно-синтаксического описания предложения; не станем рассматривать также ситуацию и контекст, помогающие определять, какое из структурных описаний следует выбрать в данном конкретном случае. Само собой разумеется, что мы ограничиваемся синтаксисом, а не семантикой и одним предложением, а не его лингвистическим и внелингвистическим контекстом не из принципиальных соображений, а вследствие ограниченности нашего нынешнего уровня знаний. Об этих вопросах сейчас мало что можно сказать с достаточной уверенностью. Обсуждение проблем построения адекватной семанти^
Конечные модели использования языка 191 ческой теории и некоторые методы их исследования см. в работах (Ziff, 1960;.Katz, Fodor, 1962). Блок М в дополнение к правилам G должен содержать рабочую память и выполнять различные логические операции. Он приписывает цепочке х структурное описание Fi{x) только тогда, когда порождающая грамматика G, находящаяся в его памяти, выбирает это описание в качестве возможного варианта. Будем говорить, что М понимает {частично понимает) предложение X по способу G, если множество {Fi{x), ..., Fm(л:){структурных описаний, предложенных М для х, совпадает с (включается в) множеством описаний, приписанных цепочке х грамматикой G. В частности, М должно не считать предложением любую цепочку, которая не порождается грамматикой G. (Это требование можно, конечно^ смягчить введением степеней грамматической правильности, как было указано в разд. 1.5, но мы не станем осложнять изложение.) Таким образом, М — конечный преобразователь в смысле разд. 1.5 гл. 12. Он использует имеющуюся в его распоряжении информацию для анализа всех вводимых в него цепочек, с тем чтобы определить, какие из них являются предложениями «понятного» ему языка, и «понять» эти предложения. Мы предполагаем, что эта информация представлена в форме правил порождающей грамматики G, находящейся в памяти М. Рабочая память М вполне может оказаться недостаточной для понимания всех предложений по способу G. Это нисколько не более удивительно, чем то, что человек, прекрасно знающий правила арифметики, в действительности не может правильно выполнить в уме большое число арифметических операций. Необходимо четко различать два типа устройств: 1) устройства типа М с правилами G и рабочей памятью, позволяющей понимать лишь некоторое подмножество L^ множества L всех предложений, порождаемых грамматикой G; 2) устройства типа Л1*, специально предназначенные для понимания только предложений из множества L\ Это различие аналогично различию между устройством F, содержащим правила арифметики и обладающим рабочей памятью, позволяющей выполнять лишь некоторое подмножество S^ множества 2 всех арифметических подсчетов, с одной стороны, и устройством f*, предназначенным для выполнения только подсчетов 2' — с другой. Хотя по поведению эти пары устройств идентичны, работу устройств F и М можно улучшить за счет увеличения объема памяти без введения дополнительных изменений программ, а класс случаев, обрабатываемых устройствами f * и М*, может быть расширен только путем изменения самих устройств. Ясно, что психологически адекватными
192 Н. Xомский, Дж. А. Миллер моделями служат именно устройства F и М, описывающие В031Ц0ЖН0СТИ независимо от того, могут ли они быть реализованы, так как только они могут объяснить процесс обучения, при котором имеется возможность увеличения объема запоминаемого материала. В частности, если грамматика G по своей порождающей способности превосходит любой конечный автомат, то устройство М не способно понимать все предложения по способу G. Априори нет оснований ожидать, что естественные языки, используемые людьми, входят в особые семейства множеств, порождаемых односторонними линейными грамматиками (ср. определения 6 и 7 разд. 4.1 гл. 12) или бесконтекстными грамматиками без самовставлений [ср. предложение (58) и теорему 33 разд. 4.6 гл. 12]. Действительно, мы неоднократно убеждались, что они не входят в эти семейства. Следовательно, адекватная модель человека, понимающего язык, — или наше устройство М — будет включать грамматику G, порождающую предложения, которые устройство М не поймет по способу G (без дополнительных изменений). Это заключение не должно казаться странным; оно не ведет к тем парадоксальным выводам, которые иногда делались. И так как по этому поводу высказывалось много разноречивых мнений, мы хотим еще раз подчеркнуть, что сделанное нами заключение как раз и является тем, чего следовало ожидать. Мы можем построить конкретную модель слушающего и понимающего, задав грамматику G (хранящуюся в памяти), объем памяти и операции, выполняемые М. Определим класс моделей восприятия, наложив ограничения на задание модели. В разд. 2.1 рассматриваются модели, содержащие системы подстановок. В разд. 2.2 будут обсуждаться возможные свойства моделей восприятия, содержащих трансформационные грамматики. 2.1. Модели, содержащие системы подстановок Пусть язык L порожден контекстной грамматикой G, приписывающей каждому предложению из L С-маркер — помеченное дерево или помеченную скобочную запись — по способу, рассмотренному нами ранее. Что можно сказать о понимании предложения языка человеком, говорящим на этом языке L? Например, что можно сказать о классе предложений языка, которые он на самом деле сможет понять? И до какой степени конечное воспринимающее устройство Л1, хранящее в памяти правила грамматики G, способно понимать предложения по способу G? Частичный ответ на эти вопросы был дан в разд. 4.6 гл. 12. Грубо говоря, он заключается в следующем. Назовем степенью самовставления С-маркера Q наибольшее число т, удовлетво-
Конечные модели использования языка 193 ряющее следующим условиям: в помеченном дереве, представляющем Q, имеется непрерывный путь, проходящий через т+1 узлов No, ..., Nm, имеющих одинаковые обозначения, причем любой Л^г* (^^1) содержится внутри поддерева с главным узлом Рис. 5. С-маркер со степенью самовставления 2. Л^г-1 (имея в этом поддереве нечто слева и нечто справа); другими словами, терминальная цепочка может быть переписана в форме Ут-l^'^m-l • • • 'О^Щ'^^ (33) И ДЛЯ любого i<m Ni доминирует над хУоУх •. где Nm доминирует над 2, У1 " и никакая из цепочек г/о, Ут-l^'^m-l "Oi (34) , Ут-и Vo, ..., Vm-i не пуста. Так, например, на рис. 5 степень самовставления равна 2. В разд. 4.6 гл. 12 был описан процесс преобразования Ч*", который работает следующим образом. Если даны грамматики G и натуральное число т, 4^(G, т) есть конечный преобразователь М\ он принимает на входе предложение х и дает на выходе структурное описание F{x) (именно то, которое приписывается X грамматикой G), если степень самовставления f (л:) не превосходит т. Другими словами, т характеризует объем рабочей памяти модели восприятия М, содержащей грамматику G. Модель М понимает предложения по способу G только в том 13 Зак. 477
194 Н. Хомский, Цж. А. Миллер случае, если степень самовставления их структурных описаний не слишком велика. При увеличении объема рабочей памяти устройства М растет степень самовставления понимаемых им структур. Для любого данного предложения х существует такое достаточно большое т, что устройство М с рабочей памятью, характеризуемой т [т. е. устройство 4{G,m)\ способно понять X по способу G; при этом нет необходимости менять для этого саму конструкцию устройства М. Этот результат не может быть улучшен; в гл. 12 было показано, что самовставление отделяет бесконтекстные языки от регулярных языков, порождаемых (и воспринимаемых) конечными автоматами. В гл. 12 этот результат был установлен только для определенного класса К бесконтекстных грамматик. Мы показали, что класс К содержит грамматики для всех бесконтекстных языков и что можно опустить многие, если не все, ограничения, определяющие /С. Эти результаты нельзя автоматически продолжить на контекстные грамматики; проблема нахождения для любой контекстной грамматики G оптимального конечного преобразователя, по возможности хорошо понимающего предложения из G, вообще не исследовалась. Некоторым приближением к этой проблеме являются результаты работ Мэтьюза относительно направленных контекстных грамматик и автоматов PDS, обсуждавшиеся в разд. 4.2 гл. 12, но они еще недостаточно развиты. Если отвлечься от указанных ограничений, модель Т разд. 4.6 гл. 12 служит оптимальной воспринимающей моделью (т. е. оптимальным конечным алгоритмом распознавания), содержащей бесконтекстную грамматику G. Для любой заданной грамматики О автоматически строится устройство, понимающее предложения по способу О настолько хорошо, насколько это вообще возможно для устройства с ограниченной памятью. Если возрастает объем памяти, неограниченно возрастает и его способность понимать предложения из G. Ограниченность его памяти проявляется только при самовставлениях выше определенной степени. Действительно, можно изменить конструкцию так, чтобы оператор Ч^ определял преобразователь 4^(G), понимающий все предложения по способу G, где 4^(G) — устройство с магазинным накопителем, работающее «в один пробег», как показано в разд. 4.2 гл. 12. Даже если язык L, порождаемый грамматикой G, порождается также и конечным автоматом, оптимальная воспринимающая модель М = Ч{0,т) при фиксированном т может оказаться не в состоянии понимать все предложения по способу G. Например, структурное описание рис. 5 дается следующей бесконтекстной грамматикой: . S->aS, S->Sb, S->c. (35)
Конечные модели использования языка 195 (Легко доопределить Ч^, чтобы она работала с правилами такого типа, как в этом примере.) Порождаемый язык состоит из множества всех цепочек а^сЬ^ и, конечно, является регулярным языком. Тем не менее при т=1 4^(G, т) не может понять предложение aacbb рис. 5 по способу G, потому что степень самовставления его дерева равна 2. Причина заключается в том, что, хотя и можно найти конечный автомат, распознающий предложения этого языка, нельзя найти конечное устройство, понимающее все его предложения по способу данного порождающего процесса G, представленного в примере (35). Заметим еще, что воспринимающее устройство 4^(G, т) не является детерминированным. Как воспринимающая модель оно имеет следующий дефект. Предположим, что G приписывает х структурное описание D со степенью самовставления, не превышающей т. Тогда, как мы показали, устройство 4^(G, т) способно произвести совокупность операций, отображающих х ъ D, т. е. интерпретировать х по способу G. Однако, будучи недетерминированным, оно может произвести и такую совокупность операций, которая вообще не отображает х ни в какое структурное описание. Таким образом, если 4^(G,/п) отображает х в структурное описание D, можно заключить, что G приписывает значение D цепочке х\ если же 4^(G, т) не отображает х в структурное описание, мы ничего не можем заключить об отношении X к грамматике G. Можно исследовать проблему построения детерминированной модели восприятия, частично понимающей выход бесконтекстной грамматики, или недетерминированной модели, отражающей неоднозначность в данной грамматике, т. е. модели, которая обрабатывает конкретную цепочку безрезультатно только тогда, когда эта цепочка или не порождается грамматикой, или порождение имеет слишком большую степень самовставления; но эти проблемы еще недостаточно исследованы. Однако ясно, что такое устройство в отличие от 4{G,m) должно использовать ограничения для право-рекурсивных элементов структурного описания (т. е. для правых ветвлений). См. в этой связи пример на стр. 199 ^). Самовставление является причиной невозможности описания грамматики конечным устройством; оно зависит в конечном счете от структурных зависимостей, так как нетерминальный словарь конечен. Структурные зависимости даже при отсутствии самовставлений вызывают очень быстрое возрастание числа требующихся состояний в устройстве 4^(G, т) с ростом длины входной цепочки. Поэтому можно ожидать, что вставленные *) Такая асимметрия вовсе не обязательна; см. следующую статью (стр. 219 наст. сб.). — Прим. ред. 13*
196 Н. Хомский, Дж. А. Миллер конструкции должны пониматься с трудом даже тогда, когда они в принципе не выходят за пределы возможностей конечного устройства, так как рабочая память (например, число состояний), которая может обеспечить процесс анализа в реальном масштабе времени, в действительности очень ограниченна. К этому факту мы еще вернемся в разд. 2.2. Действительно, как мы видели в гл. И (ср. пример И разд. 3), вставленные структуры (даже без самовставления) трудно или невозможно понять. Из сделанных замечаний вытекает вывод, что предложения естественных языков, имеющие сложную структуру или самовставления выше определенного предела, окажутся непонятными для слушателя, если у него не будет каких-то дополнительных способов их записи и анализа, кроме собственной памяти. Это действительно имеет место, как было неоднократно указано. В английском языке — и во многих других языках, изученных с этой точки зрения, — имеется много способов построения предложений очень сложной синтаксической структуры. Если свободно пользоваться этими способами- можно быстро получить предложения, превышающие возможности (в данном случае оперативную память) восприятия их человеком, говорящим на языке. Однако такая возможность не вызывает трудностей при общении. Такие предложения, одинаково трудные для говорящего и для слушающего, попросту не используются, так же как и многие другие предложения, построенные по некоторым синтаксическим правилам, грамматически правильные, но не встречающиеся в языке. Нет оснований ожидать, что способы построения вставленных конструкций (постоянно используемые в той мере, в какой это позволяет объем человеческой памяти) исчезают с развитием языка; и действительно, мы видели, что они не исчезают. С большим основанием можно ожидать, что в естественном языке возникнут способы перефразирования предложений со сложной структурой в предложения с лево-рекурсивными или право- рекурсивными элементами, чтобы предложения с тем же содержанием могли строиться с меньшим напряжением памяти. Это предположение было несколько иным образом сформулировано Ингве (Yngve, 1960, 1961). (К предположению Ингве мы еще вернемся.) Оно хорошо подтверждается. Наряду с таким английским предложением с самовставлением, как if, whenever X then У, then Z («если каждый раз, когда X, то У, то Z»), имеется в основном правоветвящаяся структура Z if whenever X, then У («Z, если каждый раз, когда X, то У»), аналогично во многих других случаях. Многие грамматические трансформации в английском языке представляются в основном стилистическими; они преобразуют одно предложение в другое с тем же содер-
Конечные модели использования языка 197 жанием, но с меньшим самовставлением. Наряду с предложением that the fact that he left was unfortunate is obvious («то, что тот факт, что он ушел, печален, очевидно») с двойным вставлением 5 имеется более понятная и простая право-рекурсивная структура it is obvious that it was unfortunate that he left («очевидно, что печально, что он ушел»). Имеется и простая трансформация, переводящая the cover that the book that John has has («обложка, которую книга, которую имеет Джон, имеет») в структуру John's book's cover («обложка книги Джона»), являющуюся уже левоветвящейся, а не самовставленной. [Справедливость требует отметить, что некоторые из этих так называемых стилистических трансформаций могут повысить структурную сложность, например те, которые дают предложения с разорванными составляющими: из I read the book that you told me about («Я читаю книгу, о которой вы мне говорили») можно построить it was the book that you told me about that I read («это та самая книга, о которой вы мне говорили, что я читаю») и т. д.] Резюмируем: из конечности человеческой памяти следует только, что некоторые структуры с самовставлением окажутся непонятными; из предположения о ее относительно малом объеме мы можем сделать вывод о затруднениях в понимании сложных конструкций. Хотя предложения слушаются и произносятся слева направо, нет оснований считать, что понимаемые структуры асимметричны. Для этого нет доказательств. Мы без затруднений понимаем и такую правоветвящуюся конструкцию, как he watched the boy catch the ball that dropped from the tower near the lake («он наблюдал, как мальчик поймал мяч, который упал с башни у озера»), и такие левоветвящиеся конструкции, как all of the men whom I told you about who were exposed to radiation who worked half-time are still healthv, but the ones who worked full time are not («все люди, о которых я вам говорил, которые подверглись облучению, которые работали половину времени, уже здоровы, а те, кто работал все время, — нет») или many more than half of the rather obviously much too easily solved problems were dropped last year («более половины довольно очевидно слишком легко решаемых тем было закрыто в прошлом году»). Просто наши нынешние знания относительно распределений лево-рекурсивных и право-рекурсивных элементов в языке не позволяют делать никаких выводов. Так, в английском языке преобладают правоветвящиеся конструкции; в других языках — японском и турецком — положение противоположно. В любом известном языке мы находим право-рекурсивные, лево-рекурсивные и самовставляющиеся элементы (а также сочинительные конструкции, которые вовсе нельзя описать системами подстановок, к чему мы еще вернемся).
198 Н. Хомский^ Дж. А. Миллер Итак, мы сделали только следующие предположения относительно модели — человека, говорящего на языке — М: 1) М конечна; 2) М воспринимает (или порождает) предложения слева направо; 3) М содержит бесконтекстную грамматику, представляющую ее возможности и знание языка. Предположение 3, конечно, неверно, но выводы из него относительно рекурсивных элементов остаются верными при других, более общих предположениях. Предположение I не вызывает сомнений, как и очень слабое предположение 2. Заметим, что 2 допускает много способов внутренней организации устройства М, например, что М хранит конечную цепочку перед началом анализа первого элемента или что М хранит конечное число альтернативных предположений о первом элементе, выбор из которых происходит только через неопределенно долгое время. Добавив к этим трем дальнейшие предположения, можно сделать дополнительные выводы относительно способностей устройства вырабатывать и понимать предложения по способу содержащейся в нем грамматики. Рассмотрим два крайних предположения: 4) М строит С-маркеры строго «сверху вниз», или их деревья от ствола к ветвям; 5) М строит С-маркеры строго «снизу вверх», или их деревья от ветвей к стволу. В соответствии с предположением 4 устройство М интерпретирует правило Л ->ф грамматики как команду «вместо А записать ф», в силу которой при построении вывода за цепочкой вида г|)1Ля|?2 должна следовать цепочка 'ф1фя|?2. По предположению 5 устройство М интерпретирует каждое правило Л -> ф грамматики как команду «вместо ф записать Л»; иными словами, рассматривается обратный вывод, начинающийся цепочкой терминальных символов и кончающийся 5, и в нем за цепочкой вида 'ф1фя|?2 должна следовать цепочка -фИя^г- Из предположения 4 следует, что М допускает только ограниченное число последовательных левых ветвлений. Так, предпо-^ ложим, что в основе работы устройства М находится грамматика, содержащая правило S-^SA. После п применений этого правила левого ветвления память устройства, удовлетворяющего предположениям 2 и 4, должна (при естественной интерпретации) хранить п вхождений А для дальнейшей переработки, что ввиду произвольности п противоречит предположению 1. С другой стороны, из предположения 5 следует, что допустимо только ограниченное число последовательных правых ветвлений. Пусть,
Конечные модели использования языка 199 например, грамматика содержит правила с правым ветвлением Л -> сЛ, S -> сВ, Л ■-> а и S -> 6. В таком случае устройство воспринимает цепочки с^а и с'^Ь. По предположению 2 распознавание происходит слева направо, а по предположению 5 никакой узел в С-маркере не может быть указан, пока не известно все, что его определяет, так что р.ешение откладывается до получения последнего символа цепочки. Устройство должно хранить п вхождений с для дальнейших преобразований, что снова нарушает предположение 1. Конечно, левое ветвление не вызывает трудностей при предположении 5, а правое — при предположении 4. Таким образом, предположения 4 и 5 накладывают (противоположным образом) асимметрию на множество структур, воспринимаемых или порождаемых М. Заметим, что устройства W{G,m), задаваемые операцией ^ разд. 4.6 гл. 12, могут не удовлетворять и предположению 4 и предположению 5; при построении конкретного С-маркера они могут вести анализ поверху вниз, и снизу вверх, как угодно, часто меняя направление, пока не закончится анализ конструкции с самовставлением. Можно интерпретировать предположение 4 как условие, налагаемое на говорящего, а предположение 5 — как условие, налагаемое на слушающего. (Конечно, требуя, чтобы модель говорящего удовлетворяла предположению 4, а модель слушающего — предположению 5, мы сильно ограничиваем возможность общения между ними.) Говорящий, описываемый предположением 4, будет испытывать затруднения с левоветвящимися конструкциями; слушающий, описываемый предположением 5, — с правоветвящимися. Оба эти предположения выглядят очень неправдоподобными. Нет оснований думать, что говорящий всегда выбирает тип большей составляющей раньше, чем тип меньшей, или категорию слова раньше, чем само слово (предположение 4). Аналогично, хотя слушающий получает терминальные символы и строит типы составляющих, нет оснований предполагать, что он сначала определяет типы меньших составляющих, а затем делает заключение об общих структурных чертах предложения. Помимо предположений 4 и 5, при построении конкретных моделей человека, пользующегося языком в процессе общения, могут рассматриваться многие другие предположения. Можно, например, ограничить длину цепочек, которые должны быть восприняты, прежде чем структура предложения будет однозначно опознана моделью восприятия, работающей слева направо, и т. д. и т. п. Гипотезы, подобные предположениям 4 и 5, обсуждались ранее. Например, Скиннер (Skinner, 1957) предположил, что «первичные реакции» на ситуацию (т. е. основные существительные, глаголы и прилагательные) образуют сырой материал, 14*
200 Я. Хомский, Дж. А. Миллер а вторичные, «автоклитические» (грамматические правила, упорядочивание и выбор) формируют из них предложения. Это вариант предположения 5, относящийся к говорящему. Ингве (Yngve, 1960, 1961) предложил вариант предположения 4 относительно говорящего. Рассмотрим его гипотезу несколько подробнее, потому что она непосредственно связана с нашей темой. Описываемое Ингве устройство содержит грамматику, довольно сходную с бесконтекстной, и производит вывод высказываний, заменяя самый левый нетерминальный символ и откладывая нетерминальные символы, стоящие справа от него. Каждый из отложенных символов является «обещанием», которое нужно помнить, пока не настанет время его выполнить; если растет число этих обещаний, растет и нагрузка на память. Затем Ингве по числу отложенных символов определяет меру глубины так, что левое ветвление, самовставление и сложное ветвление увеличивают глубину, а правое ветвление — нет. (Заметим, что глубина отложенных символов и степень вставления — совершенно различные меры.) Ингве отмечает, что так построенная модель говорящего способна, используя ограниченную память, строить структуры, не превышающие определенной глубины. Он выдвигает гипотезу, что эта интерпретация предположения 4 характеризует говорящего и что развитие естественных языков идет по пути облегчения задачи говорящего за счет ограничения левого ветвления. Аргументы в поддержку этой гипотезы выглядят, однако, неубедительными. Трудно объяснить, почему язык должен быть предназначен для говорящего больше, чем для слушающего, а предположение 4 в какой бы то ни было форме выглядит совсем немотивированным как требование для слушающего; напротив, как мы отмечали, противоположное предположение как раз выглядит более мотивированным. Предположение 4 не кажется абсолютно верным и для говорящего по причинам, указанным выше. Можно, конечно, построить примеры совершенно непонятных предложений большой глубины, но они или неизбежно окажутся предельно сложной конструкции, или в них будет самовставление, так что непонятность их будет объясняться конечностью памяти говорящего и слушающего, т. е. следовать из несомненных предположений 1 и 2. Для подтверждения гипотезы Ингве нужно найти предложения, непонятность которых была бы связана всецело с левым или сложным ветвлением. Такие примеры не были построены. Чтобы объяснить, почему сложное ветвление, влияющее на глубину, не служит причиной трудностей, Ингве рассматривает сочинительные конструкции (например, с союзным сочинением) как правое ветвление, не влияющее на число отложенных символов. Но это совершенно произ-
Конечные модели использования языка 201 вольное толкование; с таким же правом их можно рассматривать и как левое ветвление. Единственно правильным представлением таких конструкций является сложное ветвление из одного узла — этой формальной чертой правильные сочинительные конструкции без дополнительных внутренних связей отличаются от остальных. Как отмечалось в разд. 5 гл. 11, для описания таких конструкций вообще недостаточно правил подстановок. Так что относительная простота, с которой человек понимает предложения примеров 18 и 20 гл. 11, противоречит не только предположению 4, но и предположению 3, на котором оно базируется. Короче, о говорящем и слушающем можно сказать только ту очевидную вещь, что они являются конечными устройствами, как-то соотносящими предложения языка со структурными описаниями, и что они ограничены одномерностью и направлением движения времени. Из этого можно сделать вывод только о наличии трудностей с самовставлением (более общий вывод — со сложностью структурных зависимостей), которые и наблюдаются в действительности. Интересно, что самовставление, по- видимому, вызывает большие трудности, чем эквивалентное количество сложных структур без самовставления. Дальнейшие выводы были бы сейчас преждевременны. 2.2. Модели, содержащие трансформационные грамматики У человека оперативная память, используемая при переработке информации, неожиданно мала, в то время как объем долговременной памяти велик (ср. Miller, 1956). Поэтому имеет смысл считать, что воспринимающая модель М содержит два основных блока. All и Мг, работающих следующим образом: Ми обладающий малой оперативной памятью, производит операции над входной цепочкой х, принимаемой на входе побуквенно, и передает результат этих операций в блок Л12, который обладает большой долговременной памятью, где хранится порождающая грамматика G; задача М2 — глубже проанализировать структуру входной цепочки л:, используя в качестве информации о ней выходные данные, переданные блоком М^ [Подобные методы анализа предложений исследовались Мэтьюзом (Matthews, 1961).] Блок М2 выполняет достаточно сложные преобразования; поэтому лучший способ познакомиться с характером этих преобразований— детально рассмотреть пример. Итак, пусть блок М должен проанализировать следующие предложения: John is easy to please; (36) („Джону легко угодить") John is eager to please. (37) („Джон стремится угодить")
202 Н. Хомский, Дж. А. Миллер Для этих примеров блок Mi даст предварительные варианты анализа, показанные на рис. 6, где несущественные детали опущены. Ясно, что анализ на этом не закончен. Для объяснения того, как мы понимаем эти предложения, блок М2, принимающий на входе эти варианты анализа (рис. 6), на выходе должен выдавать структурные описания, указывающие, что в примере (36) John — прямое дополнение к глаголу please, а в примере (37) John — логическое ^подлежащее к глаголу please. Приступая к описанию блока Мг, нужно понимать, как представляется эта более глубокая структурная информация. Очевидно, ее нельзя передать помеченным деревом (С-м.аркером) fp. с^ш,. Je^ is [,^f ] to please Рис. 6. Предварительный анализ предложений (36) и (37). данного предложения. Никакое уточнение анализа рис. 6, никакое дробление категорий и т. д. не исправят качественной неспособности этой формы представления адекватно отразить грамматические отношения. Мы столкнулись с трудностями точно такого рода, которые обсуждались в разд. 5 гл. 11 и которые привели к развитию теории трансформационных порождающих грамматик. В трансформационной грамматике английского языка одни правила подстановок еще не дают примеров (36) и (37); правила подстановок только порождают С-маркеры, показанные на рис. 7 (несущественные детали снова опущены). Кроме того, грамматика содержит следующие трансформации. Ti\ заменяет complement (дополнение) на for х to у, где х — Г/7, сущ., а у — Гр, глаг. в уже порожденном предложении ху\ Гг*. при наличии двух одинаковых Гр. сущ. вычеркивает второе вхождение (со всем, что к нему относится); Гз*. вычеркивает прямые дополнения при некоторых глаголах; 1\'. разрешает вычеркнуть «for someone» в определенных контекстах;
Конечные модели использования языка 203 Т^: заменяет анализируемую цепочку вида Гр. сущ — is — Прил, — (for —(Г/7. сущ.\) — — to — Глаг. — {Гр. сущ,)^ соответствующей цепочкой вида (Г/7. ^уц.)2—is —Я/7й7г. —(for — (Г/7. сущ.)^ — \о — Глаг. Все это можно обобщить и записать в форме, указанной в гл. 11. Обобщения этих трансформаций мотивируются многими аналогичными примерами. Можно отметить следующие предложения, John /^. 'Р- сищ. 1 и Jlp, Гр, гдаг. LS При/Г, X \ eager compLement (а) Пр. 'Ч Гр. глаз^ /1\ '-^ Прил. complement 1 1 Basy fP- Гр.сущ. Грглаг. John Гмаг. Гр сиш. 1 Г pleases someone w Jp- гр.ст. Ур,глаг. sameone глаг. Гр. cm 1 Г pleases John Ш (С) Рис. 7. Несколько С-маркеров, порождаемых правилами подстановок грамматики; к этим С-маркерам применяются трансформационные правила. имеющие структурные описания, сходные в интересующих нас отношениях с примерами (36) и (37): John is an easy person to please («Джон — человек, которому легко угодить»), John is а person who (it) is easy to please («Джон — человек, которому легко угодить»), this room is not easy to work in (to do decent work in) [«B этой комнате нелегко работать (выполнять серьезную работу)»], he is easy to do business with («c ним легко иметь дело»), he is not easy to get information from («от него нелегко получить информацию»),such claims are very easy to be fooled by («этими требованиями очень легко обмануться») и многие другие, поро-» жденные точно тем же путем.
204 Н. Xомский, Дж. А. Миллер Применяя трансформацию Ti к паре структур рис. 7, с и d, получаем предложение It is easy for someone to please John («кому-то легко угодить Джону») с соответствующим С-маркером. Применяя к нему Г4, получаем предложение It is easy to please John («легко угодить Джону»), которое трансформацией Т^ превращается в пример (36). Если применить Т^ без Г4, мы получим, например, John is easy for us to please («для нас легко угодить Джону») (где we подставлено вместо someone на рис.7, d — мы не писали само собой разумеющихся обязательных правил). Применяя Ti к паре структур рис. 7, а и 6, получаем предложение John is eager for John to please someone («Джон стремится, чтобы Джон кому-то угодил»), которое трансформацией Гг преобразуется в John is eager to please someone («Джон стремится кому-то угодить»). Если применить Гз к рис. 7,6 до применения Ti, мы можем получить тем же путем пример (37). Остановимся кратко на некоторых чертах такого анализа. Заметим, что предложения I am eager for you to please («я стремлюсь, чтобы вы угодили»), you are eager for me to please («вы стремитесь, чтобы я угодил») и т. д. правильно построены; а предложения I am eager for me to please («я стремлюсь, чтобы я угодил»), you are eager for you to please («вы стремитесь, чтобы вы угодили») и т. д. невозможны и обязательно переводятся трансформацией Гг в предложения I am eager to please («я стремлюсь угодить»), you are eager to please («вы стремитесь угодить»). Эти же трансформации дают I expected to come («я предполагаю прийти»), you expected to come («вы предполагаете прийти») и т. д. из I expected me to come («я предполагаю, что я приду»), you expected you to come («вы предполагаете, что вы придете»), которые образуются тем же способом, что и you expected me to come («вы предполагаете, что я приду»), I expected you to come («я предполагаю, что вы придете»). Таким образом, эта грамматика по существу отождествляет слово John в примере (37) с опущенным подлежащим к please. Заметим, что в предложении John expected John to please («Джон предполагает, что Джон угодит»), при построении которого Гз не применялось, два вхождения John должны обязательно относиться к двум разным людям. С другой стороны, в примере (36) John по существу является прямым дополнением к please, если предположить, что грамматические отношения сохраняются при трансформациях [другими словами, предположить, что С-мар- кер, изображенный на рис. 7, rf, входит как часть в структурное описание примера (36)]. Заметим также, что Т^ не вырабатывает таких не-предложений, как John is easy to come («Джону легко прийти»), потому что не имеется Гр. глаг. comes John («пришел Джону»), хотя трансформации Т\ и Гг могут дать
Конечные модели использования языка 205 John is eager to come («Джон стремится прийти»). Применяя Г5, нельзя из предложения вида Гр. сущ, —is —eager— {tor— {Гр. су1Ц.\) — — to —Глаг. — {Гр. сущ,)2 получить предложение {Гр. су1Ц.)2 —is —eager— {tor— {Гр, сущ.\) —to —Глаг. [например, из John is eager for us to meet Bill («Джон стремится, чтобы мы встретили Билла») получить Bill is eager for us to meet («Билл стремится, чтобы мы встретили»); из John is eager for us to vote out these crooks («Джон стремится, чтобы мы голосовали против этих плутов») получить these crooks are eager for us to vote out («эти плуты стремятся, чтобы мы голосовали против»)], потому что не eager, а eager + complement (дополнение) есть Прил. (в то время как не easy + complement, а easy есть Прил.). Адекватность нашего анализа подтверждается тем, что общее правило субстантивирования предложений вида Гр. сущ. — is — Прил. [строяш^ее, например, John's cleverness («сообразительность Джона») из John is clever («Джон умен, сообразителен»)] преобразует John is eager (for us) to come («Джон стремится, чтобы мы пришли») [которое получается из рис. 7, а и we come («мы идем») по Ti] в John's eagerness for us to come («стремление Джона, чтобы мы пришли»); но оно не преобразует пример (36) в John's easiness to please («легкость Джона угодить»). Далее, общий трансформационный процесс, переводящий составляющие вида the — Сущ. — who (which) — is — Прил. в the — Прил. — Сущ. [например, the man who is old («человек, который стар») в the old man («старый человек»)], преобразует а fellow who is easy to please («парень, которому легко угодить») в an easy fellow to please («парень, которому легко угодить») (потому что easy есть Прил.), но не преобразует а fellow who is eager to please («парень, который стремится угодить») в an eager fellow to please («стремящийся парень угодить») (потому что в этом случае eager — не есть Прил,). Короче, при правильной формулировке этих общих, простых и независимых правил порождается большое разнообразие структур; в то же время другие структуры, на первый взгляд подобные им, не порождаются. Эта степень общности и адекватности описания не достигается при использовании грамматики подстановок, в которой структурным описанием предложения служит единственный С-маркер.
206 Я. Хомский, Дж. А. Миллер Возвратимся к нашей основной теме. В структурных описаниях, даваемых трансформационной грамматикой, грамматические отношения между John и please в примерах (36) и (37) представлены интуитивно правильным образом. Структурное описание примера (36) состоит из двух основных С-маркеров рис. 7, с и d и производного С-маркера рис. 6 (а также из трансформационной истории, т. е. Ти Та, Т^). Структурное описание примера (37) состоит из основных С-маркеров рис. 7, а и 6 и производного С-маркера рис. 6 (с трансформационной историей Т{, 7^2, Tz). Таким образом, структурное описание примера (36) содержит информацию о том, что John — прямое дополнение к please в основном С-маркере рис. 7, rf, а структурное описание примера (37) — о том, что John — подлежащее при please в основном С-маркере рис. 7, Ь. Заметим, что при применении соответственно обобщенной формы Т^ к it is easy to do business with John («легко иметь дело с Джоном») и получении John is easy to do business with («c Джоном легко иметь дело») основной С-маркер снова дает верное описание грамматических отношений в трансформированном предложении, хотя в этом случае подлежащее John не было прямым дополнением к глаголу, как в примере (36). Заметим также, что в наших случаях семантически важная информация содержалась скорее в основных, чем в производных С-маркерах. Данные примеры достаточно типичны и позволяют увидеть основные черты более развитых грамматик. Эти наблюдения заставляют полагать, что трансформационная грамматика может храниться и использоваться только блоком Мо модели восприятия. Блок Mi принимает предложение на входе и дает на выходе его предварительный анализ (например, производный С-маркер, как на рис. 6). Блок Мг вырабатывает структурное описание, содержащее множество С-маркеров и трансформационную историю, т. е. полнее передает грамматические отношения и другую структурную информацию. Для этого он должен использовать все данные трансформационной грамматики. Выходом M={Mi, Mz) является полное структурное описание, приписываемое входному предложению всей хранимой грамматикой; но анализ, проведенный первым блоком AJi, может быть и очень ограниченным. Если память блока Mi сильно ограничена, то он не способен анализировать предложения со слишком сложной структурой, даже такие, которые не имеют повторяющихся самовставлений и в принципе доступны конечным устройствам. Это положение можно использовать, установив различные типы мер, связанных с понимаемостью. Наряду со степенью сложности подчинений и самовставлений в качестве грубой меры структурной сложности
Конечные модели использования языка 207 можно использовать отношение N{Q) количества узлов к количеству терминальных узлов в C-MapKepeQ терминальной цепочки t{Q). Это число грубо измеряет количество подсчетов на входной символ, которые должен выполнить слушающий. Поэтому возрастание N{Q) должно вызвать трудности в понимании t{Q) для устройства с малой памятью, действующего в реальном масштабе времени. Очевидно, N{Q) возрастает, если убывает количество ветвей, идущих из одного узла. Так N{Q) выше для ди- хатомического С-маркера, показанного на рис. 8, а, чем для Рис. 8. Пример меры структурной сложности. Для С-маркера (а) N.{Q) == 7/4; для (Ь) Л^ (Q) == 5/4. С-маркера рис. 8, 6, имеющего то же число терминальных символов. Вспомнив предыдущие рассуждения относительно устройства М, мы мажем ожидать, что в общем случае для основных С-маркеров N{Q) будет больше, чем для производного С-маркера, построенного ограниченным блоком Mi. Другими словами» основной эффект применения трансформации состоит в уменьшении общих размеров приписываемого С-маркера. Это предположение полностью подтверждается. Основные С-маркеры имеют ограниченные, чаще всего дихатомические, ветвления. Ранее ^) мы уже наблюдали, что в производных С-маркерах реальных предложений ветвления в общем случае не дихатомичны; множество производных С-маркеров вообще не может быть описано системами подстановок, потому что в них не ограничено количество ветвлений из одного узла (например, длина сочинительной конструкции). Вопрос о психологической адекватности трансформационной модели может решаться экспериментально. Для этого достаточ-- ко показать, что затруднения, испытываемые человеком при обработке и запоминании трансформированных предложений, зависят от природы, количества и сложности используемых при их построении грамматических трансформаций. ^) См. Хомский Н., Миллер Дж.,, Введение в формальный анализ естественных языков, Кибернетический сборник, вып. 1, «Мир», 1965, стр. 271i
208 Н. Хомский, Цж. А. Миллер Один источник психологических доказательств связан с грам-» матической трансформацией утвердительного предложения в отрицательное. Хорошо известно, что в экспериментах по пониманию смысла возникают затруднения с отрицательными конструкциями (Smoke, 1933). Эти затруднения остаются и тогда, когда утвердительное и отрицательное предложения содержат одинаковое количество информации (Hovland, Weiss, 1953). Далее Уосон (Wason, 1959, 1961) показал, что грамматические различия между утвердительными и отрицательными английскими предложениями вызывают большие трудности, чем логическое различие между истинными и ложными; проверяя или строя простые предложения, испытуемые дольше работали и делали больше ошибок с истинными и ложными отрицательными предложениями, чем с истинными и ложными утвердительными (в эксперименте содержанием предложений были четность и нечетность чисел между 2 и 9). Таким образом, можно грамматически объяснить трудности в использовании отрицательной информации; о том же говорят и наблюдения над древнееврейским языком, в котором отрицание связано с иным способом мышления, чем в английском (Eifermann, 1961). Другой подход иллюстрируется опытами по сопоставлению предложений (Miller, 1962b). В одном из опытов используется множество из 18 элементарных цепочек [например, таких, в которых на первом месте стоит Jane («Джейн»), Joe («Джо») или John («Джон»); на втором — liked («любил(а)») или warned («предупреждал(а)»); на третьем — the old woman («старую женш^ину»), the small boy («маленького мальчика») или the young man («молодого человека»)] и соответствуюш^его множества предложений, которые можно построить из них пассивной, отрицательной или пассивно-отрицательной трансформацией. Брались два таких множества, и испытуемым предлагалось для предложений из одного множества подобрать соответствующие предложения другого. Регистрировался темп их работы, что позволяло определить время выполнения нужных трансформаций. Если предположить, что эти четыре типа предложений узнаются независимо, то установление соответствия между двумя из них не должно быть более трудным, чем между двумя другими. Если же предположить, что четыре типа предложений получаются друг из друга с помощью двух трансформаций (и их инверсий), то некоторые из тестов могут оказаться более легкими, чем другие. Результаты опыта подтверждают второе предположение: отрицательная трансформация выполняется быстрее всего; более сложная пассивная трансформация — несколько медленнее; тесты, требующие обеих трансформаций (от прямой к пассивно- отрицательной или от отрицательной к пассивной), требуют
Конечные модели использования языка 209 столько времени, сколько две простые трансформации, взятые вместе. Например, в условиях опыта для выполнения трансформаций перехода от Jane didn't warn the small boy («Джейн не предупреждала маленького мальчика») к the small boy was warned by Jane («маленький мальчик предупреждался Джейн)» испытуемый тратил в среднем больше 3 сек. В других опытах испытуемому предлагается запомнить мно-» жество предложений, имеющих различные синтаксические структуры (Дж. Мелер, частное сообщение). Например, человек в.быстром, но постоянном темпе читает следующую цепочку из восьми предложений, построенных применением пассивной, отрицательной и вопросительной трансформаций: Has the train hit the car? («Ударил ли поезд машину?») The passenger hasn't been carried by the airplane. («Пассажир не перевозился самолетом».) The photograph has been made by the boy. («Фотография была сделана мальчиком».) Hasn't the girl worn the jewel? («He надела ли девушка драгоценности?») The student hasn't written the essay. («Студент не написал очерк».) The typist has copied the paper. («Машинистка перепечатала статью».) Hasn't the house been bought by the man? («He был ли дом куплен этим человеком?») Has the discovery been made by the biologist? («Сделано ли это открытие биологом?») Окончив, он пытается записать то, что может вспомнить. Потом список зачитывается снова (в другом порядке), он снова пытается вспомнить, и так несколько раз. При этих условиях возникает много синтаксических ошибок, большинство которых заключается в забывании одной из трансформаций. Все происходит так, как будто человек кодирует исходное предложение в какие-то данные, похожие на ядерные предложения плюс обозначения трансформацией, позволяющие правильно реконструировать предложение. При ответе он может вспомнить ядро, но ошибиться в трансформации. Из подобных опытов можно сделать тот предварительный вывод, что ядерные предложения играют центральную роль не только в лингвистическом, но и в психологическом отношении. В пользу психологической адекватности трансформационной грамматики говорит и изучение развития языка детей, но мы не будем на этом останавливаться. В данном разделе мы едва затронули интересующую нас тему. Для ее дальнейшего развития необходимо абстрактное изучение различных типов воспринимающих моделей, содержащих в качестве основной компоненты порождающие процессы. Было бы полезно подробно исследовать типы структур, имеющихся в естественных языках, и формальные черты этих структур, затрудняющие понимание и высказывание речи. Не менее плодотворным
210 Н. Хамский, Дж. А. Миллер И полезным должно быть эмпирическое изучение языка и формальное изучение математических моделей, отражающих психологические явления. 3. к ТЕОРИИ СЛОЖНОГО ПОВЕДЕНИЯ Ясно, что только сложный организм может пользоваться преимуществами символической организации. Субъективно мы воспринимаем мысль как сложное целое, но редко случается выразить ее отдельным звуком или словом. До передачи ее нужно проанализировать и представить в виде последовательности символов. Для отображения вневременных сложностей мысли в последовательный поток речи требуется устройство или структура значительной силы и тонкости, способные переводить информацию в символы. Поэтому создание теории языка является до^ статочно трудным делом. Но эта трудность вознаграждается: поняв что-нибудь о природе человеческого языка, можно использовать те же концепции и методы для понимания других видов сложного поведения. Возьмем в качестве примера сложного поведения любые действия, последовательность которых внутренне организуется и контролируется некоторой иерархической структурой, играющей примерно ту же роль, что С-маркеры при построении грамматических предложений. Не очевидно только, как можно решить, являются ли какие-то нелингвистические действия простыми или сложными; можно принять в качестве критерия сложности воз-> можность прерывать одну часть действий, пока не будет закончена другая. Необходимость анализировать сложные мысли по их компонентам очевидна. Менее очевидно, что при сложной деятельно-* сти одновременно происходит анализ и запоминание одних действий и выполнение других. Скажем, задача X при анализе разбивается на части У^ Уг, Уз, выполняющиеся в указанном порядке. Первоначально внимание обращается на Y\, а У2 и У3 запоминаются. Чтобы выполнить Yu находим, что оно может быть разбито на Zi и Z2, а каждое из них — на еще более мелкие детали. Эта ситуация может быть изображена различными способами: кратким описанием или списочной структурой (Newell, Shaw, Simon, 1959), или деревом — подобно тому, как различными способами даются структурные описания конкретных предложений. В то время как выполняется одна часть всего задания, другие части остаются в памяти и еще не получают оформления. Способность запоминать оставшиеся части и возвращаться к ним в надлежащем порядке необходима для орга-
Конечные модели использования языка 211 низмов, вырабатывающих сложную информацию. Потому тот способ рассуждения, которым мы пользовались при описании предложений, легко обобщается на другие единицы поведения. Для характеристики многих типов сложного поведения особенно удобными представляются ограниченно-бесконечные автоматы вообще и магазинные системы в частности. Различные сложные действия не одинаково сложны. Между простейшими реакциями и наиболее запутанными символическими процессами имеется целый спектр возможностей. Что принять в качестве меры их сложности? По аналогии с результатами лингвистического анализа можно предложить несколько мер. Коротко перечислим их. Информация и избыточность. Разнообразие и стереотипность последовательностей поведения, свойственных организму, являются очевидными параметрами оценки сложности его поведе-* ния (ср. Miller, Frick, 1949; Frick, Miller, 1951). Степень самовставления. Эта мера описывает степень сложности, редко проявляющейся вне области языкового или околоязыкового поведения. Однако теоретическое значение самовставления достаточно велико: оно часто усматривается и в нелингвистических контекстах. Глубина запоминания. Эта мера объема памяти, предложенная Ингве, нужна для определения способности человека выполнять сложные инструкции и составлять для себя сложные планы. Структурная сложность. Отношение общего числа узлов в иерархии к числу терминальных узлов дает оценку сложности, которая в отличие от меры глубины не меняется со временем. Трансформационная сложность. Сложная организация поведений при встрече с новой ситуацией может быть построена трансформацией организаций, развитых ранее в более простых ситуациях. Число используемых трансформаций является очевидной мерой сложности перехода от старых ситуаций к новой. Итак, по аналогии с лингвистической теорией можно при-» нять эти меры; несомненно, можно развить и многие другие, подобные им. Конечно, при беглом знакомстве с некоторым примером деятельности нельзя сразу указать для него значение одной из этих мер. Как и в случае вероятностных мер, для серьезной оценки необходимы повторные наблюдения при различных условиях. Понятно, что многие психологи в своих экспериментальных исследованиях предпочитают избегать анализа сложного поведения; им не оставалось ничего другого, пока не было адекватных способов его описания. Однако примерно с 1945 г. положение быстро меняется. Математика и логика разрабатывают теории, все более влияющие на психологию, а развитие быстродействующих
212 Н. Xомский, Дж. А. Миллер цифровых вычислительных машин дало инструмент для проверки гипотез, который показался бы фантастическим предыдущему поколению. Сегодня среди экспериментальных психологов стало общепринятым излагать свои теории в терминах машинных программ, моделирующих поведение. К теории, выраженной в такой форме, стоит попытаться применить какие-либо из указанных мер сложности. Миллер, Галантер и Прибрем (Miller, Galanter, Pribram, 1960) обсуждали организацию сложного поведения в терминах иерархии проверочно-операционных блоков (ПО-блоков). Работа ПО-блока состоит из двух частей: проверки, совместим ли некоторый стимул с порожденным внутри критерием, и операции, €> ПроВерна Оператор О ■© Рис. 9. Простой ПО-блок. пытающейся уменьшить различия между внешним стимулом и внутренним критерием. Критерий порождается моделью и представляет собой гипотезу о действительном положении вещей и возможных результатах наблюдений. Операция или исправляет критерий в свете новых полученных сведений, или вызывает деятельность, меняющую внутреннее состояние и (или) внешнее окружение организма. Проверка и связанная с ней операция соединяются в цикл с обратной связью, выполняющий итерацию согласования до совпадения стимула с критерием .ПО-блок изображен в виде блок-схемы на рис. 9. Иерархия ПО-блоков получается разделением шага решения задачи в последовательность ПО-блоков; затем снова анализируется шаг решения задачи каждого из них. Отсюда не следует, что иерархия строится исключительно от стратегии к тактике или исключительно от тактики к стратегии — несомненно используются оба пути. Пример структуры, получаемой этим путем, дан на схеме рис. 10. Эти схемы являются просто конечными автоматами, которые мы рассматривали в гл. 12 и которые удобно изображать ориентированными графами (ср. Кагр, 1960). Начальный или конечный элемент или операцию схемы заменяем узлом с идущей от
Конечные модели использования языка 213 Р и с. 10. Иерархическая система ПО-блоков. него помеченной стрелкой; проверку заменяем узлом с двумя помеченными стрелками. Потом заменяем неветвящуюся последовательность стрелок одной стрелкой с составной меткой. Граф, соответствующий схеме рис. 10, дан на рис. 11. При таком изображении непосредственно видно множество троек, определяющих конечный автомат. ПО-иерархия является общей формой конечного автомата в смысле гл. 12. По теореме 2 гл. 12 для любого конечного автомата имеется эквивалентный автомат, представленный конечным числом конечных выражений вида ^i(^2, ..., Л^)*Л„г+1, где элементы Л2, . .., Am — выражения того же вида, и т. д., т. е. иерархией, подобной описанной выше. Следовательно, для любой конечной модели можно предложить эквивалентную модель в форме (обобщенной) ПО-иерархии.
214 Н. Хомский, Дж. А. Миллер Так как ПО-иерархия аналогична программе вычислительной машины, ее можно рассматривать как план, который система стремится выполнить. В памяти хранятся части плана, содержащие намерения системы в данный момент. При такой интерпретации конечные устройства, обсуждавшиеся в этих главах, пригодны для описания более общих процессов поведения, чем т,Е Рис. 11. Граф, соответствующий блок-схеме рис. 10. язык и коммуникация. Этот подход к исследованию нелингвистических явлений неформально обсуждался Миллером, Галанте- ром и Прибремом. Главный предмет теорий этого типа — происхождение новых планов. С первого взгляда ясно, что богатейший источник новых планов — наши старые планы, измененные для новой ситуации. Потому естественно рассматривать планы как объекты, которые можно формировать и трансформировать в соответствии с определенными правилами; но о характере этих построений нам сейчас очень мало известно. Изучение трансформационных грамматик позволяет догадываться о том, как комбинируются и перестраиваются планы в предположении об их близкой ана логии с С-маркерами. Как и в случае грамматических трансформаций, плодотворные трансформации поведения должны комбинировать два или более простых планов в один. Из дан-
Конечные модели использования языка 215 ной и двух предшествующих глав нашей работы ясны трудности описания трансформационных систем, преследующего две цели: эмпирическую адекватность и возможность абстрактного изучения. С вопросом об источнике наших планов тесно связан вопрос о некой системе, находящейся в том же отношении к плану, как грамматика к С-маркеру или язык программирования к конкретной программе. Какую форму имеют хранимые правила, посредством которых мы строим, оцениваем и трансформируем новые планы? По-видимому, в различных ситуациях нашим планированием руководят различные множества правил, и только терпеливое наблюдение и анализ каждой системы поведения дадут возможность описать ее правила. Нельзя надеяться на то, что теории различных видов сложного человеческого поведения получатся как простое и естественное обобщение теории грамматических структур. Однако организм, достаточно сложный и высоко организованный для выполнения операций языкового общения, не откажется от их сложности и структуры, переходя к неязыковой деятельности. В частности, такой организм может строить речевые планы для выполнения неречевых действий. Речевые механизмы вырабатывают предложения, а у цивилизованных людей предложения имеют силу контролировать мысли и поступки. Таким образом, данные главы, находясь вне принятых пределов психологии, поднимают проблемы, решение которых является целью любой удовлетворительной психологической теории сложного человеческого поведения. ЛИТЕРАТУРА Attneave F., Applications of information theory to psychology, New York, Holt-Dryden, 1959. Burton N. G., L i с к 1 i d e r J. C. R., Long-range constraints in the statistical structure of printed English, Amer. J. Psychol., 68 (1955), 650—653. С a rn a p R., В a r - H i 11 e 1 Y., An outline of a theory of semantic information. Res. Lab. Electronics, Cambridge, Mass. Inst. Tech., Tech. Rept. 247, 1952. С h a p a n i s A., The reconstruction of abbreviated printed messages, /. exp. Psychol., 48 (1954), 496—510. Cherry С On human communication. New York, Technology Press and Wiley, 1957. Chomsky N., Logical structure of linguistic theory. Microfilm, Mass. I^ist. Tech. Libraries, 1955. Condon E. v.. Statistics of vocabulary, Science, 67 (1928), 300. С r 0 n b a с h L. J., On the non-rational application of information measures in psychology, In Quastler H. (Ed.), Information theory in psychology, Glencoe, III., Free Press, 1955, 14—26, 15*
216 Н. Xомский, Дж. А. Миллер Eifermann R. R., Negation: а linguistic variable. Acta Psychol, 18 (1961), 258—273. Estoup J. В., Gammes stenographique (4th ed.), Paris, 1916. F a n 0 R. M., The transmission of information. Res. Lab. Electronics, Cambridge, Mass. Inst. Tech., Tech. Rept. 65, 1949. Fa no R. M., The transmission of information. New York, Wiley, 1961. (Русский перевод: Ф a н о P., Передача информации, М., 1965.) F е i п S t е i п А., Foundations of information theory. New York, McGraw-Hill, 1958. (Русский перевод: Файнстейн A., Основы передачи информации, М., 1960.) F е 11 е г W., An introduction to probability theory and its applications (2nd ed.). New York, Wiley, 1957. (Русский перевод: Феллер В. Введение в теорию вероятностей и ее приложения, М., 1964.) Fletcher Н., Speech and hearing in communication (2nd ed.). New York, Van Nostrand, 1953. F r i с к F. С, Miller G. A., A statistical description of operant conditioning, Amer. J. Psychol, 64 (1951), 20—36. F r i с к F. С, S u m b у W. H., Control tower language, /. acoust. Soc. Amer., 24 (1952), 595—597. Fritz E. L., G r i e r G. W., Jr., Pragmatic communications: A study of information flow in air traffic control. In Quastler H. (Ed.), Information theory in psychology, Glencoe, 111. Free Press, 1955, 232—243. Garner W. R., Uncertainty and structure as psychological concepts. New York, Wiley, 1962. Гнеденко В. В., Колмогоров А. Н., Предельные распределения для сумм независимых случайных величин, М—Л., 1949. Halle М., Stevens К. N., Analysis by synthesis. In Proc. Seminar on Speech Compression and Production, AFCRC-TR-59-198, 1959. H a 11 e M., Stevens K. N., Speech recognition: A model and a program for research, IRE Trans, on Inform. Theory, IT-8 (1962), 155—159. Hardy G. H., Little wood J. E., Pol у a G., Inequalities (2nd ed.), Cambridge, Cambridge Univer. Press, 1952. (Русский перевод 1-го изд.: Харди Г. Г., Литтлвуд Дж. Е., Полна Г., Неравенства, М., 1948.) Hartley R. V., The transmission of information. Bell System Tech. J., 17 (1928), 535—550. Hovland С I., Weiss W., Transmission of information concerning concepts through positive and negative instances, /. exp. Psychol, 45 (1953), 175—182. Huffman D. A., A method for the construction of minimum-redundancy codes, Proc. IRE, 40 (1952), 1098—1101. Karp R. M., A note on the application of graph theory to digital computer programming. Information and Control, 3 (1960), 179—190. К a t z J., F 0 d 0 r J., The structure of a semantic theory. Печатается в Language. Перепечатано в К a t z J., F о d о r J., Readings in the philosophy of language. New York, Prentice-Hall, 1963. Хинчин A. Я., Понятие энтропии в теории вероятностей. Успехи матем. наук, 8, № 3 (1953), 3—20. Luce R. D., Individual choice behavior. New York, Wiley, 1959. Luce R. D. (Ed.), Developments in mathematical psychology, Glencoe, 111., Free Press, 1960. Mandelbrot В., An informational theory of the structure of language based upon the theory of the statistical matching of messages and coding. In Jackson W. (Ed.), Proc. symp. on applications of communication theory, London, Butterworth, 1953.
Конечные модели использования языка 217 Mandelbrot В., Linguistique statistique macroscopique, In A p о s t e 1 L., Mandelbrot В., M о r f A., Logique, langage and theorie de I'infor- mation, Paris, Univ. de France, 1957, 1—78. Mandelbrot В., Les lois statistique macroscopiques du comportment, Psychol Frangaise, 3 (1958), 237—249. Mandelbrot В., A note on a class of skew distribution functions: Analysis and critique of a paper by H. A. Simon, Information and Control, 2 (1959), 90—99. Mandelbrot В., On the theory of word frequencies and on related Marko- vian models of discourse. In Jakobson R. (Ed.), Structure of language in its mathematical aspect, Proc. 12th Symp. in App. Math., Providence, R. I, American Mathematical Society, 1961, 190—219. Марков A. A., Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепь, Изв. Акад. Наук, 7, № 3 (1913), 153—162. Marschak J., Remarks on the economics of information. In Contributions to Scientific Research in Management, Berkeley, Calif., Univer. of California Press, 1960, 79—98. Matthews G. H., Analysis by synthesis of sentences of natural languages. In Proc. 1st Int. Cong, on Machine Translation of Languages and Applied Language Analysis, 1961, Teddington, England, National Physical Laboratory (в печати). McMillan В., The basic theorems of information theory, Ann. Math. Stat., 24 (1953), 196—219. Miller G. A., Language and communication. New York, McGraw-Hill, 1951. Miller G. A., What is information measurement? Amer. Psychologist, 8 (1953), 3—11. Miller G. A., The magical number seven, plus or minus two: Some limits on our capacity for processing information, Psychol. Rev., 63 (1956), . 81—97. Miller G. A., Some effects of intermittent silence, Amer. J. Psychol., 70 (1957), 311—313. Miller G. A. Decision units in the perception of speech, IRE Trans. Inform. Theory, IT-8, № 2 (1962a), 81—83. Miller G. A., Some psychological studies of grammar, Amer. Psychologist, 17 (19626), 748—762. Miller G. A., F r i с к F. С, Statistical behavioristics and sequences of responses, Psychol. Rev., 56 (1949), 311-324. Miller G. A., Friedman E. A., The reconstruction of mutilated English texts. Information and Control, 1 (1957), 38—55. Miller G. A., G a 1 a n t e r E., Pribram K., Plans and the structure of behavior. New York, Holt, I960. Miller G. A., H e i s e G. A., L i с h t e n W., The intelligibility of speech as a function of the context of the test materials, /. exp. Psychol, 41 (1951), 329—335. Miller G. A., Newman E. В., Tests of a statistical explanation of the rank-frequency relation for words in written English, Amer. J. Psychol, 71 (1958), 209—258. Miller G. A., Newman E. В., Friedman E. A., Length-frequency statistics for written English, Information and Control, 1 (1958), 370—398. Miller G. A., S e 1 f r i d g e J. A., Verbal context and the recall of meaningful material, Amer. J. Psychol, 63 (1950), 176—185. Newell A., Shaw J. C, Simon H. A., Report on a general problem-solving program. In Information Processing. Proc. International Conference on Information Processing, UNESCO, Paris, June 1959, 256—264.
218 Н. Xомский, Дж. Л. Миллер Newman Е. В., The pattern of vowels and consonants in various languages, A men J, Psychol., 64 (1951), 369—379. P a r e 10 v., Cours d'economie politique, Paris, 1897. Quastler H. (Ed.), Information theory in psychology, Glencoe, 111., Free Press, 1955. Shannon С е., A mathematical theory of communication. Bell System. Tech. J., 27 (1948), 379—423. (Русский перевод: Шеннон К., Математическая теория связи, в сб. Шеннон К., Работы по теории информации и кибернетике, М., 1963, 243—332.) Shannon С. Ё^, Prediction and entropy of printed English, Bell System. Tech. J., 30 (1951), 50—64. (Русский перевод: Шеннон К-, Предсказание и энтропия печатного английского текста, в сб. Ш е н н о н К-, Работы по теории информации и кибернетике, М., 1963, 669—686.) Skinner В. F., Verbal behavior. New York, Appleton-Century-Crofts, 1957. Smoke K. L., Negative instances in concept learning, /. exp. Psychol., 16 (1933), 583—588. S 0 m e r s H. H., The measurement of grammatical constraints. Language and Speech, 4 (1961), 150—156. T h 0 r n d i к e E. L., L о r g e I., The teacher's word book of 30 000 words. New York, Bureau of Publications, Teachers College Columbia University, 1944. To da M., Information-receiving behavior in man, Psychol. Rev., 63 (1956), 204—212. W a s 0 n P. C, The processing of positive and negative information. Quart. J. exp. Psychol., и (1959), 92—107. W a s 0 n P. C, Response to affirmative and negative binary statements, Brit. J. Psychol., 52 (1961), 133—142. Wiener N., Cybernetics, New York, Wiley 1948. (Русский перевод: Винер Н., Кибернетика, М., 1958.) Willis J. С, Age and area, Cambridge, Cambridge Univ. Press, 1922. Y n g V e V. H., A model and an hypothesis for language structure, Proc. Am. Phil. Soc, 104 (1960), 444—466. Yngve V. H., The depth hypothesis. In Jakobson R. (Ed.), Structure of language and its mathematical aspect, Proc. 12th Symp. in App. Math. Providence, R. I., American Mathematical Society, 1961, 130—138. (Русский перевод: И н г в e В., Гипотеза глубины, в сб. Новое в лингвистике, вып. 4, М., 1965, 126—138.) Yule G. и., А mathematical theory of evolution, based on the conclusions of Dr. J. С Willis, FRS, Phil. Trans. Roy. Soc (London), B213 (1924), 21—87. Yule G. U., The statistical study of literary vocabulary, London, Cambridge Univ. Press., 1944. Z i f f P., Semantic analysis, Ithaca, Cornell Univ. Press., 1960. Z i p f G. Km The psychobiology of language, Boston, Houghton-Mifflin, 1935. Z i p f G. K., Human behavior and the principle of least effort, Cambridge, Mass., Addison-Wesley, 1949»
Меры синтаксической сложности^) я. БаР'Халлел, А. Катер, Э. Шамир СТЕПЕНЬ ГНЕЗДОВАНИЯ И ГЛУБИНА Мы будем придерживаться, за небольшими исключениями, обозначений и терминологии работы [2]. Пусть V есть данное множество — словарь. Элементы V называются символами и обозначаются большими латинскими буквами. Конечные последовательности символов из V, включая пустую последовательность, называются цепочками в V и обозначаются малыми латинскими буквами. Множества цепочек в V называются языками в V и обозначаются буквой L (вообще говоря, с нижними индексами). Если x^L, то говорят, что х есть предложение языка L. Множество всех цепочек в V обозначается Wy Длина цепочки X есть количество вхождений символов в нее. Под грамматикой мы понимаем конечную систему правил, определяющую язык. Грамматики обозначаются большими готическими буквами. Определение 1.1. а) Бесконтекстная грамматика (БКГ) ^) есть упорядоченная четверка ® = (I/, Р, Г, S), где (i) V — конечный словарь', (ii) Р — конечное множество правил вида X-^ х, где X^V, xeWv.xфX; (iii) Т — подмножество V (терминальный словарь), причем ни один из его элементов не входит в левую часть правила из Р\ (iv) S (начальный символ) — выделенный элемент из V \Т (вспомогательного словаря). б) у непосредственно порождает ^(г/и^-г), если y = uXv, z = = uxv и Х-^х 6 Р. *)' В а г - Н i 11 е 1 Y., К а s h е г А., Shamir Е., Measures of syntactic complexity; The Hebrew University of Jerusalem, Applied Logic Branch, Technical Report № 13, Jerusalem, Israel, August 1963. (Помещен перевод только гл. 1 — „Degree of nesting and depth". — Прим. ред.) Работа была выполнена для Секции информационных систем Научно-исследовательского отдела ВМФ США по контракту № 62558-3510, NR 049—130. 2) Также называется простой грамматикой составляющих (ПГС).
220 И. Бар-Хиллел, А. Катер, Э. Шамир в) у порождает z{y=^z), если суи^ествует последовательность цепочек ^0» ^1 Zr (/•>0), такая, что y=-ZQ, Z, = Z, Zi^^Zl^Zi (/=1,...,Г). Последовательность Zq, . .., Zr называется деревом порождения Z из у, г) X — предложение, порождаемое грамматикой ®, если х — цепочка в Т и Szz^x, L{®) есть множество всех предложений, порождаемых грамматикой ®. /\ Е D В D С Рис. 1. Использованные правила: S->ABC, A-^BD, В-> ED, C->BDC, С->Е. д) Язык L представим БК-грамматикой, или есть бесконтекстный язык {БКЯ), если суи^ествует Б КГ ®, такая, что L = L{®). Представим непосредственное порождение вида uAv =ф uBqBi ... Bj^v следующей схемой: uAv Во В^ ... Bk * Тогда любое порождение Xzi^x можно графически представить размеченным деревом порождения (или же: деревом, С-марке- ром, см. [3]), см. рис. 1. Такое дерево представляет собой ветвящуюся схему, состоящую из узлов, каждый из которых помечен символом из V.
Меры синтаксической сложности 221 При непосредственном порождении, указанном выше, каждый узел, помеченный Bj (1-</-<й), следует за узлом, помеченным Л. В любом дереве существует ровно один узел, который не еле-* дует ни за каким узлом; этот узел называется вершиной дерева. Узлы, за которыми не следует никаких узлов, называются терминальными. Иногда удобно пользоваться специальными обозначениями узлов. Обозначим вершину через О, а следующие за ней узлы слева направо (или, наоборот, справа налево; нам придется использовать этот обратный способ обозначения)—через 00, 00 001 010 01) 020 021 022 0000 0001 0200 0201 0220 0221 022"2 02200 02201 02220 Рис. 2. Дерево, изображенное на рис. 1. 01, ..., 0/г и т. д. Вообще если узел обозначен сложным индексом а и за ним следует k+l узлов, то эти узлы обозначаются слева направо (справа налево) через аО, al, ..., a/j. Упорядочивая индексы лексикографически, мы тем самым вводим порядок для узлов (рис. 2). Ясно, что для получения цепочки л:, порождение которой представлено деревом, нужно соединить символы, которыми помечены терминальные узлы, в соответствии с указанным порядком. Путь в дереве есть последовательность узлов, начинающаяся с вершины, в которой каждый узел (кроме вершины) следует за предыдущим в последовательности. Путь является полным, если его последний узел терминальный (т. е. если путь ведет к терминальному узлу). Очевидно, что каждый (терминальный) узел в дереве определяет единственный (полный) путь, ведущий к нему. Два крайних терминальных узла (т. е. самый левый и самый правый) и все узлы на путях, ведущих к ним, называются
222 И. Бар-Хиллел, А. Кашер, Э. Шамир граничными узлами дерева. Все остальные узлы называются внутренними узлами. Каждый узел N в дереве естественным образом определяет поддерево с вершиной Л^. Это поддерево, рассматриваемое независимо от исходного дерева, само является деревом; на поддерево очевидным образом переносятся введенные выше понятия. Вернемся к сложным индексам. Абсолютное значение индекса а (и соответствующего узла) определяется как сумма всех простых^ индексов, входящих в а. Устраним из сложных индексов все простые индексы, кроме последнего; тогда абсолютное значение узла Л^ есть сумма всех таких индексов узлов, лежащих на пути в N. Эти последние обозначения (использующие только один индекс) рассматривались Ингве [7]. Следуя его примеру и учитывая исследования Хомского [6], введем некоторые определения. Определение 1.2. Пусть Г есть дерево; левая глубина Г, обозначаемая ^{Т), есть максимум абсолютных величин узлов Г. Правая глубина Г, обозначаемая р(Г), определяется точно так же, но при обратной нумерации узлов (справа налево). Смысл этих понятий будет рассмотрен после введения двух других понятий, предложенных Хомским [5, 6], и после выяснения некоторых их основных свойств. Определение 1.3. Узел дерева называется гнездован* ным (самовставленным, СВ), если поддерево, имеющее его вер- шиной, содержит нетерминальный (отмеченный тем же символом) внутренний узел (по отношению к этому поддереву). Та- кие два узла образуют гнездованную (самовставленную) пару. Определение 1.4. а) Степень гнездования v{V) (терминального) дерева Г есть наибольшее целое число т со следуюи^им свойством: суи^ест- вует полный путь в Г, проходящий через т+1 узлов Nq, Ni, ... ..., Nm, в котором каждый Ni (l^Ci-^m) является внутренним узлом в поддереве с вершиной iVi-i- б) Если узлы Ni (1-</^/п) помечены одним и тем же символом, то определяемое таким образом число называется степенью самовставления е(Г) ^). *) Последнее определение несколько отличается от данного в работе Хомского ([5], стр. 11)—у него требуется еще соблюдение неравенства обозначенного {iv)j Это может немного изменить ряд результатов.
Меры синтаксической сложности 223 Теорема 1.1. Имеют место следующие неравенства: а) e(r)<v(r); б) v(r)<p(r), v(r)<?.(r); в) если М есть количество вспомогательных символов грамматики, то {[х] означает целую часть х). Доказательство. Доказательства п. а) и б) очевидны. Для доказательства п. в) заметим, что если v(r)>feAl, то существует по крайней мере kM+l узлов, удовлетворяющих условию (°) Д 00000 00001 ото они Рис. 3. На (б) видно, что левая глубина может быть сколь угодно большой (то же для р). определения 1.4 (а), причем все они, кроме последнего, помечены вспомогательными символами. Следовательно, по меньшей мере k из них помечены одинаково, откуда '(г»*=т. Поскольку из п. в) следует неравенство v(r)^M(e(r)+ 1), то для данной грамматики ® меры v(r) и 8(Г) можно рассматривать с точностью до постоянного множителя как эквивалентные. Но этого нельзя сказать о v(r) (или 8(Г)) и о мерах глубины р(Г) и Я (Г), так как может быть v(r) = l, тогда как р(Г) и Я(Г) как угодно велики (рис. 3). Очевидно, что обе меры глубины р(Г) и Я(Г) также несравнимы.
224 Я. Бар-Хиллел, А. Кашер, Э. Шамир Однако следующий результат, приводимый без доказательства, указывает на некоторую связь между р{Х) и е. Теорема 1.2. Для любой БК-грамматики существуют две константы йр и Ьр {Uj^ и Ьх), зависящие только от грамматики, такие, что для любого дерева порождения Г в грамматике выполняется неравенство р(Г)>ар8(Г) + 6р (А(Г)>а,8(Г) + й,) {равенство может иметь место для некоторых деревьев). Рассмотрим теперь дерево Fi, в котором один из терминальных узлов N «заменен» на другое дерево Гг (Л^ получает при S S Рис. 4. этом пометку вершины Гг). Обозначим полученное в результате такой композиции дерево через Г (рис. 4). Теорема 1.3. Имеют место следующие неравенства: а) р(Г)<р(Г1)^р(Г2); к{Т)<Х{Г,)+Х{Т2)\ б) v(r)<v(ri)+v(r2) + l; 8(Г)<8(Г1)+8(Г2)+1. Более того, если N лежит на пути, определяющем соответствующую глубину или степень Ти то в п. а) имеет место равенство, причем либо п, б) превращается в равенство, либо v(r) = v(r,) + v(r2). Доказательство. Все утверждения очевидны. Нужно лишь пояснить, почему v(r) (или е(Г)) может быть на единицу
Меры синтаксической сложности 225 больше суммы. Такой случай возможен тогда, когда на одном пути в Г лежат три узла М, N и Р, такие, что ни (М, Л^), ни (Л^, Р) не являются гнездованными парами, но (М, Р) таковой является (рис. 5). Заметим, что аддитивность во второй части теоремы, вообще говоря, не верна для 8(Г), так как метки наибольших самовставленных последовательностей в Ti и Гг могут быть различны. Понятия р, Ji, 8 и V, введенные выше как меры сложности деревьев, впервые появились в работах Ингве [7] н Хомского [5, 6], занимавшихся построением моделей для объяснения лингвистического поведения при использовании естественных языков. В работе Хомского [6] имеется детальное рассмотрение и сравнение Рис.5. обоих подходов и объяснение пути их возникновения (см. также работу Бар-Хиллела [1], вторая лекция). Здесь мы кратко подытожим некоторые основные моменты. Оба автора считают, что модель должна представляться как полностью конечное устройство D, обычно называемое конечным автоматом с выходом (или конечным преобразователем). Это устройство работает с предложениями языка (как с входами или как с выходами) слева направо. Кроме того, предполагается, что «постоянная память» устройства D содержит БК- грамматику языка. В модели Ингве (которая вначале предназначалась для описания поведения говорящего) устройство D при порождении предложений строит деревья порождения от вершины к терминальным узлам и слева направо. Это значит, что если встречается непосредственное порождение ЛгфВо...^^, в котором Bj есть самый левый нетерминальный символ, то терминальные символы Во, ..., Bj^i подаются на выход, а Bj+i, . .., В^ по- меш,аются в промежуточную память, причем развертывание Bj+i начинается лишь после полного порождения поддерева с вершиной Bj.
226 И. Бар'Хиллел, Л. Кашер, Э. Шамир Теперь легко убедиться, что р(Г), или правая глубина, есть максимальное количество символов в промежуточной памяти во время порождения Г. Другими словами, если объем промежуточной памяти фиксирован и равен k, то D может иметь дело только с такими деревьями, для которых р(Г)"<^. Если считать, что D работает с деревьями в противоположном направлении, от терминальных узлов к вершине (но также слева направо), то роль р(Г) будет играть левая глубина ^{Т). Заметим, что для ограниченности р(Г) должно ветвиться только ограниченное число символов, не являющихся крайними правыми; с другой стороны, крайние правые символы могут ветвиться произвольно часто. Таким образом, дерево должно быть преимущественно право-рекурсивным. Аналогично дерево, в котором ограничено Я (Г), преимущественно лево-рекурсивно. Пусть на способ работы D с деревьями не накладывается никаких ограничений. Тогда естественной мерой становится степень гнездования. Действительно, из работы Хомского [4] вытекает следующее утверждение. Можно построить устройство W и строго монотонную фикцию gi{m)^ такие, что если объем памяти 4f есть т, то Ч^ может иметь дело с теми и только теми деревьями Г (из грамматики ®), для которых v{T)'^gi{m). Ввиду эквивалентности мер v(r) и 8(Г) тот же результат (с другой функцией g2{m)) верен и для 8(Г); на самом деле результаты Хомского в большинстве случаев сформулированы для 8(Г). В работе Хомского [6] имеется критика более ограничивающих предположений, приводящих к р(Г) или Я (Г). Однако, даже если говорить о непомеченных деревьях, не видно причин, почему должна предпочитаться лево-рекурсивность или право- рекурсивность; степень гнездования кажется нам более адекватной мерой сложности. Добавим несколько замечаний, объясняющих, почему степень гнездования в некотором смысле более естественная мера, чем степень самовставления. Степень гнездования (как и обе глубины) зависит только от дерева и не зависит от пометок. Это не так в случае степени самовставления. По этой причине v(r) лучше сравнивать с р(Г) и >и(Г), которые сами по себе полезны во многих случаях. Отсюда также возникает неаддитивность 8(Г) в теореме 1.3. Однако такого рода аддитивность кажется естественным формальным требованием для адекватности предлагаемых мер сложности. Другое следствие указанной зависимости от пометок заключается в том, что 8 (Г) очень неустойчива даже по отношению
Меры синтаксической сложности 227 К небольшим изменениям в грамматике. Например, рассмотрим дерево Г, для которого 8(Г)=^ и А — единственный самовстав- ленный символ. Положим A=Ai и добавим к грамматике все правила, содержащие Л, в которых А заменено на Лг. Будем для удобства считать k четным и заменим каждое второе вхождение А во всех путях на Лг. Ясно, что в этом случае е уменьшится на kl2, а V не изменится. Подобным же образом г может быть уменьшена в т раз для любого натурального т путем введения т символов, копирующих Л. Итак, довольно ясно, что гнездование — основное явление, от которого зависит синтаксическая сложность предложений. Именно за счет гнездования возникает зависимость между частями слева и справа от гнездованного элемента ^). л ИТЕРАТУРА 1. Ваг-Hi И el Y., Four lectures on algebraic linquistics and machine translation, Hebrew University, Jerusalem, 1963. 2. В a r - H i 11 e 1 Y., P e r 1 e s M., Shamir E., On formal properties of simple phrase structure grammars, Zeitschrift fur Phonetik, Sprachwissen- schaft und Kommunikationsforschung, 14 (1961), 143—172. 3. Cb о m s к у N., Three models for the description of language, IRE transactions on information theory, IT-2 (1956), 113—124. (Русский перевод: X о м с к и й Н., Три модели для описания языка. Кибернетический сборник, вып. 2, ИЛ, 1961, 237—266.) 4. Chomsky N., On certain formal properties of grammars. Information and control, 2 (1959)^ 137—167. (Русский перевод: Хомский Н., О некоторых формальных свойствах грамматик. Кибернетический сборник, вып. 5, ИЛ, 1962, 279—312.) 5. Chomsky N., On the notion «rule of grammar». Proceedings of symposia in applied mathematics, vol. 12, Amer. Math. Soc, 1961, 6—24. (Русский перевод: Хомский Н., О понятии «Правило грамматики», в сб. «Новое в лингвистике», вып. 4, «Прогресс», 1965, 34—65.) 6. Chomsky N., Formal properties of grammars, Handbook of mathematical psychology, vol. 2, ch. 12, Wiley, 1963, 328—418. (Русский перевод: Хомский п., Формальные свойства грамматик. Кибернетический сборник, новая серия, вып. 2, «Мир», 1966, 121—230.) 7. У п g V е V. Н., А model and an hypothesis for language structure. Proceedings of the American Philosophical Society, 104 (1960), 444—466. ') Естественно считать, что эта зависимость приводит к перегрузке памяти и внимания. Остается исследовать, какие дополнительные затруднения (если они существуют)^ обязаны самовставленности в дополнение к следствиям гнездования.
СОДЕРЖАНИЕ Математические вопросы Дж. Мак-Вильям с. Структура и свойства бинарных циклических алфавитов. Перевод И. И. Грушка 7 Т. С. X у. Параллельное упорядочивание и проблемы линии сборки. Перевод В. В. Мартынюка 43 Дж. Хартманис, Р. Е. Стирнз. О вычислительной сложности алгоритмов. Перевод В, А. Душского 57 Ф. Вольф, Д ж. Данциг. Марковские цепи и линейное программирование. Перевод И. Л. Маховой 86 В. С. Дж е в е л л. Управляемые полумарковские процессы. Перевод В. В, Рыкова 97 Математическая лингвистика Н. Хо м с к и й, Д Ж4" А. Миллер. Конечные модели использования языка. Перевод М. И. Белецкого 141 И. Бар-Хиллел, А. Кашер, Э. Шамир. Меры синтаксической сложности. Перевод С. Я. Фитиалова 219 КИБЕРНЕТИЧЕСКИЙ СБОРНИК Новая серия Выпуск 4 Редактор //. Ф. Музылева Переплет художника В. Е. Вольф. Художественный редактор В. И. Шаповалов Технический редактор Н. А. Иовлева Сдано в производство 23/ХП 1966 г. Подписано к печати 25/1V 1967 г. Бумага 60x90 Vie=7,13 бум. л. 14,25 печ. л. Уч. -изд. л. 12,98. Изд. № 1/4123. Цена 1 р. 08 к. Зак. 477. (Темплан 1967 г. изд-ва «Мир», пор. № 13). Издательство «Мир», Москва, 1-й Рижский пер., 2 Ленинградская типография № 2 имени Евгении Соколовой Главполиграфпрома Комитета по печати при Совете Министров СССР, Измайловский проспект, 29.